批量下载公众号文章并抓取数据:阅读数点赞数在看数留言数等导出备份excel
批量下载公众号文章我是通过抓包用python下载的,我在之前的文章说过,下载效果如图:


下载的excel文件是文章数据,包含了文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数等, 深圳卫健委的阅读数都是10万+:

文章下的留言 也可以下载到excel,包含文章日期,文章标题文章链接,留言昵称,留言内容,点赞数,回复和留言时间等 ,比如深圳卫健委在2月份就有1万6千多条留言。

接着可以用python来分析excel里的数据,wechat=pd.read_csv('xxx公众号历史文章.csv',encoding='utf-8')
查看文章总数量:
len(wechat)
查看阅读数总数:
>>> wechat.阅读数.sum()
文章发布作者前5的文章列表:
>>> wechat.文章作者.value_counts().sort_values(ascending=False).head(5)
阅读数10万+文章列表:
>>> wechat[wechat.阅读数>100000]
文章日期 文章标题 文章链接 ... 阅读数 在
阅读数排行前10的文章列表:
>>> wechat[['文章日期','文章标题','文章链接','阅读数']].sort_values(by='阅读数', ascending=False).head(10)
更新版:整理下苏生不惑开发过的那些工具和脚本mp.weixin.qq.com/s/u9PTjbR5B5-od9fC_lyXLA

如果只是下载单篇文章的内容,图片,视频,音频,封面,我也写了个工具:
神器又更新了,解放双手,一键下载mp.weixin.qq.com/s/md-26TD4VkbMiwlyFjfXXQ

下载的音频文件保存在audio目录,视频文件保存在video目录,封面保存在cover目录,图片保存在images目录,文章内容保存在html目录,非常清晰。


还没人赞这篇日记