快速注册

批量下载公众号文章并抓取数据：阅读数点赞数在看数留言数等导出备份excel

苏生不惑 2022-12-07 08:38:55 北京

批量下载公众号文章我是通过抓包用python下载的，我在之前的文章说过，下载效果如图：

下载的excel文件是文章数据，包含了文章日期，文章标题，文章链接，文章简介，文章作者，文章封面图，是否原创，IP归属地，阅读数，在看数，点赞数，留言数，赞赏次数等，深圳卫健委的阅读数都是10万+：

文章下的留言也可以下载到excel，包含文章日期，文章标题文章链接，留言昵称，留言内容，点赞数，回复和留言时间等，比如深圳卫健委在2月份就有1万6千多条留言。

接着可以用python来分析excel里的数据，wechat=pd.read_csv('xxx公众号历史文章.csv',encoding='utf-8')

查看文章总数量：

len(wechat)

查看阅读数总数：

>>> wechat.阅读数.sum()

文章发布作者前5的文章列表：

>>> wechat.文章作者.value_counts().sort_values(ascending=False).head(5)

阅读数10万+文章列表：

>>> wechat[wechat.阅读数>100000]
           文章日期                  文章标题                                               文章链接  ...     阅读数  在

阅读数排行前10的文章列表:

>>> wechat[['文章日期','文章标题','文章链接','阅读数']].sort_values(by='阅读数', ascending=False).head(10)

如果只是下载单篇文章的内容，图片，视频，音频，封面，我也写了个工具：

下载的音频文件保存在audio目录，视频文件保存在video目录，封面保存在cover目录，图片保存在images目录，文章内容保存在html目录，非常清晰。

科技互联网社会热点情感美食

回应转发赞收藏

还没人赞这篇日记

目前就职于新浪，公众号苏生不惑

苏生不惑的最新日记 · · · · · · ( 全部 )