2023 年苏生不惑开发的第 1 个工具:雪球文章批量下载
苏生不惑第416
篇原创文章,将本公众号设为星标,
第一时间看最新文章。
之前分享过我写的几个工具更新版:整理下苏生不惑开发过的那些工具和脚本 ,周末我用python又写了个雪球的批量下载工具,工具地址在公众号苏生不惑后台回复 雪球
。
打开工具提示输入雪球主页地址和浏览器cookie,比如爱在冰川这个号 https://xueqiu.com/u/4104161666,cookie 在浏览器控制台获取:

下载效果如图:

雪球账号未登录获取的cookie下载有限制:

登录自己账号后的cookie可以下载全部内容,不过我加了个限制,最多下载200条数据,如果觉得不够可以微信联系我 sushengbuhuo

下载的文章html:

以及文章数据excel,包含文章日期,文章标题,文章链接,文章简介,点赞数,转发数,评论数:

接着用我开发的这个工具将html批量转pdf ,由于工具依赖wkhtmltopdf,需要先下载安装这个 https://wkhtmltopdf.org/downloads.html 加入环境变量。

转换的pdf文件:

最后用我开发的这个工具将所有pdf 合并为一个带书签的pdf文件。

效果:

另外再次分享下我之前写过的知乎专栏批量下载工具这个元宵节,苏生不惑又更新了下知乎专栏文章下载脚本

文章和回答保存到html目录,文件名是时间+标题。


视频保存到video目录。

微博下载工具微博图床又搞事情不能用了,盘它,我顺便写了个微博图片/视频/内容/文章批量下载工具

下载的图片和视频如图,图片为高清大图,视频也是高清。

导出的微博数据excel,包括微博地址,微博内容,头条文章地址,图片地址,视频地址,发布时间,点赞数,评论数,转发数,阅读数,发布地区,是否原创,其中阅读数只有下载自己的号才有。

以及公众号批量下载工具2023批量下载公众号文章内容/话题/图片/封面/视频/音频,导出html和pdf格式,含阅读数/点赞数/在看数/留言数/赞赏数

下载的音频保存在audio目录,视频保存在video目录,封面保存在cover目录,图片保存在images目录,文章内容保存在html目录。


比如莫言老师的所有公众号文章合成一个pdf文件,留言也保留了:


抓取的excel文章数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数,视频数,音频数等,比如深圳卫健委2022年的文章阅读数都是10万+,文章数据分析见文章2022年过去,抓取公众号阅读数点赞数在看数留言数做数据分析, 以深圳卫健委这个号为例,如果你也有需要抓取的公众号微信联系我 。

为了方便找历史文章,部分公众号同步到了我的博客https://sushengbuhuo.github.io/blog ,不用在手机上翻了 ,比如深圳卫健委从2014到2022发布1万多篇文章。

最近原创文章:
2023批量下载公众号文章内容/话题/图片/封面/视频/音频,导出html和pdf格式,含阅读数/点赞数/在看数/留言数/赞赏数
微博图床又搞事情不能用了,盘它,我顺便写了个微博图片/视频/内容/文章批量下载工具