小白方法 | 如何三分钟爬取百度指数?
最近发现一个超好用的Python库,对于人文社科的研究蛮有帮助的。几乎只需要三行代码就能爬虫,小白十分心动。然而,debug了5个小时,几乎泪洒自习室了。终于实现了三分钟爬虫的效果,算是一件made my day的事情,所以写来分享下。
GoPuP库
这个库是一个大佬开发的数据接口,能实现三行代码爬指数数据、宏观经济数据、信息数据等,超级齐全。Github地址为:https://github.com/justinzm/gopup 上面有附作者的网站,点进去注册账号,就可以获得针对不同类型信息的代码,基本上都在三五行,下面有原始代码,我们需要做的其实就是把cookies填进去。

(一)电脑无Python
1.colab运行
如果目前电脑没装Python,直接在Google 搜colab,然后输入以下代码就可以得到结果了。

2.保存到Google网盘
点击左侧红框处,让colab关联Google网盘,然后输入如下代码,就可以在网盘中查看文件啦。


(二)在Python编辑器中实现
1. 基本材料
下载了Python 或者Anaconda
这个很早之前下载的,我有点忘记过程了,但是需要注意的是并不简单,需要装环境变量。小白可以跟着B站视频一步步操作。
比较推荐直接下载Anaconda,这样可以直接使用Juypter Notebook等编辑器。代码需要输入到这些编辑器中运行。
2. 安装库
电脑中搜索cmd(或者“运行”栏),打开命令提示符,这是使用python时安装库的路径。输入 pip install gopup 就可以安装啦。以及输入pip install gopup –upgrade进行升级。

我在安装的时候遇到了个bug,就是我明明已经安装了,但是运行代码的时候,报错说找“No module named ‘gopup’
要被气死,明明安装了,为啥找不到。在CSDN(非常好用的编程论坛)中几经查找,发现原因可能是用来管理第三方库Pycharm的位置和Python的位置不同。
因此,就要定向到python的位置,把库安装到里面。
找到python所在文件夹,可以通过电脑搜索,或者在命令提示符里输入 where python。然后找到“scripts“文件夹,复制文件路径。在命令提示符里输入 cd和文件路径,例如:
cd C:\ProgramData\Anaconda3\Scripts
然后就会出现一个文件位置,在这个后面输入pip install gopup,安装库就好了。
这个方法感谢CSDN博主“礼文Livarn”。
3. 获取百度指数cookies
打开百度指数官网,我的电脑是Fn+F12同时按会进入开发展模式,很多电脑好像直接按F12就行。点击网络-全部-标头,然后往下拉,就会出现一个很长的cookies

复制cookies,然后粘贴到代码中的两个单引号之间,点击运行,就可获取结果。

4. 保存到excel
数据已经输出了,如何能为我们所用呢?大家一般可能比较习惯于用excel存储,然后跑回归之类的。

设定保存路径,需要注意的是双左斜杠是windows路径在python中的写法,Mac可以直接复制路径放上去。

然后就可以找到对应的文件啦,美中不足的是这个输出结果没有把日期放进去。不过这个日期是连续的,自己在excel中补一下也很简单。
秦革故的最新日记 · · · · · · ( 全部 )
- 留学生万花筒:什么时候来的美国 (36人喜欢)
- 面对情绪的水流:瀑布、沟渠与湖泊 (11人喜欢)
- 思乡如患疾,你的心回家了吗 (30人喜欢)
- 小城的爱欲与忠诚 (22人喜欢)
- 我站在原地,送你入人海 (16人喜欢)
热门话题 · · · · · · ( 去话题广场 )
-
加载中...