【穷逼的萌新码农】0 大学排名网页爬取练习
去年某天同事一句话:
“网络爬虫你会吗?我最近在了解这个,还没整明白。”
对网络对险恶一无所知的我就这样开始了对网络爬虫的信息搜集。
在b站上找到课程视频【Python网络爬虫与信息提取】.MOOC. 北京理工大学 系列之后,好奇宝宝如我,17年8月左右毫无悬念地入了坑。
但是那时的我还是个连Shell跟正式File的区别都不知道的小白。
2017/11/27那天,我的笔记里写着:
“之前不知道怎么样才能写和运行程序,
这篇文章解决了疑问:
https://www2.cs.arizona.edu/people/mccann/usingidle.html”
现在读起来都能想起当时被这种超基础问题困扰了几个月过后的心理阴影。
然鹅,懒癌晚期的我,潜意识里对自己的脑细胞和发际线的保卫意识大概还是很强的。
一路重度拖延之后,2018年1月的最后一天,不看蓝血月的直播而是来看Python教学视频了T-T
两只手指冻得发僵。
好不容易跟着老师把爬取2016年大学排名的示例代码全部敲完,
按下运行那一刻,
看着运行窗口那里接二连三蹦出来的大学名称,
激动得(误)冻得鼻水都要出来了。
ლ(°Д°ლ) (我的手指不能动了!)
琢磨着2017年的应该也是一样的吧?
把代码里源网址的2016改成2017,运行。
∑(゚Д゚) What?! 出错?!
错误提示是22行的format的变量出错。
对比2016年和2017年网页的源代码,
发现,2017年网页上序号的td标签居然全部都有问题:
再回头一看,老师的示例其实也有错。
总分的标题下面列出的是省份。
把format函数里的参数改回来就能正确显示了。
感觉debug技能经验值费了老鼻子劲终于上升了1/100点 _(:з」∠)_
“网络爬虫你会吗?我最近在了解这个,还没整明白。”
对网络对险恶一无所知的我就这样开始了对网络爬虫的信息搜集。
在b站上找到课程视频【Python网络爬虫与信息提取】.MOOC. 北京理工大学 系列之后,好奇宝宝如我,17年8月左右毫无悬念地入了坑。
但是那时的我还是个连Shell跟正式File的区别都不知道的小白。
2017/11/27那天,我的笔记里写着:
“之前不知道怎么样才能写和运行程序,
这篇文章解决了疑问:
https://www2.cs.arizona.edu/people/mccann/usingidle.html”
现在读起来都能想起当时被这种超基础问题困扰了几个月过后的心理阴影。
然鹅,懒癌晚期的我,潜意识里对自己的脑细胞和发际线的保卫意识大概还是很强的。
一路重度拖延之后,2018年1月的最后一天,不看蓝血月的直播而是来看Python教学视频了T-T
两只手指冻得发僵。
好不容易跟着老师把爬取2016年大学排名的示例代码全部敲完,
按下运行那一刻,
看着运行窗口那里接二连三蹦出来的大学名称,
激动得(误)冻得鼻水都要出来了。
ლ(°Д°ლ) (我的手指不能动了!)
![]() |
爬取2016年大学排名的代码 |
![]() |
爬取结果 |
琢磨着2017年的应该也是一样的吧?
把代码里源网址的2016改成2017,运行。
∑(゚Д゚) What?! 出错?!
![]() |
2017年排名爬取失败 |
错误提示是22行的format的变量出错。
对比2016年和2017年网页的源代码,
发现,2017年网页上序号的td标签居然全部都有问题:
![]() |
![]() |
再回头一看,老师的示例其实也有错。
总分的标题下面列出的是省份。
把format函数里的参数改回来就能正确显示了。
![]() |
感觉debug技能经验值费了老鼻子劲终于上升了1/100点 _(:з」∠)_