豆瓣电影短评爬虫程序
这周末基本没干别的,写了个豆瓣点评短评的爬虫python程序。用beautifulsoup分析HTML得到用户名(后来想了一下,换成id号可能更合适一些),评星,日期,“有用”数,短评并写成csv文件(可以导入Excel),这里评星是一个两位数,30表示3颗星,40表示4颗星,以此类推。
如第一行张小北在2012年12月9日,给了泰囧4颗星,并评论“中国的喜剧片拍成这样,我作为一个观众就很满足了”,有2057个人觉得他的短评有用。
图示是电影《泰囧》的爬虫截图,之后可以做一些sentiment analysis,没事可以玩一下。
最近做的一个project就是从汽车评论网站Edmunds.com的论坛上面爬虫,得到用户对于几种品牌豪华车的评论,然后通过text mining向品牌经理、产品经理和市场经理提供商业上的洞见。项目完成后我会在博客上做更新。#最新分析在这里:http://www.douban.com/note/344582689/
Edmunds.com的爬虫程序原理类似,但是它一个特殊的地方是可以引用别人的回复,这样我们就可以考察一下哪个用户的评论被引用的最多,综合他自己的发帖数,算出来一个importance,相当于汽车购买方面的意见领袖index了。code见:https://github.com/mvpp/MIS-382N.12-SMA
***编程非我拿手好戏,但是需要时也得不得已而为之。不过我更关注的,是让数据说话。编程只是手段,想做data scientist,就不要忘了利用大数据解决商业问题,探索商业规律,交付商业价值的初衷。
如第一行张小北在2012年12月9日,给了泰囧4颗星,并评论“中国的喜剧片拍成这样,我作为一个观众就很满足了”,有2057个人觉得他的短评有用。
图示是电影《泰囧》的爬虫截图,之后可以做一些sentiment analysis,没事可以玩一下。
![]() |
最近做的一个project就是从汽车评论网站Edmunds.com的论坛上面爬虫,得到用户对于几种品牌豪华车的评论,然后通过text mining向品牌经理、产品经理和市场经理提供商业上的洞见。项目完成后我会在博客上做更新。#最新分析在这里:http://www.douban.com/note/344582689/
Edmunds.com的爬虫程序原理类似,但是它一个特殊的地方是可以引用别人的回复,这样我们就可以考察一下哪个用户的评论被引用的最多,综合他自己的发帖数,算出来一个importance,相当于汽车购买方面的意见领袖index了。code见:https://github.com/mvpp/MIS-382N.12-SMA
***编程非我拿手好戏,但是需要时也得不得已而为之。不过我更关注的,是让数据说话。编程只是手段,想做data scientist,就不要忘了利用大数据解决商业问题,探索商业规律,交付商业价值的初衷。
whatif人形机
(San Francisco Bay Area, United States)
Philosophical Practitioner 阅己,越己,悦己。 追求自由。 追求复利。...
热门话题 · · · · · · ( 去话题广场 )
-
加载中...