都来学爬虫!!0⃣️代码
来自: momo
有什么问题可以直接私信我,评论太多了看见都会回但没法全部回复,感谢🙏
更新:
又有一个姐妹推荐了好用的软件!
有个姐妹提到Web scraper可能存在的中文不适配的问题,推荐了一个更加靠谱的软件
差点给我整忘了,第一步需要能用嗯…(快别🔒我了 技术贴有什么好🔒的
1.chrome升级到最新版,搜索“chrome 网上应用商店”,商店里搜索“web scraper”,是一个蓝色蜘蛛网🕸️图标的扩展程序,然后添加到chrome。
2. 进入豆瓣小组网页版,右上角三个点➡️更多工具➡️开发者工具
3. 开发者工具窗口右上角三个点➡️停靠侧➡️选第三个把开发者工具挪到网页底部
4. 开发者工具最上面一栏的Web Scraper➡️Create new sitemap➡️Create sitemap➡️Sitemap name随便填个名字,我填了“douban_xiangzu”下面用这个来指代,Start URL填小组讨论页面(注意⚠️是底部含有页数的discussion那一页,比如象组就是 https://www.douban.com/group/613560/discussion)➡️都填完了就Create sitemap
5. Add new selector➡️ID填page➡️Type填Link➡️Selector选Select然后在页面上选所有的页数后点Done selecting(见下图)➡️勾选☑️Multiple➡️Parent selector按CTRL键同时选上_root和page两项➡️Save selector
6. Add new selector➡️ID填title➡️Type填Element➡️Selector选Select然后在页面上选上⚠️所有⚠️标题后点Done selecting(见下图)➡️勾选☑️Multiple➡️Parent selector按CTRL键同时选上_root和page两项➡️Save selector
7. 点击刚添加的title➡️ Add new selector➡️ID填link➡️Type选Link➡️Selector选Select然后在页面上选上⚠️1⃣️个⚠️标题后点Done selecting(见下图)➡️勾选☑️Multiple➡️Parent selector已经自动选好了是title➡️Save selector
8. 点进刚选的那个标题的帖子,比如我这里就是“姐妹们,吃轻食减肥是不是不可”➡️ 点击刚添加的link➡️ Add new selector➡️ID填content➡️Type选Text(我还不知道怎么同时保存图片和文字🙊有么有懂得姐妹)➡️Selector选Select然后在页面上选上内容部分后点Done selecting(见下图)➡️勾选☑️Multiple➡️Parent selector已经自动选好了是link➡️Save selector
9. Sitemap douban_xiangzu下拉框选“Scrape”就开始爬了!爬完以后可以导出一个表
具体可以翻文档:Installation | Web Scraper Documentation webscraper.io
就是说学计算机真的很好玩了。我正在爬鹅组,但帖子太多了貌似一时半会爬不完,姐妹们来跟我一起爬😉
你的回应
回应请先 登录 , 或 注册相关内容推荐
最新讨论 ( 更多 )
- 有什么真富婆的博主推荐吗大家 (momo)
- 冰岛有信号了!!! (xxxxxanthe)
- 是不是有人故意宣传一妻多夫…? (momo)
- yuki雪雪再次官宣分手(之前宣布过一次,复合了) (💞Murmurebb)
- 有种隐形“擦边”是贩卖性幻想 (🪺)