我爬了一下斗罗大陆的弹幕
来自:momo_Real(I come,I see)
大家好又是我,一个一言不合就爬虫的小可爱,之前爆组38w高楼词云正是在下的作品。
今天看了某组的一个帖,结合前几天金骨朵和猫眼的数据争议话题,突然产生了想验证一下的想法。于是我就爬了一下斗罗大陆第一集的弹幕情况。

(技术发言:时间戳起始数是15,递增30,斗罗大陆一集38~40分钟,所以每集大概有75~78页数据;target_id如何获取请自行搜索,很容易找到)
根据目前弹幕接口反馈的一些字段,我推断目前腾讯视频的节目每30s的弹幕显示上限是211条。暂无证据显示腾讯会清除弹幕,我个人理解的是腾讯会返回最新的、最多211条弹幕内容。
(关于211条上限这个数据,我做了个验证:截图里“count”字段返回的就是这30s内有一共有多少条弹幕)



因此某些数据公司的数据结果对弹幕数量多的剧是不公平的,理由如下:
(1)除非他们有官方数据、或者一直循环爬取,否则他们不知道累积弹幕数量(去重手段只对弹幕不多的剧有用吧)以我的不相关但和技术紧紧贴边的从业经验来说,他们应该只是在某个固定时段做了统计。
(2)就算这剧一个路人都没有,光凭虾爬子的数量和话唠程度,每30s/211条绝不是问题(其实大家开弹幕后自己也能感觉到);如果大多数数据平台给不出这个数据(或者差距太大),说明数据抓取有问题。
今天下午约5点多我采集了斗罗大陆第一集的弹幕数,总共16248条。斗罗大陆第一集有39分钟(按30s/页,翻页78次),16248/78=208.31,基本贴近我根据接口返回情况得到的211极限值。而且第一集播出当天共播出了8集,这些集数的弹幕数不会是高峰。
目前斗罗大陆更新了37集,按最极端的情况(即每30s无溢出弹幕数,集均仅1.62w弹幕),累积弹幕数最少能有60w;猫眼目前显示累积72w+弹幕,基本能说明斗罗大陆每30s都贴近甚至超过211条弹幕,多次溢出上限,把早期的弹幕内容压到弹幕池的池底。
我猜猫眼之类抓新增弹幕没有一整天循环抓取、另外高峰期如晚上8点左右人们集中刷剧发弹幕的时候很容易超过30s/211条上限,导致一大堆弹幕直接沉入弹幕池未能纳入统计。也许这就是大家感觉猫眼每日更新的新增弹幕数少于实际情况的原因。说人话就是,溢出次数和频数快过采集速度,导致数据公司报告的新增数少于实际新增。
我大胆猜一下,后台累积弹幕数能超过120w。(猜不中也不许打我!)
(更新:据隔壁组显示,累积弹幕数据已经超过1388万,我这还是低估了观众发弹幕的热情😂)

如果我有空,我会再多抽几集爬取,看看是否存在更多有趣的现象。
你的回复
回复请先 登录 , 或 注册相关内容推荐
最新讨论 ( 更多 )
- 外汇黄金大家都赚了多少? (欢欢来了)
- 玩黄金的好处 (欢欢来了)
- 个人,工作室都可 (胡萝卜须)
- 这两天状态不错, (阿兵)
- 轶事|我组曾经是干嘛的 (cheshagl)