大家不要慌,「且听龙吟」
人工智能大模型训练陷入瓶颈

@阑夕:Sam Altman 发了条言简意赅的推文:there is no wall。
终于还是被推出来回应大模型预训练陷入瓶颈的行业恐慌了。
清理了一下时间线,大致上是这样的:
– The Information 率先报道,OpenAI 因为 GPT 系列模型的进化速度放缓,调整了公司战略,GPT-5 难产已成定局;
– Bloomberg 随后助攻,把采写范围扩大到了 OpenAI、Googe 和 Anthropic 三家公司,发现新版模型全在推迟发布,可以看到收益递减曲线;
– AI 社区此时普遍还认为媒体报道有失公允,觉得没有核心从业者出来证言,只是搜集了边角料想搞个大新闻而已,大家不要慌,「且听龙吟」;
– 然后从 OpenAI 出局的前首席科学家 Ilya Sutskever 刚好跳出来补刀,对路透社判断大模型扩展法则确实已经到达了极限,必须改变训练模式;
– Meta 的首席科学家、图灵奖得主 Ynn LeCun 也没放过攻击闭源竞争对手的机会,在 Threads 上表示「我不想说我早就告诉过你,但我确实早就告诉过你」;
– Anthropic 的创始人 Dario Amodei 在播客里安抚市场,认为预训练的扩展法则(Scaling Laws)来自经验而非客观规律,但自己会押它仍然会继续存在;
– 再就是两个小时前,Sam Altman 现身喊话,说物理学不存,不对,是墙不存在。
ChatGPT 的训练好像卡住了⋯

@阑夕:来自 The Information 的猛料:ChatGPT 的训练好像卡住了⋯⋯
– 先说乐观的,OpenAI 的下一代模型 GPT-Orion 虽然只完成了 20% 的训练,但它的能力已经和 GPT-4 持平了;
– 但是 —— 没错,但是来了 —— 和 GPT-3 到 GPT-4 之间的飞跃进步相比,GPT-Orion 的提升要小很多,所以它配不上 GPT-5 这个命名;
– 更坏的消息是,GPT-Orion 的成本更高,它对语言的理解更好,但在编码上可能还不如老模型那样可靠;
– GPT-Orion 的困境可能破坏了 AI 行业的一个核心假设,即只要有更多的数据和算力,大模型就能以不衰减的速度变聪明;
– OpenAI 和 Meta 都开始以底层技术没有突破的前提下开发产品,比如接管个人电脑和浏览器去模拟用户执行真实操作的功能;
– 最大的问题在于互联网上的数据早就被用得精光了,GPT-Orion 大量依赖合成数据 —— 也就是 AI 自己生成的内容 —— 来做训练,结果导致了内卷;
– 内卷的表现就是烧钱训练出来的新模型越来越像旧模型,原因不难猜到,因为它的数据都是由旧模型提供的,一切学习都在原地踏步;
– ChatGPT 新尝试的推理链在科研行业表现很不错,很多科学家和数学家都在使用,但因为成本是通用模型的 6 倍以上,很难被大众市场接受;
– OpenAI 的股东 Ben Horowitz 已经开始抱怨,说公司采购 GPU 的数量持续增长,但根本上的 AI 智商没有同步提高;
– 深度接入主流大模型的数据商 Databricks 表示,AI 在多步骤任务上还有改进空间,但是日常类型的任务,比如情感对话这种,已经没有进展了;
– 总结是,大模型进入了平台期,需要想办法获取更多的真实数据,合成数据起不到作用了。
* 这篇报道在行业内争议很大,很多从业者都跳出来表示不信谣不传谣,反对 AGI 虚无主义传播,so⋯⋯兼听则明。