人工智能梦见电子羊的方式是语言吗?
历时好久,终于又拿起笔来续写人工智能梦见电子羊的AI胡思乱想系列。刚开始写的时候,LLM的风还没有刮起来,Stable diffusion的到来让AI创作的画登上热搜,引起了当时我第一次对于“从本质上看AI能否具备人类的创造力”的思考。当时提的问题现在看来有些幼稚,但依旧有效,并且因为近年LLM的大热,想这些问题有了新的有趣角度。
不过这次我在想一些其他方面的深层问题——关于语言,关于智能/智慧(Intelligence)的本质,关于进化和目标函数,甚至关于生命。这些思考从23年接触LLM后开始历经不断酝酿、求索、反复否定、另辟蹊径,从理解注意力机制,到反问人工神经网络特性的普适性,从本职工作窥见机器学习的内部动力学,到探寻机器“茅塞顿开”的根本原因…… 遗憾的是,与当初在天文学不同,我这次不再站在领域研究的最前线,无法从更深入的学术资源中给出更全面更有insight的见解。所有的一切,都只是我作为一个普通的practitioner本着强烈的好奇心和不可遏制的持续思考,在繁重工作之余获取一些多多少少碎片化的知识,尝试慢慢构建自己的理解体系。
Large Language Model,大语言模型,人称AGI(人工通用智能)的前奏。迄今我仍然觉得这就跟把TRAPPIST-1 行星系统比作第二“太阳系”一样。也不能说炒作,毕竟用过的人都知道这玩意说出来的话、能办到的事情有时真能令人惊艳。这极具迷惑性的行为之下,机器本身到底是否明白自己在做什么,机器是否在真正“理解”而不是在模仿,机器是否能“感知”而不是在拼凑字句?
这些问题为什么会存在呢?因为这是个语言模型。而我们人类智慧的外化表现,语言是最不可或缺的一部分,就像我现在在敲下这些字一样,没有语言,我连自我都无法表达。语言充分体现了人类智慧。所以如果能完美地模拟语言,那智能的感觉便既真又假。
当我想到“语言”这个事物的时候,不由得又虎躯一震,我曾觉得语言不过是因为沟通需求被发明出来,语言不过是智慧的表征。但我发现,没有语言,我好像都无法知道自己的大脑在干什么,我的意识流里是什么,我的大脑时时刻刻充满了字字句句,即使我并没有沟通的需求,我甚至不需要做任何事情,只要我的脑子在运转,几千万的字符便主宰了那小小的空间,我意识到我再也无法摆脱它。
语言和智能难道是共生关系吗?
没有语言生命可以有智慧吗?
语言催生了智慧吗?
语言限制了智慧吗?
……
如果你读过Ted Chiang《你一生的故事》,你就会突然觉得这些问题越来越熟悉,因为这开始走向了那个著名的“语言影响人的思维”观点。其中重要的概念是,语言是一种外在的表达/形容,在我们的脑里,能建立起与之对应的一种内在的“映像”——基于我们对事物的理解、感知等,或者反过来。这种外在语言和内在映像的mapping,是大脑的杰作,其过程快到好像并不存在一样。
经过几番思考,我现在的结论是,语言确实能跟智慧纠缠作用,语言是一种智慧的发明,人类语言所蕴含的结构,先从智能的大脑中映射出来,而后经过时间和无数大脑的重塑,又反过来成为一种相对稳定的容器,能够把人类脑里难以定义的想法按容器的形状输出,由此复杂的思维得到整理,这个过程中,人脑又会受到语言逻辑的启发能继续按规律生成别的想法。智慧生出了语言,语言规范了智慧,所以它确实可能催生或者限制某些方向的想法。
不过这些有点扯远了,这其实不需要扯到语言的本质来,因为机器内部的世界总是与我们大不相同,我们概念中的语言在机器眼里也只是特定的数据结构。作为universal approximator的人工神经网络,经过精巧设计和巨量的训练,自然也能精准模拟人类语言。简简单单的next token prediction作为任务抑或目标函数,大语言模型近乎完美地习得了语言作为一种特殊数据的pattern,所以能生成自然流畅的语言。令人惊异的是,语言所能承载的智慧是如此之多,形容、解释、计算、推理、归纳、构思、表达、“想象”,语言所及之处,大语言模型无所不能。这些能力似乎遵循某种规模法则(scaling laws),在此之上更是从过目不忘的记忆生出了举一反三的泛化能力,能力从复杂系统中涌现,就像在某个节点突然就被打通了任督二脉。
我曾为此着迷。
我觉得这个进化过程的精妙有一种动力学的美感,我觉得它的黑箱里面蕴含着一种更本质的规律,但理解它是如此之难,我从许许多多的文献和实验报告里面只能拾贝一样一点点用直觉去推测。规模巨大的模型经过大量数据、长时间的训练在内部能够形成一种有序的隐含结构,以某些“统领”性质的参数决定全局性能并且进行泛化,不同层有着迥异的动力学, Scaling laws 似乎可以窥见这个动力学过程,即某个参数量,数据量,算力的平面上能最优化大模型习得这些结构。而在表达之时,网络也已经习得关于语言在其内部的隐式表示和外在的语言之间的mapping function。最终,模型从海量人类语言里模拟出一些人类如何思考的数学结构,并以此指导next token。
所以,智能是可以被模拟的吗?还是机器模拟的行为本身能产生一种与人类智慧迥然不同的智能?Intelligence的本质是什么?
最近在看一本书《Thinking, fast and slow》,才开了个头。但大意是人类思考有快慢两种本质,快即是直觉、偏见、本能等,而慢则是推理、逻辑思考等。大语言模型也有快与慢“思考”,快“思考”是巨量的训练的直接结果,也是慢“思考”的基础,慢“思考”也就是当今人们奋力追求的reasoning,从23年的chain-of-thoughts开始,到现在的o1,deepseek-R1,都是在追求更精确更全能的逻辑推理。Pretrain(预训练)成就了快思考,而现阶段大家想在post-train里引导出慢思考。去掉技术词汇,deepseek-R1的创举在于,如果快思考的能力能够在预训练时由网络以隐含的方式习得,那慢思考是不是也可以通过让网络隐含学习的方式得到,所谓隐含,也就是内部黑箱有自己的动力学和数学结构,并不能用人类语言表示。
人脑的快与慢,和机器的快与慢有何区别?
首先,人脑能多维度感知,我们的五官、情绪,无不作为非语言的输入数据时刻影响输出。这一点语言模型无法做到,多模态和人型机器人有自己发展,研究方面,有所谓“世界模型”的训练,或许也可以有细分的行为模型、情绪模型,但无法接近人类能够获取的信息丰富度。学习语言使机器模拟了部分智慧,但反过来,是不是也可以说,语言又限制了它的智慧?
其次,人脑的目标函数是生存繁衍。看似简单的目标能够衍生出一系列非常复杂的优化函数,比如最大化回报、提高认知效率、适应性、优化学习和记忆功能、社交、情绪规范化等等。每一个函数又能因为不同维度的输入发展出不同的intelligence。这么一看,语言模型才哪到哪呢。用语言衡量智能,是不是就像拿钟表衡量时间一样。next token prediction是如此直白的一个目标,你不由得怀疑以此为目标到底能否出现我们所理解的高级智能。
但生存一定要作为目标才能产生智能吗?
那生命出现智慧是否必然?
也许,不需要对智能有那么严格的定义。机器intelligence注定与生物intelligence大相径庭,就像机器无法准确理解我们的物理世界,我们无法理解机器内部与万千数据接触的“隐式动力学”。生物人和赛博人之间永远有着世界观的鸿沟。
P. S. 那如果我们的物理世界其实就是虚拟的呢,我们的数据只不过被包装得惟妙惟肖,谁又知道我们的大脑又在进行怎样的“隐式动力学”呢?
-
mola 转发了这篇日记 2025-02-16 13:59:34
-
Irshan9000 转发了这篇日记 2025-02-16 12:15:42
-
跟着小徐混 转发了这篇日记 2025-02-16 08:07:23
-
qumieroi 转发了这篇日记 2025-02-16 06:07:15