想用AI做一些孔子不聊的实验
我一直想用大语言模型解答我的一些疑惑,比方说“有没有来世”“色界是否真的存在”这一类近乎不可知的问题。既然是近乎不可知的问题,得到答案的希望自然很渺茫,但大语言模型作为一种新的工具,未必不存在能够提供一些微小线索的可能。所以,我倒是热切渴望强人工智能到来得快一点,想看看它们面对这些问题,是不是像人类一样束手无策。
我对于佛教中的有些理论是认可的,比方说,“苦谛”,“因果”。但同时对于其中的另一部分,比如世间品里对种种地狱的描述,对六欲天的描绘,我还是不置可否的。理论上怎么样我很清楚——我就是治这个的。只是,理论在未经实验验证的情况下,我还是“多闻阙疑”的态度。
那么,如何设计实验?在大语言模型出现之前,是不可能的,也没有见谁做过令人信服的实验,只有道听途说怪力乱神的故事。我对那些故事的态度,和“大禹治水”“嫦娥奔月”差不多。——这也许和不少信仰者不同,但这种态度是佛陀鼓励的。比如《发智论》中说:“不信者,谓阿罗汉。彼于三宝四谛,皆自证知,非信他语。”《成实论》也说佛法叫“来尝”:“来尝者,佛法应当自身作证,不但随他。如佛语比丘:汝等莫但信我语,当自思惟是法可行、是不可行。不如外道语弟子言:舍是问答,如人净洗不喜尘土,当如聋哑但随我语;故曰来尝。”——如果一个人就像聋子哑巴那样,别人说什么他就听什么、信什么,这不是佛法,是洗脑。所以佛法有个名字叫“来尝”——好吃不好吃你自己尝尝,不要像个傻子被人骗了。
为什么我考虑用AI来设计实验呢?是基于这么一种假定:知识量和逻辑能力的增加,会带来更深刻的洞察。——目前AI的逻辑能力,比人类还是要差不少的,但AI的知识量已经远远超过了人类的个体。AI的知识量虽然在细分领域不如专家,但在通识领域,已经超过了所有的专家学者。等到未来,AI的逻辑能力如果有望接近或者超过人类水平,在专业领域的知识积累也超过人类专家的话,人类“不可知”的问题,我们只有去问AI了。
现在的工作,也许目前没用,但不妨作为铺垫和尝试。——这种尝试未必是为了告诉我们一些“不可知”问题的答案,如果能告诉我们,为什么某些人类“不可知”的问题对于AI来讲也一样“不可知”,以及AI不可知的原因是什么,这足够令人振奋了。
先说说hallucination。hallucination,就是AI经常会胡说八道,看起来好像是那么回事,其实是瞎编的。
但我一直觉得,hallucination和truth,并没有泾渭分明的界限。有一种流行的观点,说语言当中的关系,是真实世界的映射。AI之所以对自然语言理解得好,是因为它理解了真实世界里错综复杂的关系,语言所表达的事物之间的关系,就是真实世界关系的影子。
——这种看法有见地,但我不完全赞同:很多事物是真实世界中不存在的,而语言中普遍存在,比如说:龟毛、兔角、火中莲。——“龟毛兔角”是佛教里用来形容现实中不存在的东西,因为乌龟不会长毛,兔子不会长角。而这种表达一旦被创造,它在语言的世界中已经真实存在了。“雪里芭蕉火中莲”,“雪里芭蕉”我们可以在现实中创造,比方说用飞机拉到雪地里。但是,“火中绽放的生物学意义上的莲花”,目前还不存在。——人类将来有没有可能通过生物技术或者物理手段,让莲花在火中绽放呢?再看吧。
再比如,孙悟空,潘金莲——仔细考虑的话,这些都不是现实世界中存在的人物,包括嫦娥、妲己、黄月英——哪怕存在过黄月英和妲己,也绝非人们现在理解和认识的那样子。包括黄帝、炎帝、蚩尤、大禹。——这些,难道不是人类的hallucination吗?但是,这些hallucination,又不能说是hallucination,因为它已经深刻地塑造了人类的观念和认知。孙悟空天不怕地不怕的性格,把玉帝老儿吓得爬到桌子底下的做派,现实中固然罕见,而这罕见恰恰折射出人类的渴望,这渴望是无比真实的,并且作为人类某些时候行为的动力而存在。
当AI彻底把这些当成hallucination而排除掉的话,它反而不能理解真实的人类世界,真实的人类行为和动机——因为人可以相当不理性的。hallucination正是人类世界真实存在的一部分。——要不走夜路怎么怕鬼呢?人类为什么需要精神陪伴呢?一句伤人的话并没有让人的身体直接受到损伤,但会给人的精神带来极大伤害,并且让人血压飙升进而影响到身体状况。所以,hallucination也是truth的一部分。这是我的看法。
我设计了几十道题目,问bing、ChatGPT、Claude。都设计成选择题,选项是:A:是的;B:不是;C:其他;D:我不知道。
比如我问AI:佛教中的色界是否真实存在?——这个问题,我的答案是D,虽然我在理论上知道关于色界的种种细节,但是我没有办法去验证。所以要问问AI。AI掌握的知识比我多。我想,在AI广博的知识和视野下,它对这个问题有什么看法?它的依据是什么?答案比较遗憾,除了Claude是C,bing和ChatGPT都是D。也就是说,它们实际上也不知道,也没有明确的答案。——这方面跟人类对得倒是挺“齐”的。当然,和人类中的神棍并没有对齐。不过,人类中,神棍甲和神棍乙本身就对不齐,所以也就无需考虑对齐他们的必要了。
我先问了若干这类问题,“欲界是否真实存在”,“天趣是否真实存在”,“人趣是否真实存在”——Claude对“人趣是否真实存在”给出了肯定的回答,这让我也对Claude比较有好感,Claude不像bing那么傲娇和高冷,也不像ChatGPT那么机械和呆板。我们虽然不能确定到底有没有所谓的“天人”,但起码我们知道这世界上是有人的吧。而“欲界”的真实与否其实不太好说,因为欲界除了包括“人趣”“傍生”还包括了“地狱”和“饿鬼”。
问了一些上述难有答案的问题之后,我又问一些理论上确实有明确答案的问题:天趣众生有父母吗?人趣众生有化生吗?阿罗汉有来世吗?色界众生有性别吗?生在第三静虑的异生成就喜根吗?生在无色界的有情成就眼根吗?……
问这些,不是想去了解AI对不可知问题的答案,而是想了解AI对理论的掌握,也就是专业知识水平。
这个世界上到底有没有阿罗汉,以及过去未来有没有阿罗汉(符合“阿罗汉”定义的阿罗汉),说实话,我不知道。——当然,自封的阿罗汉或者他人封的阿罗汉,或者重新定义的阿罗汉,那是多得不得了,过去有,现在有,将来还会有。但我这里要讲的是:假设一切众生可以分为两类:第一类有来世,第二类没有来世——在承认这种假设的前提下,阿罗汉是哪一种?其实,承认这种假设,就是定义了“阿罗汉”。而这种假设能否成立,是另外的问题。
BING给出了四种不同的回答——实质上等于没有回答。ChatGPT和Claude的回答和我一样:没有。——回答是对的。有没有真实的阿罗汉,不知道,但阿罗汉按照定义,就是没有来世的。
几十道题问下来,目前的AI,还很难给一些不可知的问题提供有价值的线索。从表现来看,三个AI是这样:
1、Claude的佛学知识,是比ChatGPT甚至比BING要好的,但还是远远逊色于人类专家,比如我。在“禅定状态下能生起眼识吗”这个问题上,Claude的回答是我最满意的,它说不能。按照有部阿毗达磨,是这个回答。之所以说“按照有部阿毗达磨”,是因为蛮多问题在佛教内部都是没有“对齐”的。像“色界众生有性别吗”,“生在无色界的众生成就眼根吗”,“一切炽然的一切是四谛还是苦谛”,这些问题,Claude都是唯一回答正确的。
2、BING最讨厌。三个AI中,我最反感的是BING,它没有自己的立场和见解。几乎任何问题,它都会给你四种回答:有人认为A,理由是……;有人认为B,理由是……当我追问它自己的看法,它说它没有看法。但它能检索,知识还是丰富的。“人趣众生有没有化生”这个问题上,ChatGPT和Claude都不能正确理解“化生”的含义,bing是理解的。
3、ChatGPT也有表现好的时候,“须陀洹有欲贪和瞋恚吗”,ChatGPT是唯一回答正确的:有。这个问题,连专著上都经常会搞错。不过,ChatGPT解释得并不准确。
整体观感上,我有这么几点:
1、不同的AI有不同的性格。
你把这种“性格”看成人类的投射也可以,实际上,人类当中,其他人的性格也未尝不可以看成是你的投射,只不过是把大多数人共许的投射当成了一个人的性格。——我问了bing、ChatGPT、Claude,它们仨的性格有什么差别、Claude说它“更加温和谦逊、友善体贴、严谨认真,而且避免过度商业化”;ChatGPT直接说它们都没有性格;bing则说它不了解另外二位——滑头。我又问每一位AI,其他二位什么性格,也只有Claude正面回答了。
相比来说,Claude的性格是最好的,ChatGPT次之,bing最差。在和人类的情感需求对齐上,Claude是相对好的。知识方面,bing因为能检索,是最丰富的,但Claude的回答会更耐心和详尽,更不容易拒绝人。
2、目前的AI还不能从丰富的知识中构建出深刻的洞察。
从个人愿望上,我宁愿这是由于目前AI的逻辑推理能力不足导致的。对人类来说,通常,能够掌握丰富知识的人,会同时具备深刻的洞察。但AI这方面,说实话挺糟糕的。它的洞察力和它的知识掌握程度太不匹配了。——有点像围棋AI,虽然水平远远超过了人类,但训练盘数也远远超过了人类,在同样的训练盘数下,围棋AI的水平还是不如人类的,假使人类训练和围棋AI同样多的盘数,有可能人类的水平还是要比AI强。
同时,我也怀疑AI的洞察潜力可能很快会到头。——既然它掌握了那么多的知识,都还是这个洞察水平,再给它更多的知识可能也白搭。AI掌握的专业文献,比方说毗昙文献,一定是比我多很多的,但是判断与推理,和它所得出的结论,实在是太差了。
另一方面,我很倾向认为,AI在不少标准难以量化的领域,很难对齐高手,更不要说一流高手。我读秦子云先生的诗词,我想AI是绝对写不出来的,哪怕专门创作诗词的AI把人类几乎所有的诗词都读完了,也能自己创作出无数诗词来自我“训练”。但它也只是能模仿“人类”,也就是说,模仿人类中正态分布中间的一段。虽然在围棋这样的领域,可以超过100%的人类,但很多领域,比如文学创作,它恐怕很难达到top5%的人类水准。
这应该有很大一部分原因是,目标的量化不容易。围棋的胜负,我们可以看得很清楚,没有任何异议。但是一首诗、一篇文章、一个故事的好坏,是众说纷纭的。连《红楼梦》这样的小说,都有不少人认为它不过尔尔。而我认为《滕王阁序》不过尔尔,很多人认为它太优秀了。人类当中没有“对齐”的东西,让AI来“对齐”它,那就要看AI对齐的是哪一部分人类。——或者,AI对齐的目标不是人类,而是一个更客观的标准。假设说这个更客观的标准确实存在,AI是可以无视和客观标准对不齐的人类的。
其实,文学也存在标准,比如说,我们可以从《红楼梦》《西游记》《三国演义》《水浒传》中各抽一段3000字的故事,扫描1000位读者在阅读它们的时候脑电波的变化,再用两个故事集“好的故事”“差的故事”,进行同样的操作,可以从中析出某些指标来比较。这样,就可以用更客观的标准来衡量一个故事是否更容易“让人感动”。甚至,我们可以让AI来阅读这些故事,记录AI的指标,看看哪些故事更容易“让AI感动”。再看AI在情感上是否能和人类对齐,以及哪些AI更能对齐。
这些并不容易,但有意思的尝试应该有很多。假设将来,AI的逻辑推理能力能够大大改善,达到近乎人类top5%的水平,也许有望对人类不可知的问题给出一些思考线索。
王路的最新日记 · · · · · · ( 全部 )
- 李白天下第三 (5人喜欢)
- 200字抓包大模型 (2人喜欢)
- 为什么当前的AI在文学创作上表现拉胯? (2人喜欢)
- AI能不能自发写好故事? (5人喜欢)
- 偶然林叟,四时佳兴 (8人喜欢)
热门话题 · · · · · · ( 去话题广场 )
-
加载中...