大语言模型,资本的狂欢

大语言模型,资本的狂欢

人工智能经历了符号主义与连接主义两大范式的更迭。专家系统曾风靡一时,却因"知识获取瓶颈"逐渐式微;深度学习借助反向传播算法崛起,最终演化为今日的大语言模型。然而,LLM 的成功并非纯粹的技术胜利——相比周期长、成本高的专家系统,大模型"快速试错"的特性更契合资本逐利的节奏。理解 AI 发展,或许需要从技术视角切换到商业视角。

提到人工智能和大语言模型,瞬间让自己梦回那个夏天。当时自己还是一个幼小的小孩子,观看了一部由施瓦辛格主演的科幻大片《终结者2》。在这部电影里面第一次听到了神经网络芯片这个词,它可以自动开飞机等等。但是这并没有给自己留下深刻的印象,反而是本片中施瓦辛格为了证明自己是机器人那段,在自己幼小的心灵上留下了深刻的印象。直到自己读了大学,学习了计算机科学,才直到神经网络这个东西是什么。

古典智能 - 符号主义

大语言模型(LLM)属于“连接主义”范畴与神经网络有着密切的继承和发展关系。简单来说,大语言模型是神经网络技术发展到特定阶段的产物,是“连接主义”发展的巅峰代表。但是此刻必须先讲解下它的对手“符号主义”。

为什么古典

说到古典,那么毋庸置疑出现的早。在1956年,许多数学家和物理学家聚集在一起讨论一个非常有哲学意味的问题-”机器是否能思考“,也就是我们所熟知的达特茅斯会议,从此"人工智能"这一术语正式诞生,这一年被视为AI元年。随后在1958年,麦卡锡创造了第一个AI编程语言也是自己最喜欢的语言Lisp。

人工智能诞生时,并不只只有“符号主义”这一套理论,“连接主义”也在此时就诞生了。究其根本,是因为当时的计算学家对何为智能没有统一的意见。“符号主义”认为智能,就是知识和推理,把人类所有的知识编成代码存入计算。“连接主义”则认为智能是通过学习而得来的,像人的大脑通过一堆神经元进行连接,通过不断的试错获得智能。

在人工智能的早期,计算机科学家们普遍认可物理符号系统假设(艾伦纽厄尔和赫伯特西蒙,1976)- "一个物理符号系统具有进行通用智能行为的充分且必要的手段",简单讲就是有一台计算机可以像人类一样处理各种符号。并且艾伦纽厄尔和赫伯特西蒙开发了逻辑理论家(1956)- 成功证明了数学定理以及通用问题求解器 GPS(1959)- 展示了通用推理能力,为这一理论提供了有力的证明,从而奠定了“符号主义”在人工智能领域的统治地位。

潜在的危机

虽然“符号主义”在人工智能领域中树立了统治地位,但是不代表“符号主义”不存在问题。因为真是世界并非非黑即白的,很多情况下存在不确定性,此时一位大神犹大珀尔研究出贝叶斯网络,用图表示概率关系和因果关系,这样优雅的解决了不确定性的推理问题。此时“符号主义”看起来已经非常完美了,似乎就要实现了真正的人工智能。但是随着计算机科学的发展和计算机应用的深入,“符号主义”真正的问题逐渐浮出了水面。

  • 知识获取瓶颈:手动编写规则太慢太贵,无法跟上知识的更新,形成规模效应。

  • 常识推理苦难:很多人类认为理所当然的事情,却无法有效的使用逻辑表达,例如:鸟会飞是常识,但是企鹅和鸵鸟都是鸟,但是它们不会飞,这种非单调逻辑问题处理起来困难重重

  • 过度符号化:早期过度看重符号推理的重要性,忽略了数字的精确性,导致很多问题无法有效解决

对符号主义的总结

“符号主义”的核心思想我们可以归纳如下

  • 智能可以通过符号操作来实现 — 人类思维本质上是对符号的操作和推理

  • 知识可以用符号明确表示 — 使用逻辑规则、语义网络、框架等形式化方法

  • 推理是符号变换的过程 — 通过规则引擎进行演绎、归纳推理

我们可以看到“符号主义”的推理过程透明,可追溯是具备很强的可解释性的,同时在特定领域(专家系统)如果能有良好的定义是可以非常精确的回答我们的问题。但是同时我们也看到了,“符号主义”是一个知识驱动的体系,非常依赖专家们编写的规则和知识库。同时根据前面提到的问题中虽然大珀尔的贝叶斯网络可以解决一些不确定性的推理问题,但是在面都复杂的现实世界问题它还是难以处理模糊和不确定的情况,例如非单调逻辑。

璀璨新星-连接主义

正如前面所说的,在“人工智能”诞生的第一天“连接主义”就已经存在了,即便在“符号主义”处在绝对统治的时期,也有不少计算科学家投身在“连接主义”的研究上。

文艺复兴

在1969年,马文明斯基写了一本书《感知机》从数学理论上证明了单层感知机,无法解决任何问题,对整个“连接主义”的研究造成了极大的打击,因此在十几年的时间内,“连接主义”都步履维艰。但经过杰弗里辛顿等人的研究和分析,认为如果单层感知机不行就搞成多层的感知机,从而形成一个深度的神经网络,来模拟人类大脑来逐层处理信息。

虽然这个想法很好,但是很快遇到了新的问题,多层网络该如何训练这个问题便摆在了“连接主义”学者的面前。这时他们发现了一个非常古典的算法“反向传播”算法。“反向传播”虽然在1960年代就被提及,但是直到1974年以后在多层神经网络中得到应用解决了多层神经网络训练的问题,才被充分的认可,并且引发了一场人工神经网络领域的“文艺复兴”。

并且随着计算机算力的提升,随着1987年杰弗里辛顿发《并行分布式处理》这一系列书记的出版,“深度学习”这一词汇就此诞生。

游戏和互联网

虽然“连接主义”找到了自己发展的方向,但是受限于时代,发展依然非常缓慢究其原因是,“深度学习”需要大量的计算力和海量的数据,因为它需要不断的学习,试错和自我纠正。

随着事件来到了21世纪,互联网的大爆发,数据的获取和积累变得更加容易和丰富。同时随着人们对计算机在娱乐领域上的追求,更强算力的GPU和更大的硬盘,解决了计算力和存储问题,尤其是GPU的并行能力非常适合用于神经网络。因此,“连接主义”的深度学习就得到了蓬勃的发展,直到今天我们所见到的大语言模型。
 

对连接主义的总结

“连接主义”的核心思想我们可以归纳如下

  • 智能源于大量简单单元的连接 - 单个神经元很简单,但大量连接产生智能

  • 知识分布式存储在连接权重中 - 没有显式的规则或符号

  • 学习是连接强度的调整 - 通过经验修改权重

从这里我们可以看到,“连接主义”重点强调连接产生智能,无需显示的规则强调连接权重。它本身就是一个统计模式的匹配器,只是在重复学习到的经验(权重),因此它并不理解自己输出的是什么,这也是我们在大模型中遇到幻觉的原因。由于使用了“反向传播”这一算法外加深度学习的网络层级很深,这就导致“连接主义”的产物,不管是神经网络还是大语言模型都是一个黑盒,没有人能真正讲清楚内部的情况。同时神经网络和大语言模型都是通过“学习”(连接的权重调整)来获得智能,这就存在数据偏见,训练出来的模型会因为数据集合不同而产生偏见。同时它并没“符号主义”那套完整的规则体系,“连接主义”只能做相关性预测,不能做因果的判断。

背后推手

现今我们看到,“连接主义”的大语言模型蓬勃发展,深刻的影响每个人的生活,从“连接主义”缺陷来看,这个蓬勃发展似乎并不是因为技术发展。说到根本,“连接主义”的大语言模型蓬勃发展是因为我们熟知的资本在被后起到了决定性作用。

人工智能的历史上“符号主义”的专家系统是有很多成功的案例,但是为什么会被抛弃呢?因为在商业上,专家系统开发速度慢,开发成本高,要开发一个好的专家系统,需要寻找在该领域中的多为专家进行专业规则整理,再由开发人员完成编码,这个周期就非常长,并且是否能通过该套专家系统获取丰厚利润是个未知数了。

那么“连接主义”是如何符合商业模式的呢?因为“连接主义”的大语言模型体系天然符合大资本的优势,有足够的资金去获得数据和算力,无需有任何领域的专业知识,直接通过数据训练的方式快速的获得一个可用的大模型,这样周期短,可以快速试错从而确定是否能获得利润。并且可以为有海量数据和强算力的大资本建立天然的竞争壁垒。

说在最后

自己并不认为“连接主义”的大模型是一个最好的AI范式,但是它确实是一个在商业竞争中跑的最快和最能赚钱的AI范式。因此我们要更多的站在商业角度上去思考AI,如何将现有的AI工具和产品去为自己获得经济利益。同时也不要放弃对其它AI范式的探索和尝试,包括将“连接主义”和“符号主义”进行整合使用。

来自于 知识星球-The Talk