上面这篇文章中作者指出,尽管大语言模型在文本生成和图像处理等任务上取得了显著成就,但它们在理解能力上与生物体的感觉运动经验和对世界的基础理解仍存在本质的差异。这种差异的核心在于,生物体的学习过程是通过与世界的有目的互动和预测行动后果来进行的,而大语言模型则主要通过被动地摄取和处理大量数据来优化其模型权重。文章进一步阐述了人类的大脑不仅仅是知识的积累器,更是与世界进行交流的控制中心。人类通过语言交流将交互推向了抽象的极端,但其基础仍然是对交互控制的理解和应用。我们对语言符号含义的掌握,并非单纯源于我们处理自然语言的能力,而是源于我们通过与生活世界的持续互动所积累的更为基础的理解。当前的生成式人工智能系统,尽管在模仿人类语言和行为上取得了一定的进展,但它们的“理解”本质上是被动的。它们能够从大型数据集中提取和反映统计规律,但却难以捕捉到这些数据背后的因果关系。这种局限性意味着,如果没有主动选择观察结果和在训练过程中进行干预的能力,生成式AI可能永远无法建立起行动和效果之间的因果模型,也无法真正理解预测与观察之间的区别。