🤑
万字解读AI Agent架构体系，API和RPA将成为重点

2024年5月9日创建

📌

来源：公众号-信息化与数字化

链接：https://mp.weixin.qq.com/s/KHixK7cybsH9WXnBsohObg

与提示词、微调等大模型应用相比，AI Agent的独特之处在于其不仅能为用户提供咨询，还能直接参与决策与执行环节。Agent能够落地的核心在于。此一进步的核心在于，任务规划这一关键环节被完全委托给了AI大模型。这基于一个前提：AI大模型具备深刻洞察与感知世界的能力、丰富的记忆存储、高效的任务分解与策略优化、持续的自我反思与内在遐想，以及灵活运用各类工具的技能。​

人类今天用对话的方式跟大模型沟通，相当于大模型只有耳朵和嘴巴，能够接收文字的信息，但是缺乏“眼睛、耳朵和手脚”，在这种局限下大模型更像是一个“缸中之脑”。在很多场景中大模型只能作为一个参谋，而不能对事务的发展起到决策的作用。在探讨AI Agent的独特价值时，我们不可避免地会触及到其与大语言模型的本质区别。​

common.docs_name - LarkCCM_Docs_Menu_Image

上面这篇文章中作者指出，尽管大语言模型在文本生成和图像处理等任务上取得了显著成就，但它们在理解能力上与生物体的感觉运动经验和对世界的基础理解仍存在本质的差异。这种差异的核心在于，生物体的学习过程是通过与世界的有目的互动和预测行动后果来进行的，而大语言模型则主要通过被动地摄取和处理大量数据来优化其模型权重。文章进一步阐述了人类的大脑不仅仅是知识的积累器，更是与世界进行交流的控制中心。人类通过语言交流将交互推向了抽象的极端，但其基础仍然是对交互控制的理解和应用。我们对语言符号含义的掌握，并非单纯源于我们处理自然语言的能力，而是源于我们通过与生活世界的持续互动所积累的更为基础的理解。当前的生成式人工智能系统，尽管在模仿人类语言和行为上取得了一定的进展，但它们的“理解”本质上是被动的。它们能够从大型数据集中提取和反映统计规律，但却难以捕捉到这些数据背后的因果关系。这种局限性意味着，如果没有主动选择观察结果和在训练过程中进行干预的能力，生成式AI可能永远无法建立起行动和效果之间的因果模型，也无法真正理解预测与观察之间的区别。​

AI大模型要能够模拟人类智能在真实世界中的复杂交互，这要求它不仅要处理信息，还要能够感知环境、做出决策并执行任务。AI大模型需要将现实世界的交互与感觉运动预测结合起来，从而实现更高级别的人工智能。​

首先，AI Agent通过接收来自外部世界的数据（如环境传感、用户输入等）来感知其所处的环境。通过各类传感器、物联网设备AI可以从物理世界获得信息，通过API接口AI可以从数字世界获取信息。这相当于人类的感觉器官，是智能体与世界建立联系的基础。​

处理和分析这些数据之后，AI需要有一定的记忆能力，将当前的环境信息与历史上的决策对比。AI Agent需要具备决策能力，能够基于当前的环境和内置的目标来规划下一步行动，并且在仿真环境中模拟出决策后可能的结果。这类似于人类的大脑思考过程，涉及到理解、规划和解决问题的能力。​

决策之后，AI Agent需要将决策转化为实际的动作，可能是通过机械动作操控物理设备，或者是通过API和RPA与其他系统交互。系统交互。执行后的结果又会被用作新的输入，形成一个闭环反馈系统，确保智能体可以适应并优化其行为。​

AI Agent不仅是处理信息的工具，更是具备自主学习、适应和创新能力的智能实体，能够在复杂多变的环境中自我优化，并实现目标的有效达成。​

下面我们对AI Agent的主要模块做一个拆解，包括配置感知模块、​

管理与监控模块、记忆模块、规划模块、遐想/仿真模块、原生交互模块、学习模块、执行模块。​

1.
感知功能​

负责从环境中收集数据，可以是图像、声音、文本等形式。感知模块使用传感器（在物理世界中）或数据获取接口（在数字环境中）来收集信息，并可能使用预处理技术如图像识别、自然语言处理等来分析和理解这些数据。​

在人工智能系统中，感知模块（Perception Module）起着至关重要的作用。它是AI与外部世界沟通的桥梁，负责捕捉、处理和解释环境中的各种信号。这一模块模拟了人类的感官系统，如视觉、听觉和触觉，使得AI能够“感知”周围的世界，理解环境，并在此基础上作出反应。​

感知模块通过各种传感器和数据接口来收集信息。这些传感器可以是相机、麦克风、温度传感器、湿度传感器、GPS定位器等，用于捕获图像、声音、温度、位置等信息。在数字环境中，数据获取接口则可能涉及到网页爬虫、API调用、数据库查询等方式，用于获取文本、数字和其他类型的数据。​

收集到的原始数据通常需要经过预处理才能用于后续的分析和理解。预处理步骤可能包括噪声去除、数据标准化、特征提取等。例如，图像识别中的预处理可能包括调整图像大小、改变对比度、边缘检测等，以便更好地识别图像中的对象。在自然语言处理（NLP）中，预处理可能包括分词、去除停用词、词性标注等步骤，以提取有用的信息。​

预处理之后的数据需要通过更高级的分析来解析和理解。这一步骤可能涉及到机器学习模型和算法，如深度学习、模式识别等。通过这些技术，AI可以识别图像中的对象、理解语音命令的含义、分析文本的情感倾向等。这些能力使得AI能够从原始数据中提取有意义的信息，并将其转化为可用于决策和行动的知识。​

例如在自动驾驶中，人工智能可以利用摄像头、激光雷达和麦克风等传感器收集周围环境的信息，通过图像识别和对象检测技术来识别车辆、行人、交通标志等，以实现安全驾驶。​

2.
配置管理与监控模块​

配置管理与监控模块（Profile Management and Monitoring Module）是AI Agent体系中的关键组成部分，它承担着监视、评估和调整AI性能的重要职责，确保AI系统能够稳定且安全地运行，同时也符合预定的性能和行为标准。此模块的功能不仅涉及到实时监控和异常处理，还包括对AI的价值观进行对齐，以及通过连续的测试和校准来优化AI的表现。​

核心职能：

•
代理生成策略：结合随机组合策略，并利用真实世界的性格统计、心理学和行为分析体系数据，创造多样化的AI代理配置文件。这些方法既保证了代理的真实性和多样性，又提高了系统模拟复杂社会交互的能力。​

•
代理角色的定义与管理：设定和管理AI Agent的角色特性，包括其目标、能力、知识库和行为模式等。这使得每个AI Agent都能根据其独特的配置文件在特定环境中发挥作用，在思考和行动上贴近用户的真实需求，同时也增加了系统的灵活性和多样性。​

•
评估测试和AI价值对齐：通过不断的测试和反馈循环，确保AI Agent的行为与人类价值观和目标保持一致，避免产生不利于用户或社会的结果。通过不断的性能评估，对AI系统进行微调，提升其适应性、准确性和用户满意度。​

•
人工微调：人工微调功能允许管理员直接干预和调整AI Agent的神经网络和知识体系，通过这种方式管理员可以针对特定的问题或场景，对AI的行为和决策逻辑进行细致的调整和优化。​

•
性能监控与异常处理：实时监测AI Agent的运行状况，及时识别和解决性能下降、错误行为或异常情况，保证系统的稳定运行。这包括对AI Agent的响应时间、准确率、资源消耗等关键性能指标的跟踪。​

•
安全性管理：确保AI Agent在数据处理和决策过程中的安全性，防止数据泄露、恶意攻击和滥用等风险。​

3.
记忆模块​

AI Agent的记忆模块是一个研究的热点，这不仅因为它在智能体的学习和决策过程中扮演着核心角色，也因为它体现了智能体适应和进化的能力。在OpenAI应用人工智能研究负责人Lili Weng的博客文章《LLM Powered Autonomous Agents中，将AI Agent的记忆模块分为三个主要类型：感觉记忆、短期记忆（STM或工作记忆）和长期记忆（LTM），每种类型都有其独特的功能和实现机制。​