AI Agent大爆发：10篇论文读懂“龙虾”“奶茶”的技术跃迁

719 阅读 0 评论 0 点赞

当AI智能体不再局限于“你问我答”的文字交互，而是能承接发邮件、点外卖、整理文件等实际工作，AI便完成了从“对话工具”到“数字助手”的关键跃迁。以OpenClaw（昵称“龙虾”）、阿里千问（因免费点奶茶活动引发关注）、网易有道LobsterAI（有道龙虾）等为代表的智能体，正是这一变革的核心推动者。

本期内容精选10篇论文，从架构革新、核心技术、应用落地三个维度，拆解这些智能体如何打破“对话壁垒”，实现“落地做事”的技术突破，让AI真正融入办公与日常生活。

一、基础范式突破：从“对话响应”到“自主执行”的架构革新

早期AI智能体的核心局限是“有回答、无行动”，仅能基于对话生成操作建议，无法直接对接系统、完成实操。这3篇论文聚焦智能体“做事”的基础架构，让大家能简单理解智能体实现跃迁的核心基石。其中2022年的ReAct框架开创了“推理与行动协同”的先河，为后续智能体设计提供了底层思路。

1. ReAct: Synergizing Reasoning and Acting in Language Models（Published as a conference paper at ICLR 2023）

作者：Shunyu Yao1, Jeffrey Zhao2, Dian Yu2, Nan Du2, Izhak Shafran2, Karthik Narasimhan1, Yuan Cao2

作者单位：1Department of Computer Science, Princeton University，2Google Research, Brain team

论文出处：Published as a conference paper at ICLR 2023

本文是为“感知-规划-执行-反馈”闭环的奠基性工作，首次提出将推理轨迹（Reasoning）与任务行动（Acting）协同的智能体框架，彻底打破传统语言模型“只推理、不行动”的局限。论文明确定义闭环逻辑：感知（通过外部接口获取环境信息）、规划（生成推理轨迹，拆解任务并明确行动步骤）、执行（调用工具或外部系统完成具体操作）、反馈（接收行动结果，修正推理方向并更新任务状态），解决了大模型推理中的幻觉问题与误差传播，让智能体具备“边想边做、边做边调整”的能力。

在AlfWorld中使用ReAct进行人类介入的行为矫正示例

ReAct框架为智能体提供了底层范式，其“通过外部交互验证推理”的思路，支撑了AI智能体对接本地文件系统、Shell命令的实操能力；同时一些智能体的工具调用模块也深度借鉴了该框架的“推理-行动”协同机制，在点外卖、发邮件等任务中，通过推理轨迹明确操作步骤，再调用对应服务接口执行，确保任务流程可追溯、可修正。

长按识别二维码获取原文及AI分析

2. Routine: A Structural Planning Framework for LLM Agent System in Enterprise

作者：Guancheng Zeng, Xueyi Chen, Jiawang Hu, Shaohua Qi, Yaxuan Mao, Zhantao Wang, Yifan Nie, Shuang Li, Qiuyang Feng, Pengxu Qiu, Yujia Wang, Wenqiang Han, Linyan Huang, Gang Li, Jingjing Mo, and Haowen Hu†2

作者单位：Digital China AI Research

论文出处：arXiv:2507.14447 [cs.AI] 22 Jul 2025

这篇论文提出了一个名为Routine的结构化规划框架，专门为解决企业环境中LLM智能体系统部署面临的挑战而设计。该框架通过清晰的结构、明确的指令和顺畅的参数传递，指导智能体的执行模块执行多步骤工具调用任务，显著提升了执行稳定性。在真实企业场景的评估中，Routine将GPT-4o的工具调用执行准确率从41.1%提升至96.3%，将Qwen3-14B的准确率从32.6%提升至83.3%。

Routine引导LLM Agent调用工具

本文为企业级智能体提供了一套实用且易落地的稳定工作流构建方案，通过蒸馏领域特定工具使用模式，大幅提升了模型在企业场景的适配能力，有效破解了智能体在复杂业务流程中执行不稳定的核心痛点，加速了AI智能体在企业环境的部署与应用，也为后续企业级智能体的框架设计提供了结构化规划的重要参考范式。

长按识别二维码获取原文及AI分析

3. OpenClaw, Moltbook, and ClawdLab: From Agent-Only Social Networks to Autonomous Scientific Research

作者：Lukas Weidener，Marko Brkić，Mihailo Jovanović，Ritvik Singh，Emre Ulgac，Aakaash Meduri

作者单位：未知

论文出处：arXiv：2602.19810 [cs.AI] 4 Mar 2026

本文聚焦OpenClaw生态的技术突破，首次系统性阐述了“本地优先+系统级执行”的智能体架构，有效避免了传统云端智能体容易泄露隐私和响应延迟的缺点。论文披露，OpenClaw通过“无界面内核+守护进程”模式，实现了与本地系统的深度对接，可直接执行Shell命令、读写文件、控制浏览器，同时构建了ClawHub技能生态，让普通用户无需编程即可扩展智能体“做事”能力。

ClawdLab 平台架构

该论文提出的技术方案直接推动了智能体“聊天即操作系统”理念的实现，让用户可通过日常聊天工具下达实操指令，无需手动操作即可完成文件整理、邮件处理等任务；同时其技能生态与安全优化思路，为其他本地智能体的落地提供了参考，推动智能体向本地化、实用化升级。

长按识别二维码获取原文及AI分析

二、核心技术突破：“做事能力”的关键落地

如果说基础范式解决了“能不能做”的问题，以下4篇论文则聚焦“做得好、做得稳”方面，从执行精度、跨场景适配、隐私安全、多智能体协同四个维度，解释智能体“做事”的落地关键。

4. UI-Evol: Automatic Knowledge Evolving for Computer Use Agents

作者：Ziyun Zhang1，Xinyi Liu1，Xiaoyi Zhang2，Jun Wang2，Gang Chen2，Yan Lu2

作者单位：1School of Software and Microelectronics, Peking University. Work done during internship in Microsoft Research Asia，2Microsoft Research Asia

论文出处：Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR267, 2026.

本文由微软亚洲研究院撰写，针对智能体“知而不行”的痛点，提出了一款可即插即用的自主GUI知识进化模块UI-Evol。该模块包含回溯和批判两个核心阶段，前者从智能体与环境的实际交互中提取真实客观的动作序列，后者将这些序列与外部参考对比以优化现有知识。论文实验显示，加入UI-Evol模块后，智能体在实际任务中的执行成功率从41%提升至89%，同时降低了执行行为的随机性，提升了稳定性。

UI-Evol 包含的两个阶段

OpenClaw、千问均集成了类似UI-Evol的执行优化模块，确保发邮件、点外卖等任务的精准执行——例如，千问在点外卖时，可通过该模块验证商家库存、配送范围，避免出现“下单失败”“配送超时”等问题；OpenClaw在执行文件整理任务时，可通过模块回溯操作轨迹，修正误删、误存等错误。

长按识别二维码获取原文及AI分析

5. A Survey of AI Agent Protocols

作者：Yingxuan Yang, Huacan Chai, Yuanyi Song, Siyuan Qi, Muning Wen, Ning Li, Junwei Liao, Haoyi Hu, Jianghao Lin, Gaowei Chang†, Weiwen Liu, Ying Wen, Yong Yu, Weinan Zhang

作者单位：Shanghai Jiao Tong University, †ANP Community

论文出处：arXiv:2504.16736 [cs.AI] 21 Jun 2025

本文为首篇系统梳理AI智能体通信协议的综述类论文，解决了当前智能体与外部工具、多智能体间缺乏统一交互标准，导致闭环衔接不畅、难以规模化落地的核心痛点。论文构建了AI智能体协议的二维分类框架，系统梳理现有通信协议的优势与不足，明确闭环各环节的协议适配逻辑。同时，论文通过对比分析安全、扩展性、延迟等关键维度，为不同场景下智能体闭环选择适配协议提供了量化参考。

Agent互联网生态系统的分层架构

论文的协议分类框架与适配逻辑，对MCP协议优化有推动作用，解决了此前不同工具接口不兼容导致的闭环断裂问题。论文中的隐私保护协议设计，提升了闭环异常处理效率，推动智能体在多场景的规模化落地，与前文UI-Evol模块的执行优化、后文沙箱隔离的安全管控形成技术互补。

长按识别二维码获取原文及AI分析

6. ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

论文作者：Zhaorun Chen1，Mintong Kang2，Bo Li1,2

作者单位：1University of Chicago, Chicago IL；2University of Illinois at Urbana-Champaign, Champaign IL

论文出处：Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025

本文聚焦智能体的安全防护痛点，针对恶意指令与攻击导致的隐私泄露、财务损失等问题，提出了首个专为智能体设计的护栏系统ShieldAgent。论文通过从政策文档中提取可验证规则并构建行动概率规则电路，形成安全政策模型，再结合工具库与可执行代码对受保护智能体的行动轨迹进行形式化验证，同时构建了包含3K安全相关样本的ShieldAgent-Bench基准数据集，覆盖6类网络环境与7大风险类别，填补了智能体护栏基准的空白。

SHIELDAGENT概览

ShieldAgent的安全防护方案为智能体的风险管控提供了关键技术支撑。论文不仅在三大现有基准与自建ShieldAgent-Bench中实现最优性能，还通过减少64.7%的API查询与58.2%的推理时间，兼顾了防护精度与效率，为智能体在高安全需求场景（如金融、办公）的落地扫清了关键障碍，推动智能体安全防护从被动拦截向主动验证升级。

长按识别二维码获取原文及AI分析

7. AnyMAC: Cascading Flexible Multi-Agent Collaboration via Next-Agent Prediction

论文作者：Song Wang1, Zhen Tan2, Zihan Chen1, Shuang Zhou3, Tianlong Chen4, Jundong Li1

作者单位：1University of Virginia, 2Arizona State University，3University of Minnesota Twin Cities, 4University of North Carolina at Chapel Hill

论文出处：arXiv:2506.17784 [cs.AI] 1 Nov 2025

本文针对基于大语言模型的多智能体协作现有方法依赖静态或图结构的智能体间拓扑、通信缺乏适应性与灵活性的问题，提出了 AnyMAC 这一新框架。该框架摒弃图结构，以序列结构重构多智能体协同模式，为多智能体通信拓展了更大的拓扑空间。该架构的核心包括“下一个智能体预测”与“下一个上下文选择”两大核心机制，构建任务自适应的通信流水线，在保障全局信息流通的同时，赋予智能体角色动态调整能力。

基于大语言模型的多智能体通信拓扑设计比较

本文的动态协作思路为多智能体任务分配系统提供了关键优化方向，其“角色按需匹配+上下文精准调用”机制，让智能体在复杂办公协同场景中，可动态调整参与智能体，减少无效交互。经多基准测试验证，该框架在提升协作性能的同时显著减少通信成本，为智能体从“固定分工协作”向“动态按需协同”升级提供了核心技术支撑，推动多智能体系统在灵活适配场景的落地。

长按识别二维码获取原文及AI分析

三、应用落地及展望：让“做事”覆盖全场景

智能体要真正“落地做事”，离不开生态扩展与场景适配。这3篇论文聚焦技能生态、生活场景、办公场景的落地，推动智能体从“单一做事”向“全场景做事”升级，覆盖发邮件、点外卖、科研辅助、客户服务等多元需求。

8. CUA-Skill: Develop Skills for Computer Using Agent

论文作者：Tianyi Chen，Yinheng Li，Michael Solodko，Sen Wang，Nan Jiang，Tingyuan Cui，Junheng Hao，Jongwoo Ko，Sara Abdali，Qing Xiao，Leon Xu，Suzhen Zheng，Hao Fan，Pashmina Cameron，Justin Wagle，Kazuhito Koishida

作者单位：Microsoft

论文出处：arXiv:2601.21123 [cs.AI] 2 Feb 2026

该论文聚焦计算机使用智能体的技能落地，提出了CUA-Skill这一计算机使用智能体技能库。同时基于该技能库构建了端到端的 CUA-Skill Agent，该智能体支持动态技能检索、参数实例化以及内存感知的故障恢复功能，实验结果表明，CUA-Skill 在高难度的端到端智能体基准测试中显著提升了执行成功率和鲁棒性，为未来计算机使用智能体的研发奠定了坚实基础。

CUA-Skill及相关Skill-Agent概览

本文构建的桌面应用技能库，填补了AI智能体在桌面办公场景的技能适配空白，大幅提升了智能体在Windows等桌面系统的实操能力，推动智能体从“云端交互”向“本地桌面实操”延伸。其技能与桌面应用的适配逻辑，为行业提供了桌面场景智能体的落地参考，降低了桌面智能体的开发难度，让智能体可高效适配各类办公软件，真正融入日常办公流程。

长按识别二维码获取原文及AI分析

9. Simulating Human-like Daily Activities with Desire-driven Autonomy

论文作者：Yiding Wang1, Yuxuan Chen2, Fangwei Zhong3,5，Long Ma4,5, Yizhou Wang1,6

作者单位：1Institute for Artificial Intelligence, Peking University；2The University of Hong Kong；3School of Artificial Intelligence, Beijing Normal University；4Academy for Advanced Interdisciplinary Studies, Peking University；5State Key Laboratory of General Artificial Intelligence, BIGAI；6Center on Frontiers of Computing Studies, School of Computer Science

论文出处：Published as a conference paper at ICLR 2025

该论文针对当前 AI 智能体依赖明确任务指令或奖励函数、自主性与行为多样性不足的问题，提出了基于需求理论的欲求驱动自主智能体（D2A），其核心由动态价值系统与欲求驱动任务规划器构成，整合社交互动、自我实现、自我关怀等多维度类人欲求，通过“感知欲求-生成候选行为-预判效果-自主选择”的决策流程，在Concordia文本模拟器的室内生活与室外派对场景中，生成了连贯、贴合语境且兼具多样性与适应性的类人日常活动，相较于 LLMob、ReAct等主流智能体，显著提升了模拟活动的理性与类人度，且降低欲求不满度的效率接近真实人类。

D2A框架

这篇论文突破了传统“指令驱动”或“个性驱动”的智能体范式，首次将人类多维度内在欲求系统性融入智能体架构，为智能体赋予了自主行为的核心动机，填补了类人自主决策建模的空白；同时其提出的欲求价值系统与决策流程，为生活陪伴、社交模拟等需要类人自主交互的智能体落地提供了可行框架，为后续智能体的内在动机建模与类人行为生成研究提供了关键参考。

长按识别二维码获取原文及AI分析

10. OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows

论文作者：Weixuan Wang1，DonggeHan2，DanielMadrigal Diaz2，JinXu2，Victor Rühle2, Saravan Rajmohan2

作者单位：1School of Informatics, University of Edinburgh；2Microsoft

论文出处：arXiv:2508.09124 [cs.CL] 12 Aug 2025

本文针对现有基准多聚焦独立原子任务、无法捕捉真实办公场景中长程上下文依赖与多应用协同需求的问题，提出了面向LLM智能体的长程复杂办公流程评估基准OdysseyBench，其包含源自真实用例的300个任务（OdysseyBench+）与302个合成复杂任务（OdysseyBench-Neo），覆盖Word、Excel、PDF等多种办公应用，要求智能体从长程交互历史中提取关键信息并跨应用多步推理；同时提出多智能体框架HomerAgents，通过系统环境探索、任务生成与对话合成实现长程工作流基准的自动化规模化构建，评估结果表明该基准能更精准地挑战主流 LLM 智能体，相比原子任务基准更贴合真实办公场景的能力评估需求。

HomerAgents框架概述

HomerAgents框架则解决了复杂长程基准构建效率低的难题，实现基准的规模化生成，推动办公智能体从单一任务执行向多应用协同、长流程自动化的落地演进，也为后续真实生产力场景中智能体的研发与优化提供了关键参考，助力提升智能体在复杂办公场景中的可靠性与实用性。

长按识别二维码获取原文及AI分析

小结：从OpenClaw的“系统级执行”，到千问的“生活服务对接”，再到有道LobsterAI的“桌面自动化”，这些智能体不再停留在“用户问一句、答一句”层面，而是蜕变为能理解复杂意图、拆分任务、调用工具的智能助手，完成了从“被动响应”转变为“主动执行”转变。未来，随着技术的持续迭代，AI智能体将进一步降低“做事”门槛，覆盖更多办公与生活场景，实现“一句话指令，全流程完成”的终极目标，成为人类不可或缺的数字助手。

本文分类：讲座预告
本文标签：无
浏览次数：719 次浏览
发布日期：2026-03-11 20:16:33
本文链接：https://hlxc.lynu.edu.cn/jiangzuoyugao/3200.html

上一篇 > 【学术预告】AI赋能的数字出版与传播
下一篇 > 郑州大学/南京大学合作，Nature！

AI Agent大爆发：10篇论文读懂“龙虾”“奶茶”的技术跃迁

《小王子》的玫瑰

我着急去……你换个人吧

星空下的沉思

已读不回？TA在干嘛？