摘要:本报告系统性介绍了如何构建更强大的智能体系统,从浏览器自动化、多智能体编排,到通过外部记忆模块增强大模型推理能力。首先介绍自研浏览器智能体 Proxy/Proxy Lite 在真实场景中的多智能体协同、规划与再规划(Re-planning)能力,并展示提出的搜索模型Mindstar在纯推理阶段的推理路径搜索中如何让小模型达到或越越大模型表现。其次,报告提出新的benchmark WebGames 作为智能体评测的新范式,通过可脸证完成性、人类能力对齐、单能力隔离测试等机制提升评测可靠性。最后,基于提出的记忆体大模型LM2(Large Memory Model)展示记忆模块如何突破 Transformmer 的长上下文与多步推理瓶颈,实现更好的关系追踪与多跳推理能力。
报告人简介:康计堃,5alesforce 首席技术成员,主要从事自主智能体、大语言模型推理增强及记忆增强模型的研究与落地。他于 McGill University 与 Mila 获得博士学位,研究涵盖强化学习、多智能体系统、元学习、LLM 推理与决策模型等多个方向。