<正>我们要在高风险场景中引入“评估前置”机制,针对重要AI代理系统,要求其在备案、许可或重大变更时提交经第三方或行业平台验证的评估报告,重点关注系统的稳定性、安全性和极端场景表现。2026年1月,人工智能安全公司Anthropic发布《Demystifying evals for AI agents》长文,系统梳理任务、试验、评分器、环境和评估框架等要素,展示多轮对话与工具调用条件下如何构建自动化评估闭环。报告结合Claude Code等产品实践,提出面向编码代理、会话代理、研究代理和电脑使用代理的分类型评估思路,并引入SWE-bench Verified、Terminal-Bench、τ-Bench、WebArena等国际基准。