来自中国团队的 68.86% SOTA:Univer 如何重定义电子表格 Agent

小小MT4 来源:市场资讯 °C 栏目:金融资讯

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

  来源:Univer梦数科技

  在最近一轮的SpreadsheetBench评测中,UniverAgent 取得了68.86% 的 Pass Rate,位列排行榜第一,超越了包括 ChatGPT Agent 和 Excel Copilot 在内的主流方案。(对技术有兴趣的朋友,欢迎点击左下角“查看原文”到我们的 Github 转转,顺手给个⭐️)

  SpreadsheetBench 是当前电子表格自动化领域最具权威性的公开基准之一,微软与 OpenAI 均曾在官方文章中引用其测试数据,微软现任 CEO 萨提亚·纳德拉(Satya Nadella)也曾在社交媒体上发表其评测结果。

  这是该榜单出现的第一支中国团队。与榜上多数仍依赖 Excel 环境执行任务不同,UniverAgent 基于自研的 Univer SDK,实现了全程脱离 Excel 的表格计算与推理能力,可视为一次从底层重构电子表格智能的技术跃迁。这一成绩的取得,并非单纯依赖于更强的基座模型,而是源于我们对“电子表格 Agent”这一命题的系统性重构:从“生成脚本操作文件”的辅助工具,转向“基于在线环境、具备混合执行能力的自主智能体”。

  本文将从技术视角拆解 UniverAgent 在 SpreadsheetBench 上的表现,探讨它是如何在理解(Understanding)准确性(Accuracy)定位(Positioning)三个维度上建立优势的。

  一、SpreadsheetBench:真实业务场景的试金石

  许多 AI Demo 看起来很美,但在真实业务中往往“一碰就碎”。SpreadsheetBench 的价值在于它提供了一个基于真实任务的严谨参考框架。

  它包含912 个来源于真实场景的任务,涵盖了从数据清洗、复杂计算到格式调整的全流程。与简单的“玩具数据集”不同,SpreadsheetBench 重点考察三个互相关联的维度:

  1. UNDERSTANDING(理解能力):能否准确理解自然语言指令中的业务意图,并正确识别相关的数据区域(而非误用无关区域)。

  2. ACCURACY(结果准确性):数值计算是否精确,公式逻辑是否正确,数据类型(如日期、货币)是否符合规范。

  3. POSITIONING(定位准确性):结果是否写入了指定的工作表和单元格,且不破坏原有的表格结构。

  这三个维度彼此牵制、很难被单一技术路径同时兼顾:单纯的 Python 脚本容易算对数值(Accuracy),但很难处理复杂的格式和位置约束(Positioning);单纯的 Excel 公式能处理位置,但难以应对复杂的逻辑推理(Understanding)。

  UniverAgent 的高分,正是因为它通过系统设计,在这三个维度上取得了平衡。

  二、核心差异:系统工程胜于模型参数

  在 SpreadsheetBench 榜单上,我们可以看到多种技术路线。UniverAgent 的核心差异在于:我们没有把电子表格简单视为一个 CSV 文件或一个 API 对象,而是围绕其结构化、富交互、在线化的特性,设计了一整套 Agent 架构。

  这套架构包含三个关键支柱:

  1. 表格友好的上下文工程:通过 `SpreadsheetOverview` 和 `GetRangeData`,构建高信噪比的“地图”与“放大镜”。

  2. CodeAct + Planning 执行策略:引入多轮思考循环与自适应缓存,替代脆弱的“一次性脚本”。

  3. 在线混合执行架构:Python 负责重数据分析,JavaScript (Univer SDK) 负责精细表格操作,两者在在线环境中无缝协作。

  三、上下文工程:构建高信噪比的“地图”与“放大镜”

  电子表格任务的一大挑战是上下文(Context)爆炸。一个几千行的表格直接转为文本会瞬间耗尽 Token 预算,且丢失关键的结构信息(如合并单元格、公式引用)。

  UniverAgent 设计了两层上下文抽象来解决这个问题。

  1. SpreadsheetOverview:全局“地图”与信息压缩

  `SpreadsheetOverview` 的作用是让 Agent 在消耗极少 Token 的前提下,看清整个工作簿的结构。它不仅仅是数据的截断展示,更包含了一系列智能压缩策略。

  以一个简单的销售数据表为例,原始电子表格中的内容大致如下(只展示关键列):

  # Spreadsheet Context