Skip to content

腾讯混元开源 Chronicles-OCR:让 GPT-5 认不得甲骨文的基准,才是好基准

腾讯混元联合安阳师范学院、中科院、南开大学、故宫博物院推出 Chronicles-OCR——业界首个覆盖汉字"七体之变"完整演化轨迹的古文字感知评测基准。2800 张严格平衡的图像、4 项定量任务、28 个主流模型实测,最高识别准确率仅 27.1%。这不是一个让模型刷榜的 benchmark,是给所有人看差距的 X 光片。

Chronicles-OCR 覆盖汉字七体演化轨迹

发生了什么

2026 年 5 月 18 日,腾讯混元在 X/Twitter 上发布了一条公告:

Chronicles-OCR: the first comprehensive benchmark to evaluate VLLMs across the complete evolutionary trajectory of Chinese characters — the "Seven Chinese Scripts".

同一天,AIbase、腾讯新闻、新浪财经等媒体同步报道。

这不是又一个大模型跑分的新 benchmark。这是一个专门设计来暴露 VLLM(Vision Large Language Models)视觉感知短板的评测工具。它要回答的问题只有一个:当现代 AI 遇到三千年前的文字,它到底能"看"懂多少?

答案很残酷。

关键数据

先看基准本身:

维度数据
图像总量2,800 张(7 种字体 × 400 张)
字体覆盖甲骨文、金文、篆书、隶书、楷书、行书、草书
评测模型数28 个(含 GPT-5、Gemini 3.1 Pro、Claude Opus 4.7)
核心任务4 项(跨时代字符检测、细粒度识别、古文解析、字体分类)
细粒度识别最高准确率27.1%

再看模型表现的"惨烈"程度:

任务最好成绩说明
跨时代字符检测主流模型全面失败甲骨文、金文、篆书缺乏现代版面先验
细粒度古字识别27.1%远低于实用门槛
古文解析较低隶书到草书跨度大
字体分类中等偏差模型倾向于识别载体材质而非笔画特征

一个值得注意的发现:开启推理模式(thinking mode)反而降低了性能。模型越"想"越不确定——这说明问题不在推理能力,在感知能力。看都看不准,想再多也没用。

为什么这件事值得做

OCR 领域过去十年的进步主要聚焦在现代印刷体和手写体上。HunyuanOCR 1B 参数在 OmniDocBench 拿 94.1 分,OCRBench 拿 860 分,覆盖 9 大场景,100+ 语言——现代文字识别已经卷到天花板了。

但古文字是完全不同的维度:

形态跨度大。从甲骨文的象形图画到草书的连笔狂草,3000 年演化出的视觉分布偏移(distribution shift),不是简单 finetune 能解决的。甲骨文刻在龟甲兽骨上,金文铸在青铜器上,篆书刻在石碑上——载体不同、笔画形态不同、排版逻辑不同。

标注难。不是谁都能标甲骨文。安阳师范学院甲骨文信息处理重点实验室、故宫博物院文物手写体识别测试数据集——这些机构手里的数据和专家,是普通 AI 团队根本接触不到的。

现有数据集碎片化。HWOBC 只做甲骨文字符识别,HUST-OBC 也只覆盖甲骨文,GEVO-Bench 只做古代字体的字符级任务。没有一个 benchmark 能覆盖从甲骨文到草书的完整演化链。

Chronicles-OCR 填补的正是这个空白。

Stage-Adaptive Annotation:一个值得细看的创新

这个基准最聪明的设计不是数据量(2800 张在 OCR 领域不算大),而是阶段自适应标注范式(Stage-Adaptive Annotation Paradigm)。

核心思路:不同历史阶段的字体,用不同的评测策略

  • 早期文字(甲骨文、金文、篆书):字级标注。单字 bounding box + visual referring + 现代字映射,支持端到端的定位和识别。因为这些字距离现代文字太远,模型需要先"找到字"再"认出字",两步分开评。
  • 成熟文字(隶书、楷书、行书、草书):段落级标注。评测的是古代文本解析能力——给一张图,能不能把整段文字正确转录出来。因为这些字的形态已经接近现代文字,挑战从"认字"变成了"读文"。
  • 跨所有七体:字体分类任务。测试模型对汉字演化宏观规律的理解。

这个设计背后有一个深刻的洞察:视觉感知和语义推理是可以解耦的。一个模型可能完全看不懂甲骨文的意思,但如果它连"这是一个字"都检测不到,那问题不在语言理解,在视觉感知。Chronicles-OCR 把这两个层面拆开了。

腾讯的数字人文布局

Chronicles-OCR 不是腾讯混元团队的孤立动作。把这个发布放在腾讯的 AI 文化和产品战略里看,线条更清晰:

混元 OCR 已经证明了"看现代文字"的能力。1B 参数端到端模型,OmniDocBench 94.1 分,OCRBench 860 分,ICDAR2025 翻译赛冠军。现代 OCR 能做的事,HunyuanOCR 基本都做到了 SOTA。

下一步是"看所有文字"。Chronicles-OCR 就是这条路上的第一块路标。它不是产品,是基础设施——告诉社区"差距在哪里"、"应该往哪个方向优化"。

SSV(可持续社会价值)数字文化实验室的参与说明这不是纯商业项目。腾讯在文化数字化上的投入有社会价值维度——甲骨文数字化、古文献整理、文物保护,这些都是 SSV 的长期方向。

合作机构阵容值得关注

  • 安阳师范学院甲骨文信息处理重点实验室 → 中国甲骨文研究的权威机构
  • 中科院信工所 → 信息技术国家队
  • 南开大学 → 文史学科传统强校
  • 故宫博物院 → 文物手写体数据源

这不是 AI 团队闭门造 benchmark,是 AI + 人文跨学科的联合出品。GitHub 仓库名是 VirtualLUOUCAS/Chronicles-OCR(UCAS = University of Chinese Academy of Sciences),数据集发布在 HuggingFace,论文挂在 arXiv(2605.11960)。完全开放的学术路径。

古文字 OCR 的竞品格局

Chronicles-OCR 不是唯一关注古文字的 benchmark,但它是最全面的:

Benchmark覆盖范围局限
Chronicles-OCR七体全覆盖、4 任务2800 张图像,规模有限
HWOBC甲骨文字符识别单一字体、单一任务
HUST-OBC甲骨文字符识别同上
GEVO-Bench古代字体字符级缺少文档级评测
AncientDoc(字节)古代文档 5 任务聚焦文档理解,非视觉感知

字节跳动的 AncientDoc 是最接近的竞品——覆盖 14 类文档、3000 页、5 项任务从 OCR 到知识推理。但 AncientDoc 侧重的是文档理解,Chronicles-OCR 侧重的是视觉感知。两者互补,不冲突。

一个有趣的细节:Chronicles-OCR 的论文明确说"by isolating visual perception from semantic reasoning"——它故意只测视觉感知,不碰语义理解。这是刻意的选择:先把"看准"这件事做好,"理解"是下一步。

对做产品的人意味着什么

如果你在做 OCR 产品、文档理解系统或者任何需要"读图"的 AI 应用:

1. 现代 OCR 的能力已经够用了。 HunyuanOCR 开源、1B 参数、单卡可跑、多语言 SOTA。如果你只是要识别现代文档、票据、街景文字,不需要自己训练模型了。

2. 长尾场景的差距被量化了。 Chronicles-OCR 用 27.1% 的数字告诉你:古文字识别还差很远。如果你有古籍数字化、文物保护、古文献整理的需求,别指望通用 VLLM 能搞定,需要专门的方案。

3. benchmark 本身在成为产品。 Chronicles-OCR 的 GitHub 仓库和 HuggingFace 数据集完全开放。做古籍数字化项目的团队可以直接拿来做评测标准,学术团队可以拿来做研究 baseline。benchmark 不再只是论文的附属品,它本身是一个有价值的开放资源。

4. AI + 人文的交叉领域有机会。 腾讯拉了安阳师院、故宫、中科院、南开——这些机构手里有数据、有专家,但缺 AI 工程能力。反过来,AI 团队有技术但缺领域知识。中间的合作空间很大。

一句话总结

Chronicles-OCR 用 2800 张图像和 27.1% 的最高识别率告诉所有人:大模型"看"现代文字已经很强了,但"看"三千年前的文字,连入门都算不上。这不是一个让你刷榜的 benchmark,是一张告诉你差距在哪的 X 光片——而这份坦诚,比任何 SOTA 分数都有价值。


参考来源

最近更新

基于 MIT LICENSE 许可发布