腾讯混元开源 Chronicles-OCR：让 GPT-5 认不得甲骨文的基准，才是好基准

腾讯混元联合安阳师范学院、中科院、南开大学、故宫博物院推出 Chronicles-OCR——业界首个覆盖汉字"七体之变"完整演化轨迹的古文字感知评测基准。2800 张严格平衡的图像、4 项定量任务、28 个主流模型实测，最高识别准确率仅 27.1%。这不是一个让模型刷榜的 benchmark，是给所有人看差距的 X 光片。

Chronicles-OCR 覆盖汉字七体演化轨迹

发生了什么

2026 年 5 月 18 日，腾讯混元在 X/Twitter 上发布了一条公告：

Chronicles-OCR: the first comprehensive benchmark to evaluate VLLMs across the complete evolutionary trajectory of Chinese characters — the "Seven Chinese Scripts".

同一天，AIbase、腾讯新闻、新浪财经等媒体同步报道。

这不是又一个大模型跑分的新 benchmark。这是一个专门设计来暴露 VLLM（Vision Large Language Models）视觉感知短板的评测工具。它要回答的问题只有一个：当现代 AI 遇到三千年前的文字，它到底能"看"懂多少？

答案很残酷。

关键数据

先看基准本身：

维度	数据
图像总量	2,800 张（7 种字体 × 400 张）
字体覆盖	甲骨文、金文、篆书、隶书、楷书、行书、草书
评测模型数	28 个（含 GPT-5、Gemini 3.1 Pro、Claude Opus 4.7）
核心任务	4 项（跨时代字符检测、细粒度识别、古文解析、字体分类）
细粒度识别最高准确率	27.1%

再看模型表现的"惨烈"程度：

任务	最好成绩	说明
跨时代字符检测	主流模型全面失败	甲骨文、金文、篆书缺乏现代版面先验
细粒度古字识别	27.1%	远低于实用门槛
古文解析	较低	隶书到草书跨度大
字体分类	中等偏差	模型倾向于识别载体材质而非笔画特征

一个值得注意的发现：开启推理模式（thinking mode）反而降低了性能。模型越"想"越不确定——这说明问题不在推理能力，在感知能力。看都看不准，想再多也没用。

为什么这件事值得做

OCR 领域过去十年的进步主要聚焦在现代印刷体和手写体上。HunyuanOCR 1B 参数在 OmniDocBench 拿 94.1 分，OCRBench 拿 860 分，覆盖 9 大场景，100+ 语言——现代文字识别已经卷到天花板了。

但古文字是完全不同的维度：

形态跨度大。从甲骨文的象形图画到草书的连笔狂草，3000 年演化出的视觉分布偏移（distribution shift），不是简单 finetune 能解决的。甲骨文刻在龟甲兽骨上，金文铸在青铜器上，篆书刻在石碑上——载体不同、笔画形态不同、排版逻辑不同。

标注难。不是谁都能标甲骨文。安阳师范学院甲骨文信息处理重点实验室、故宫博物院文物手写体识别测试数据集——这些机构手里的数据和专家，是普通 AI 团队根本接触不到的。

现有数据集碎片化。HWOBC 只做甲骨文字符识别，HUST-OBC 也只覆盖甲骨文，GEVO-Bench 只做古代字体的字符级任务。没有一个 benchmark 能覆盖从甲骨文到草书的完整演化链。

Chronicles-OCR 填补的正是这个空白。

Stage-Adaptive Annotation：一个值得细看的创新

这个基准最聪明的设计不是数据量（2800 张在 OCR 领域不算大），而是阶段自适应标注范式（Stage-Adaptive Annotation Paradigm）。

核心思路：不同历史阶段的字体，用不同的评测策略。

早期文字（甲骨文、金文、篆书）：字级标注。单字 bounding box + visual referring + 现代字映射，支持端到端的定位和识别。因为这些字距离现代文字太远，模型需要先"找到字"再"认出字"，两步分开评。
成熟文字（隶书、楷书、行书、草书）：段落级标注。评测的是古代文本解析能力——给一张图，能不能把整段文字正确转录出来。因为这些字的形态已经接近现代文字，挑战从"认字"变成了"读文"。
跨所有七体：字体分类任务。测试模型对汉字演化宏观规律的理解。

这个设计背后有一个深刻的洞察：视觉感知和语义推理是可以解耦的。一个模型可能完全看不懂甲骨文的意思，但如果它连"这是一个字"都检测不到，那问题不在语言理解，在视觉感知。Chronicles-OCR 把这两个层面拆开了。

腾讯的数字人文布局

Chronicles-OCR 不是腾讯混元团队的孤立动作。把这个发布放在腾讯的 AI 文化和产品战略里看，线条更清晰：

混元 OCR 已经证明了"看现代文字"的能力。1B 参数端到端模型，OmniDocBench 94.1 分，OCRBench 860 分，ICDAR2025 翻译赛冠军。现代 OCR 能做的事，HunyuanOCR 基本都做到了 SOTA。

下一步是"看所有文字"。Chronicles-OCR 就是这条路上的第一块路标。它不是产品，是基础设施——告诉社区"差距在哪里"、"应该往哪个方向优化"。

SSV（可持续社会价值）数字文化实验室的参与说明这不是纯商业项目。腾讯在文化数字化上的投入有社会价值维度——甲骨文数字化、古文献整理、文物保护，这些都是 SSV 的长期方向。

合作机构阵容值得关注：

安阳师范学院甲骨文信息处理重点实验室 → 中国甲骨文研究的权威机构
中科院信工所 → 信息技术国家队
南开大学 → 文史学科传统强校
故宫博物院 → 文物手写体数据源

这不是 AI 团队闭门造 benchmark，是 AI + 人文跨学科的联合出品。GitHub 仓库名是 VirtualLUOUCAS/Chronicles-OCR（UCAS = University of Chinese Academy of Sciences），数据集发布在 HuggingFace，论文挂在 arXiv（2605.11960）。完全开放的学术路径。

古文字 OCR 的竞品格局

Chronicles-OCR 不是唯一关注古文字的 benchmark，但它是最全面的：

Benchmark	覆盖范围	局限
Chronicles-OCR	七体全覆盖、4 任务	2800 张图像，规模有限
HWOBC	甲骨文字符识别	单一字体、单一任务
HUST-OBC	甲骨文字符识别	同上
GEVO-Bench	古代字体字符级	缺少文档级评测
AncientDoc（字节）	古代文档 5 任务	聚焦文档理解，非视觉感知

字节跳动的 AncientDoc 是最接近的竞品——覆盖 14 类文档、3000 页、5 项任务从 OCR 到知识推理。但 AncientDoc 侧重的是文档理解，Chronicles-OCR 侧重的是视觉感知。两者互补，不冲突。

一个有趣的细节：Chronicles-OCR 的论文明确说"by isolating visual perception from semantic reasoning"——它故意只测视觉感知，不碰语义理解。这是刻意的选择：先把"看准"这件事做好，"理解"是下一步。

对做产品的人意味着什么

如果你在做 OCR 产品、文档理解系统或者任何需要"读图"的 AI 应用：

1. 现代 OCR 的能力已经够用了。 HunyuanOCR 开源、1B 参数、单卡可跑、多语言 SOTA。如果你只是要识别现代文档、票据、街景文字，不需要自己训练模型了。

2. 长尾场景的差距被量化了。 Chronicles-OCR 用 27.1% 的数字告诉你：古文字识别还差很远。如果你有古籍数字化、文物保护、古文献整理的需求，别指望通用 VLLM 能搞定，需要专门的方案。

3. benchmark 本身在成为产品。 Chronicles-OCR 的 GitHub 仓库和 HuggingFace 数据集完全开放。做古籍数字化项目的团队可以直接拿来做评测标准，学术团队可以拿来做研究 baseline。benchmark 不再只是论文的附属品，它本身是一个有价值的开放资源。

4. AI + 人文的交叉领域有机会。 腾讯拉了安阳师院、故宫、中科院、南开——这些机构手里有数据、有专家，但缺 AI 工程能力。反过来，AI 团队有技术但缺领域知识。中间的合作空间很大。

一句话总结

Chronicles-OCR 用 2800 张图像和 27.1% 的最高识别率告诉所有人：大模型"看"现代文字已经很强了，但"看"三千年前的文字，连入门都算不上。这不是一个让你刷榜的 benchmark，是一张告诉你差距在哪的 X 光片——而这份坦诚，比任何 SOTA 分数都有价值。

参考来源：

腾讯混元开源 Chronicles-OCR：让 GPT-5 认不得甲骨文的基准，才是好基准 ​

发生了什么 ​

关键数据 ​

为什么这件事值得做 ​

Stage-Adaptive Annotation：一个值得细看的创新 ​

腾讯的数字人文布局 ​

古文字 OCR 的竞品格局 ​

对做产品的人意味着什么 ​

一句话总结 ​