DeepSeek-OCR 2发布：让AI像人一样“读懂”复杂文档

1月27日，DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文，并开源DeepSeek-OCR 2模型。该模型采用创新的DeepEncoder V2新型编码器结构，它能够根据图像语义动态调整视觉信息的处理顺序，使模型在进行文字识别前先对视觉内容进行智能排序。这项技术突破源于对传统视觉语言模型处理方式的重新思考，旨在让机器更贴近人类的视觉阅读逻辑。

在传统的视觉语言模型中，图像通常会被切分为若干视觉token，并按照从左上到右下的固定栅格顺序送入模型处理。这种方式虽然实现简单，但与人类在阅读文档、表格或公式时基于语义和逻辑关系进行跳跃式浏览的方式并不一致。

DeepSeek论文指出，尤其在版式复杂的文档场景中，视觉元素之间往往存在明确的逻辑先后关系，仅依赖空间顺序可能限制模型对内容结构的理解能力。

为验证模型性能，研究团队在OmniDocBench v1.5基准上进行了全面评估。该基准涵盖多种类型的中英文文档，包括学术论文、杂志、报告等，重点考察文本识别、公式解析、表格结构还原以及阅读顺序等指标。

测试结果显示，在视觉token上限更低的情况下，DeepSeek-OCR 2的整体得分达到91.09%，相较DeepSeek-OCR提升了3.73%。特别是在阅读顺序准确度方面，编辑距离从0.085降至0.057，表明新模型能够更合理地理解文档内容结构。

对文章打分

DeepSeek-OCR 2发布：让AI像人一样“读懂”复杂文档

最新资讯

编辑精选

热门评论

相关文章

OpenAI正在清退冒充美军获得的ChatGPT订阅部分用户被永久封号

与美军合作被骂惨奥特曼内部诉苦：极其煎熬但管不了军方怎么用AI

马云刚定调谈AI 阿里千问负责人林俊旸辞职团队调整内情曝光

开放AI拟与北约签订合约计划在“非机密”网络部署技术

萨姆·奥特曼继续为美国国防部合同辩护称OpenAI不做xAI也会做

OpenAI CEO告知员工：公司对美国国防部的决策没有发言权

Top 10

微信新能力上线可查图片使用次数

极客湾疑似遭"全网封杀"!背后力量深不可测？

极客湾遭"封杀"引热议连YouTube视频都下架了

微信新能力上线可查图片使用次数

苹果不再允许用户扛着MacBook到苹果零售店拷贝Final Cut Pro

极客湾疑似遭"全网封杀"!背后力量深不可测？