实现文档认知，云知声推出工业级文档智能基础大模型_资讯

实现文档认知，云知声推出工业级文档智能基础大模型

创始人

2026-02-27 14:41:27

26日，云知声正式推出 Unisound U1-OCR 文档智能基础大模型。作为首个工业级文档智能基座，该模型凭借 “性能 SOTA、可信可验、开箱即用、高效部署、强适配” 五大优势，打破传统文档处理边界。

传统视觉方案（OCR 1.0，以CRNN 为代表）仅能识别文字，新一代多模态方案（OCR 2.0，以VLM为代表）具备端到端版面理解能力和文字识别能力。而 Unisound U1-OCR 开启 OCR 3.0 时代——在理解版面的基础上，进一步洞察文档深层语义，实现自动分类与业务级信息抽取，完成了从“字符感知”到“文档认知”的质的飞跃。

首先，它拥有“先懂结构，再读内容”的智慧。传统模型往往按顺序死板阅读，而Unisound U1-OCR首创了“语义驱动+动态聚焦”策略。如同人类阅读习惯，先梳理文档目录、标题的层级关系，再按需提取内容。模型能自动构建文档的“语义地图”，精准识别标题、图表与正文的从属关系，即使面对排版混乱的极端场景，也能条理清晰地提取信息。

其次，它具备敏锐的“空间感知力”。通过强化空间对齐模块，模型能充分利用文字在页面上的位置信息，主动理解元素间的空间布局。结合动态分辨率技术，无论是密集表格还是图文混排，它都能精准还原文档结构，彻底解决了以往模型“张冠李戴”的空间盲区。

在实际应用场景中，通用OCR工具在专业领域存在局限——例如医保结算单中“自付一”“自付二”与“个人自费”的逻辑关系，或合同中金额大小写的校验规则，都需要领域知识支撑。

Unisound U1-OCR在基础模型之上，融入了云知声在医疗、金融等领域的行业知识积累，模型可基于业务逻辑进行多字段关联校验。在内部业务测试中，面向50余种常见业务文书的分类准确率超过99%。

再比如，传统方案在解析报纸、期刊等多栏穿插、图文交织的复杂版面时，易陷入“下一段该读哪里”的阅读迷航。而Unisound U1-OCR模型的突破在于，它不再机械地按固定顺序扫描页面，而是像人一样，结合上下文语义与版面逻辑，自动判断段落的承接关系，精准梳理出符合人类阅读习惯的内容流。

南方+记者郜小平

上一篇：豆包手机助手存在安全漏洞？公司回应

下一篇：智能售货机工厂推荐

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

实现文档认知，云知声推出工业级文档智能基础大模型

相关内容

热门资讯