实现文档认知,云知声推出工业级文档智能基础大模型
创始人
2026-02-27 14:41:27

26日,云知声正式推出 Unisound U1-OCR 文档智能基础大模型。作为首个工业级文档智能基座,该模型凭借 “性能 SOTA、可信可验、开箱即用、高效部署、强适配” 五大优势,打破传统文档处理边界。

传统视觉方案(OCR 1.0,以CRNN 为代表)仅能识别文字,新一代多模态方案(OCR 2.0,以VLM为代表 )具备端到端版面理解能力和文字识别能力。而 Unisound U1-OCR 开启 OCR 3.0 时代——在理解版面的基础上,进一步洞察文档深层语义,实现自动分类与业务级信息抽取,完成了从“字符感知”到“文档认知”的质的飞跃。

首先,它拥有“先懂结构,再读内容”的智慧。传统模型往往按顺序死板阅读,而Unisound U1-OCR首创了“语义驱动+动态聚焦”策略。如同人类阅读习惯,先梳理文档目录、标题的层级关系,再按需提取内容。模型能自动构建文档的“语义地图”,精准识别标题、图表与正文的从属关系,即使面对排版混乱的极端场景,也能条理清晰地提取信息。

其次,它具备敏锐的“空间感知力”。通过强化空间对齐模块,模型能充分利用文字在页面上的位置信息,主动理解元素间的空间布局。结合动态分辨率技术,无论是密集表格还是图文混排,它都能精准还原文档结构,彻底解决了以往模型“张冠李戴”的空间盲区。

在实际应用场景中,通用OCR工具在专业领域存在局限——例如医保结算单中“自付一”“自付二”与“个人自费”的逻辑关系,或合同中金额大小写的校验规则,都需要领域知识支撑。

Unisound U1-OCR在基础模型之上,融入了云知声在医疗、金融等领域的行业知识积累,模型可基于业务逻辑进行多字段关联校验。在内部业务测试中,面向50余种常见业务文书的分类准确率超过99%。

再比如,传统方案在解析报纸、期刊等多栏穿插、图文交织的复杂版面时,易陷入“下一段该读哪里”的阅读迷航。而Unisound U1-OCR模型的突破在于,它不再机械地按固定顺序扫描页面,而是像人一样,结合上下文语义与版面逻辑,自动判断段落的承接关系,精准梳理出符合人类阅读习惯的内容流。

南方+记者 郜小平

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

原创 《... 经历了前几年的断臂求生与降本增效,长视频行业本以为已经迎来了春暖花开,但爱奇艺刚刚交出的2025年成...
中国大模型token调用量首超... 2月27日,A股市场震荡上行,AI主线依旧强势,算力租赁板块大涨,科创人工智能ETF汇添富(5895...
绿茶集团预计2025年利润增超... 瑞财经 刘治颖 近日,绿茶集团(06831)公告,预期集团将录得2025年利润介乎约4.6亿元至5....
豫园旗下老庙黄金法定代表人变更... 张剑卸任老庙黄金法定代表人、执行董事,由黄震接任法定代表人并担任董事 投资时间网、标点财经快讯 天眼...
告别IPO排队,广州银行增资扩... 出品|中访网 审核|李晓燕 在中小银行资本补充需求持续提升、A股上市节奏趋稳的行业背景下,广州银行近...
A股收评:超3200只个股上涨... 27日,A股三大指数低开,随后震荡分化,沪指收涨。Wind数据显示,截至收盘,上证指数涨0.39%,...
原创 中... 2月26日,中国国家计算机病毒应急处理中心,发布了一份重磅报告。报告直接实锤,2022到2025这三...
英媒:自动驾驶汽车“睁开了眼” 英国“生命科技”网站2月20日文章,原题:仿生“机器眼”融合自然与工程,为机器人视觉带来新突破 自动...
原创 谷... 目前全球有三大智能手机操作系统,分别是谷歌的安卓、苹果的iOS、华为的鸿蒙系统。 不过,这三大系统中...
高额关税下,中国车企2025年... 此前我们分析了中国品牌在澳大利亚、以色列、新加坡等“关税友好”发达国家的销量表现,经过几年的持续增长...