华科大研发多模态大模型“猴子”升级
极目新闻
2024-03-16 17:08:56

原标题:华科大研发多模态大模型“猴子”升级

极目新闻记者 李碗容

通讯员 汪伟颋

3月16日,极目新闻记者从华中科技大学获悉,华中科技大学和金山办公的研究人员开发的Monkey多模态大模型已被人工智能领域的国际顶级会议CVPR2024接收,并且曾在Meta AI公认的国际权威“司南”多模态大模型排行榜中名列开源模型榜首,仅次于行业领先者OpenAI的GPT4V以及谷歌的Gemini等闭源模型。

“司南”多模态大模型排行榜单

多模态大模型是一类可以同时处理和整合多种感知数据的AI架构,在众多场景中表现出色。据介绍,TextMonkey是Monkey在文档领域的重要升级,突破了通用文档理解能力的边界,在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析,表格理解,图表问答,电子文档关键信息抽取等12项等文档权威数据集以及在国际上规模最全的文档图像智能数据集OCRBench上取得了显著突破,通用文档理解性能大幅超越现有方法。

解答数学题并给出具体步骤

该科研团队相关负责人介绍,Monkey能帮助我们解答数学题并给出解题步骤,有助于教育自动化。TextMonkey能帮助我们结构化图表、表格以及文档数据,通过将图像内容转化为轻量级的数据交换格式,方便记录和提取。TextMonkey也能作为智能手机代理,无需接触后端,仅需语音输入及屏幕截图,即能够模仿人类的点击手势,能够在手机上执行各种任务,自主操控手机应用程序。

TextMonkey将图表自动结构化成json格式示例

TextMonkey的成功核心在于它模拟人类视觉认知的方法,这使它能自然而然地识别高清文档图像中各部分的相互关联,并灵敏地鉴别出图像内的关键要素。更进一步,基于对用户多样化需求的深入理解,TextMonkey通过文本定位技术强化了答案的准确性,提升了模型的解释性,减少了幻觉,有效提高了在处理各类文档任务上的表现。

TextMonkey充当智能手机代理控制手机应用程序

当前,随着企业加速数字化转型,文档与图像的多模态结构化分析及内容提取显得尤为关键。无论处理的是随意拍摄的图片、电子文档、办公软件文件还是图表分析报告,快速、自动化、精确的数据处理对于提升企业的生产效率具有决定性意义。在此背景下,TextMonkey的推出为这一挑战提供了一种创新的通用解决方案,有望在办公自动化、智慧教育、智慧金融等领域率先实现技术突破,为全面提升通用文档理解能力带来曙光。

(来源:极目新闻)

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

上海海能投顾收服务费荐股服务,... 上海海能投顾收服务费荐股服务,暗示收益骗取服务费,亲身经历教你挽回!证券投资咨询行业的本质在于为投资...
上海倔毛驴影视传媒有限公司加错... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。最近许多人找到我们...
《轮回三生,她总在骗我镇魂》短... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。最近许多人找到我们...
《我的死对头是恋爱脑》短剧投资... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。最近许多人找到我们...
厦门达愉文化传媒有限公司短剧投... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。最近许多人找到我们...
《逃婚世子小神医》短剧投资的回... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。最近许多人找到我们...
老虎淘金APP平台订购白银输的... 老虎淘金APP平台订购白银输的不少钱亏损的钱能退吗?可以依法追回亏损,10天维权退款方法!白银投资里...
《长安诡事传》怎么样?短剧投资... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。最近许多人找到我们...
《我家娘子河东狮》短剧投资真的... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。最近许多人找到我们...
最新!盈盈订购app亏钱了怎么... 白银现货平台骗局大起底:高收益背后的财富陷阱与维权实战”在抖音、今日头条等平台打广告的顶点订购app...