今天分享的是【“弈衡”多模态大模型评测体系白皮书(2024年)】 报告出品方:中移智库
图文大模型相较于传统视觉模型和大语言模型,在图像识别、图文深度理解与推理以及图片创作等复杂图文交互任务中展现出了显著的优势,由于不同图文大模型在处理应用场景时各有专长,因此选择适合各行业特定应用需求的模型变得尤为重要,在对图文大模型进行评测时,需面向不同任务类型,从各个维度进行综合全面的评测,以评估图文大型的真实性能和用户体验。目前,对图文大模型的评测需求包括但不限于以下几类任务:
识别类任务:识别类任务主要是指对图片中的特定事物进行识别、计数等工作。识别类任务主要可分为基础任务和应用任务两类。其中基础任务包含实例识别、颜色识别、手势识别、目标检测等基础场景;应用任务则包含商品识别、垃圾满溢识别、道路安全识别、智慧养殖等更加复杂的端到端场景。识别类任务作为目前最广泛应用的任务之一,是衡量图文大模型性能的重要场录,具有极高的评测价值,在评测识别类任务时,需着重关注模型的准确性、鲁棒性、实时性和泛化能力等指标。
理解类任务:理解类任务主要是指针对输入图片进行内容理解,并回答对应问题,理解类任务也可分为基础类及应用类两种,基础类理解任务侧重于考察图文大模型的通用能力而不过分强调某一特定应用场景中的实际能力,常见的基础类任务包含场景理解,实例属性,空问关系、字幕匹配、图像质量分析等底层核心场景;而应用类任务则着重考察图文大模型在专一领域的实际能力,与目前具有智能化需求的场景结合更加紧密,如活体检测、人像属性、人脸属性、口罩检测、舞蹈艺考评分等。理解类任务相较识别类任务,不仅仅考察型对某一特定事物的特征识别能力,更要求图文大模型对图像整体场景及各事物之间关系进行精准把控,并依据提问内容进行匹配跟踪,相较识别任务难度更大。在评测理解类任务时需着重关注模型的准确性、上下文感知、通用性与专一性以及语义一致性等指标。
创作类任务:创作类任务主要是指通过给定的文字或图像提示信息进行图片创作或图像修改。常见的创作类任务包含图像生成、图像风格转换、图像合成等,图文大模型根据要求生成相应图片,图片需要在美观上符合人类需求,在逻辑上符合基本的事物原理,在匹配度上完全实现提示词或提示图片中的内容要求,创作类任务综合考察了图文大模型的文字图像理解和图像创作能力,是目前应用最为广泛关注度最高的任务之一。在评估创作类任务时需着重关注模型的生成质量、内容匹配度、多样性和创新性等各项指标,
推理类任务:推理类任务主要是指结合输入的图像和文本信息,进行逻辑推理、归纳推理或演绎推理等,推理类任务着重考察图文大模型对图片内容中涉及的各类逻辑知识进行理解、推理和解答的能力,是对图文大模型内在核心思考能力的直实反馈。常见的推理类任务包含下一张图像预测、代码编写、数学推理等。这些问题需要精细的思考及相应的专业知识训练才可作答,对普通人而言也具有较高难度,是对图文大模型核心能力的重点考察方向。在评测推理类任务时,需着重关注模型的推理准确性、推理深度、专业知识应用、逻辑一致性和可解释性等指标。
免责声明:以上报告均系本平台通过公开、合法渠道获得,报告版权归原撰写/发布机构所有,如涉侵权,请联系删除 ;资料为推荐阅读,仅供参考学习,如对内容存疑,请与原撰写/发布机构联系