今天分享的是:大模型专题:提升大模型知识密度,做高效的终端智能
报告共计:35页
《提升大模型知识密度,做高效的终端智能》由面壁智能CEO&联合创始人李大海在AiCon全球人工智能开发与应用大会上发表。报告介绍了面壁智能在大模型领域的发展成果和技术探索。面壁智能自2019年成立以来发布了多款大模型,包括2024年2月发布的旗舰级端侧模型MiniCPM - 2B超越GPT - 3.5,4月发布MiniCPM 2.0版本等。其发展见证了大模型规模法则,即在大数据和大算力支持下,模型越大智能水平越强,但也探讨了大模型是否只是追求越大越好以及可持续发展之路的问题。报告提出大模型高效的第一性原理是参与计算的知识密度 = 模型能力 / 模型参数,随着数据、算力、算法协同发展,模型知识密度持续增强,如过去四年平均每8个月翻一倍。面壁智能通过构建模型风洞,在小模型上寻找最优数据和超参配置并外推至大模型,摆脱“炼丹”窘境,例如MiniCPM系列以小博大,超越诸多明星模型。该系列包括多种型号,如MiniCPM - 2.4B具有极致以小博大和高效低成本的特点,MiniCPM - V多模态模型在长文本与MoE模型、实时视频和多图联合理解等方面表现出色。同时,报告还提到了端侧算力因芯片制程增强,与模型制程带来的知识密度增强交汇,揭示端侧智能潜力,且面壁智能在解决中文领域多模态数据挑战等方面也有成果,还强调了端侧市场势能强劲,智能终端年出货量巨大,亟待激活端侧算力。
以下为报告节选内容