库帕思:专注AI语料,以“数据炼金术” 赋能大模型时代
创始人
2025-03-06 00:40:40

一台体积接近登机行李箱的语料终端,或许会在不久后给基层医院带来重要赋能。基于其内置的医疗语料库和模型,它有机会成为全科医生的“数字副手”,不仅能完成临床信息录入、病历自动生成,遇到疑难问题时还可以提供专科医生级别的辅助诊断能力。

这台设备背后的操盘者,是一家成立时间不足一年的企业——上海库帕思科技有限公司。可以说,当人们的关注点集中于算力和算法时,库帕思却打出另一张王牌——高质量的语料数据,希望以“数据炼金术”,完善人工智能(AI)行业的底层逻辑。

大模型时代的战略资源

所谓语料,某种意义上就是AI大模型的“教材”,是精心筛选、清洗和标注的高质量训练数据,包括文字、图片、声音等形态,专门用来教会AI大模型理解人的思想以及物理世界。缺乏语料,模型训练就会变成“无米之炊”;如果只有低质量数据,就可能让训练成本大幅飙升。

过去两年,AI大模型行业出现爆发式增长,其中,对模型训练过程中的语料要求也越来越高。但数据异构、质量参差的语料,就像是一锅“乱炖”被喂给AI,某种程度上,这制约了大模型行业的发展。同时,优质资源的稀缺、数据流通的壁垒,也使高质量语料价格居高不下。有统计显示,对大模型创业企业而言,目前花在语料上的成本超过企业运营开销,仅次于算力支出。

语料作为战略资源,其价值和短板都在大模型热潮中越来越清晰。作为行业领跑者,上海也一直在思考,如何通过完善产业生态、完善基础设施,为大模型赋能新质生产力发展加一把劲。由此,在市委、市政府支持下,上海以国资牵头、联合11家单位共同组建库帕思公司,它成为国内第一家专注AI语料的战略性功能性平台企业。

用AI的方法制造AI燃料

此前,关于如何将数据加工成语料,行业认知相当粗放。不仅如此,语料生产加工的过程也非常原始,高度依赖人工。对库帕思来说,用AI时代的技术和思维,将原始信息转化为工业级的“大模型燃料”,从而为行业降低语料成本,让大模型触手可及,是他们的梦想,也是使命。

自从去年3月运营以来,短短几个月,库帕思就在行业内首次完成语料战略平台“四梁八柱”的搭建。库帕思CEO黄海清告诉记者,这个体系的核心就是一个综合语料库和若干个行业语料库构成的语料基座,以及一个集成数十种技术功能模块的语料运营平台。此外,库帕思还形成自己的语料评测方法论,打造“价值对齐”体系,并积极发展生态合作伙伴。

每天,在库帕思平台上,数百个AI自动算子会按照工程师们对语料的设计,对数据进行多道加工,目前日生成语料已接近1TB,预计到今年年底,可望形成1000TB的语料数据集。

这样的高质量语料数据供应体系,正给行业带来积极改变。比如,在基础模型领域,一些创业公司因为库帕思的存在,开始精简自己的语料团队,从而将有限的精力和资金集中在算法层面。在模型应用方面,库帕思正围绕“模塑申城”行动所确定的“6+5”重点行业和领域,构建医疗、金融、制造、具身智能等垂类语料库。

正如本文开头提到的,其首创的医疗语料终端之所以能用远低于GPT-4o的算力消耗,展现出不亚于其的能力,关键就是因为内置了库帕思首批形成的医疗行业语料库。语料的这种能力和潜质,也初步印证了库帕思的判断:未来,高质量的语料数据集有可能成为提升大模型能力上限的决定性因素。

面向行业贡献“上海智慧”

在语料这个新兴行业,的确有太多需要“摸着石头过河”的地方。作为国资背景、市场化运营的功能性平台企业,库帕思要做的不仅是生产语料产品,更要构建和完善行业生态,要充分利用自身优势,代表行业先行先试。

不久前落幕的2025全球开发者先锋大会上,库帕思联合穹彻智能、智元机器人、国家地方共建人形机器人创新中心等具身智能领域的领军企业,共同开始探索具身语料,希望能为人形机器人的训练提供支撑。据透露,其工程一期将着力打造出“生产伴随”“物理场遥操作”“仿真合成”等语料数据采集模式,聚焦工厂、医疗、零售、办公、家居等12类场景,覆盖动作技能250余个,构建起规模达5000万条的具身智能语料数据,基本形成国际一流、国内领先的具身智能语料数据供给体系和标准规范体系。

同时,库帕思也与更多垂直行业专家合作,希望持续发掘语料的潜在应用方向和场景。比如,如何利用语料让AI客服的话语听起来更有人情味、让AI智能体的思维更缜密、让AI投资助手在面对多变的市场时反应更加敏锐。

当然,最大的场景还是要全面赋能大模型时代的创新。作为“模塑申城”行动的重要一环,库帕思不久前发布“模塑申城语料普惠计划”,将投入上亿元,面向广大中小AI企业,一方面为他们提供开源语料服务,另一方面,也希望从中找到生态合作伙伴,一起打造面向未来产业的稀缺数据集。

很多人认为,我国AI发展的最大优势在于丰富的场景和数据。从这个角度出发,年轻的库帕思非常需要更好发挥行业枢纽和生态催化的作用,进一步锻造“语料长板”,为全国大模型发展贡献“上海智慧”。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

鹏辉能源全场景电池方案亮相CI... 上证报中国证券网讯(李子健 记者 周亮)在5月13日开幕的第十八届深圳国际电池技术交流会/展览会(C...
我国科学家提出人工细胞不对称分... 来源:市场资讯 (来源:海外网) 来源:央视新闻客户端 记者从中国科学院化学研究所获悉,近期该所乔燕...
新一批“科技副总”上岗!聚焦电... 5月14日,“科创天府·智汇蓉城”成都市“科技副总”选聘(电子信息与人工智能领域)专场活动举行。在蓉...
10大护肝排毒食物!轮流换着吃... 肝脏是人体重要的代谢与解毒器官,承担着分解毒素、合成营养、调节免疫等多重任务。一旦肝火偏旺或功能下降...
原创 A... A股“股王”出事了。 就在刚刚,源杰科技甩出一份公告,字少,事大—— 公司副总经理陈文君,因涉嫌刑事...
美股异动丨思科盘前大涨超19%... 全球最大网络设备制造商思科(CSCO.US)盘前大涨超19%,报121.47美元,开盘势将再创历史新...
今日金价拐点显现,下周行情或将... 5月14日的黄金市场走出了明显的拐点形态,多空双方力量在此消彼长中达到了短暂的平衡,这种蓄势待发的状...
收盘丨沪指跌1.52%,猪肉、... 5月14日,四大股指集体收跌,沪指跌1.52%,深证成指跌2.14%,创业板指跌2.16%,科创综指...
世纪互联盘中狂飙逾30%!宁德... 5月13日,世纪互联(VNET.US)宣布引入新的战略投资者,PJ Millennium I Lim...
国有大行首个要关停的信用卡AP... 来源:图虫 5月13日,中国银行信用卡公众号发布信息称,为进一步整合服务资源,优化线上金融服务体验,...