不止上新,OceanBase在AI时代的数据“寻宝”
创始人
2025-05-19 18:01:51

转自:北京商报

一个月前,OceanBase CEO杨冰通过全员信宣布,公司将全面进入AI时代,打造“Data(数据)×AI(人工智能)”核心能力。5月17日,OceanBase详解了AI战略,并发布了与数据处理相关的能力和产品,比如AI驱动的开箱即用的RAG(检索增强生成)服务、进一步降低TP负载下存储成本的共享存储等。

按照OceanBase的计划,公司要从一体化数据库转向一体化数据底座。在现场为OceanBase站台的蚂蚁集团CTO何征宇表示,蚂蚁集团将支持OceanBase在金融、医疗、生活等蚂蚁AI的核心场景的突破。OceanBase始于2010年,早期服务天猫“双11”,公司独立于2020年,五年后这家以数据处理起家的公司面对的是一个AI规模化的阶段,有AI带来的天然数据增量、非结构化数据的增长等新红利,也有价格战等老问题。

图片来源:OceanBase

一些新品

“传统RAG应用常用开发模式包括组件森林开发模式、RAG平台模式等,但存在开发周期长、维护成本高、灰箱调试困难、性能难以优化等问题”,OceanBaseAI战略一号位的公司CTO杨传辉介绍,OceanBase PowerRAG提供开箱即用的RAG应用开发能力,打通应用开发数据层、平台层、接口层与应用层的全流程,提供Document(文档)和 Chat(对话)两个核心API接口,帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种AI应用场景的快速开发。

OceanBase对这款产品的定义是,“OceanBase致力于成为AI时代的一体化数据底座,PowerRAG是OceanBase在应用层面探索的第一步”,杨传辉说。

当天,OceanBase还推出了一款“共享存储”产品,可实现对象存储与事务型数据库(TP)的深度集成,构建存算一体与分离的多云原生架构,可以使TP负载的存储成本最高降低500%。

将存储产品置于不同的背景下,能更好地理解这款产品。

在云计算时代,对象存储是一种新的数据存储方法,它将数据存储为“对象”,因高可靠、低成本、可无限扩展等特性,被广泛应用于分析型数据库(AP)、企业存储备份、归档和数据湖等场景。

但在事务型数据库(TP)的生产环境中,因数据计算对低延迟、高性能有极致追求,普遍采用紧耦合的存算一体架构,因此依赖本地磁盘或云盘,无法支持对象存储的应用。“共享存储”产品解决的就是无共享架构在弹性和成本方面的瓶颈问题。

该产品在云上可被应用于典型TP、历史库及备份库,时序类业务、HBase兼容类业务、流水型业务系统、OLAP业务等。

先做好数据底座

不论是PowerRAG还是共享存储,其实都是因时而生的产品,小到产品,大到公司战略同样如此。

杨冰分享了自己看到的企业诉求,他把OceanBase的目标企业分成两类,“一类是想通过通用的AI给自己助力的企业,比如通过通用大模型。企业把大模型拿过来要结合内部的数据做后训练,不然没法用,数据这时会成为企业内部的知识库,成为企业所有上层AI应用的基础,这可能涉及到存储层,所以我们研发了向量化、融合检索,OceanBase的产品就是这么来的,因为这些需求是刚需”。

“另一类是一些SaaS(软件即服务)企业,或像阿里、蚂蚁都提出要用AI全面重构,这些企业的动作更大”,杨冰说,“它们可能要的就不只是一个知识库,是要把AI的各种能力拆分之后融入。”

在OceanBase分享的一张图中,提到了公司的未来,后期会从数据产生到训练、未来应用的全链条。“OceanBase还处在早期布局阶段,我们现在要把数据底座先做好”,杨传辉分享了OceanBase大致的发展节奏。

这也是OceanBase在一个月前公开的战略。根据IDC报告,受生成式AI等技术驱动,2028年全球新生成数据量规模预计将达到393.9ZB,其中企业数据规模和增速明显。对于企业而言,数据仓库的容量已实现质的飞跃,结构化数据存储规模“突破PB级迈向EB级”成为新常态,这给数据存储、管理与分析带来严峻挑战。

何征宇也在分享中指出,海量的互联网数据成就了今天的大模型,但大模型幻觉问题的源头也是数据问题。数据决定着大模型的能力上限,且依旧有四个挑战:数据的获取成本显著增加;严谨的行业数据稀缺且流动困难;多模态数据需要更强的处理能力;数据的质量评估难。

“较长的路”

关于大模型幻觉问题,杨传辉这么解释:“本质上,出现幻觉要么是缺数据,要么是缺高质量的数据,幻觉是永远不可能消失的,但可以无穷地逼近于0”,他站在企业的角度说,“一方面等着大模型拿公有数据改进它的算法、数据质量,这样能慢慢把准确率变高;另一方面可以把自己企业的数据,或者掌握的部分行业公共数据,结合到大模型里从而获得更好的服务,现在的难点在于结合,Data×AI的融合是极其难的。”

PowerRAG解决的就是第二个问题。杨传辉也坦言,“RAG这个方向其他也有很多挑战,还有一段比较长的路要走,整个行业都有比较长的路要走”。

事实上,“数据库行业的价格竞争很激烈”,比达分析师李锦清告诉北京商报记者,“国产数据库市场中,很多企业都是基于开源技术的二次开发,产品功能高度重叠,中小厂商通过低价策略争夺市场份额,导致毛利率不高。国际厂商市场份额逐步下降。国内云厂商通过云服务订阅模式降低成本,也是在以价格优势抢占市场。”

杨冰没有避讳价格,“性价比是数据库领域永恒的话题,但在IT软件这个领域,性价比往往意味着更高的质量,是设定一个价格但拥有更好的能力。OceanBase是在迭代中提升能力,技术的创新也确实让企业在成本上实现了下降”。

北京商报记者 魏蔚

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

“把修图工作室装进平板”,美图... 5月15日,第二十七届中国国际照相机械影像器材与技术博览会(China PE)在北京展览馆开幕。本届...
神舟二十三号计划近日择机实施发... 中国日报5月16日电 神舟二十三号计划近日择机实施发射,船箭组合体2026年5月16日转运至发射区。...
索尼回应Xperia 1 VI... IT之家 5 月 16 日消息,科技媒体 Android Authority 今天(5 月 16 日...
良信电器申请混合式固态开关装置... 国家知识产权局信息显示,良信电器(海盐)有限公司、上海良信电器股份有限公司申请一项名为“一种混合式固...
医疗小程序开发服务商梳理 场景... 导语:医疗行业数字化转型加速,医疗小程序开发成为医院、药企、健康管理机构等提升服务效率的核心工具。基...
2026年陕西省科学实验展演活... 为广泛普及科学知识、阐释科学原理、传播科学故事、弘扬科学家精神,近日,省科技厅、省教育厅、省科协将联...
涨的是车价,要的是老命 来源:市场资讯 (来源:虎嗅APP) 出品|虎嗅汽车组 作者|邢书博杨杰 题图|视觉中国 2026...
浅谈微博社会榜内容传播 日常浏览微博不难发现,平台内有着各类细分内容榜单,其中社会榜区别于娱乐资讯、数码好物等内容榜单,主要...
坐在马斯克和库克中间的女人 【留美学子】第3804期 13年国际视角精选 仰望星空·脚踏实地 【 陈 屹 视 线 】 教 育 ·...
天玑技术+生态双轮驱动,联发科... 5 月 13 日,联发科天玑开发者大会 2026(MDDC 2026)正式举办。本届大会以“全域芯智...