• 2025-05-18 22:14:09
  • 阅读(5451)
  • 评论(10)
  • 一个月前,OceanBase CEO杨冰经过全员信宣布,公司将全面进入AI期间,打造“Data(数据)×AI(人工智能)”焦点能力。5月17日,OceanBase详解了AI战略,并发布了与数据处理相关的能力和产物,比如AI驱动的开箱即用的RAG(检索加强天生)服务、进一步低落TP负载下存储本钱的共享存储等。

    按照OceanBase的计划,公司要从一体化数据库转向一体化数据底座。正在现场为OceanBase站台的蚂蚁团体CTO何征宇表示,蚂蚁团体将支持OceanBase正在金融、医疗、生活等蚂蚁AI的焦点场景的突破。OceanBase始于2010年,初期服务天猫“双11”,公司自力于2020年,五年后这家以数据处理发迹的公司面临的是一个AI范围化的阶段,有AI带来的天然数据增量、非结构化数据的增长等新红利,也有代价战等老问题。

    图片来源:OceanBase

    一些新品

    展开剩余 79 %

    “传统RAG应用常用开发模式包括组件森林开发模式、RAG平台模式等,但存正在开发周期长、保护本钱高、灰箱调试困难、功能难以优化等问题”,OceanBaseAI战略一号位的公司CTO杨传辉引见,OceanBase PowerRAG供应开箱即用的RAG应用开发能力,打通应用开发数据层、平台层、接口层与应用层的全流程,供应Document(文档)和 Chat(对话)两个焦点API接口,帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种AI应用场景的疾速开发。

    OceanBase对这款产物的界说是,“OceanBase努力于成为AI期间的一体化数据底座,PowerRAG是OceanBase正在应用层面探索的第一步”,杨传辉说。

    当天,OceanBase还推出了一款“共享存储”产物,可实现对象存储与事务型数据库(TP)的深度集成,构建存算一体与分离的多云原生架构,可使TP负载的存储本钱最高低落500%。

    将存储产物置于不同的配景下,能更好地舆解这款产物。

    正在云计算期间,对象存储是一种新的数据存储要领,它将数据存储为“对象”,因高可靠、低本钱、可无限扩大等特征,被广泛应用于分析型数据库(AP)、企业存储备份、归档和数据湖等场景。

    但正在事务型数据库(TP)的生产情况中,因数据计算对低耽误、高功能有极致追求,广泛采用紧耦合的存算一体架构,因此依赖当地磁盘或云盘,无法支持对象存储的应用。“共享存储”产物办理的就是无共享架构正在弹性和本钱方面的瓶颈问题。

    该产物正在云上可被应用于典型TP、历史库及备份库,时序类营业、HBase兼容类营业、流水型营业系统、OLAP营业等。

    先做好数据底座

    不论是PowerRAG照样共享存储,实正在都是因时而生的产物,小到产物,大到公司战略异样如此。

    杨冰分享了自己看到的企业诉求,他把OceanBase的目标企业分成两类,“一类是想经过通用的AI给自己助力的企业,比如经过通用大模子。企业把大模子拿过去要连系内部的数据做后训练,否则没法用,数据这时候会成为企业内部的知识库,成为企业所有上层AI应用的基础,这可能触及到存储层,以是我们研发了向量化、融合检索,OceanBase的产物就是这么来的,因为这些需求是刚需”。

    “另外一类是一些SaaS(软件即服务)企业,或像阿里、蚂蚁都提出要用AI全面重构,这些企业的行动更大”,杨冰说,“它们可能要的就不但是一个知识库,是要把AI的各种能力拆分以后融入。”

    正在OceanBase分享的一张图中,提到了公司的未来,后期会从数据产生到训练、未来应用的全链条。“OceanBase还处正在初期布局阶段,我们现正在要把数据底座先做好”,杨传辉分享了OceanBase大抵的进展节奏。

    这也是OceanBase正在一个月前公开的战略。根据IDC报告,受天生式AI等技术驱动,2028年全球新天生数据量范围预计将达到393.9ZB,其中企业数据范围和增速明显。对付企业而言,数据堆栈的容量已实现质的奔腾,结构化数据存储范围“突破PB级迈向EB级”成为新常态,这给数据存储、管理与分析带来严峻挑战。

    何征宇也正在分享中指出,海量的互联网数据造诣了今天的大模子,但大模子幻觉问题的泉源也是数据问题。数据决定着大模子的能力下限,且仍旧有四个挑战:数据的获取本钱显著添加;松散的行业数据稀缺且流动困难;多模态数据需要更强的处理能力;数据的质量评价难。

    “较长的路”

    关于大模子幻觉问题,杨传辉这么解释:“素质上,出现幻觉要么是缺数据,要么是缺高质量的数据,幻觉是永远不可能消逝的,但可以无量地逼近于0”,他站正在企业的角度说,“一方面等着大模子拿私有数据改进它的算法、数据质量,这样能慢慢把准确率变高;另外一方面可以把自己企业的数据,或者控制的部份行业公共数据,连系到大模子里从而得到更好的服务,现正在的难点正在于连系,Data×AI的融合是极为难的。”

    PowerRAG办理的就是第二个问题。杨传辉也坦言,“RAG这个偏向其他也有很多挑战,还有一段比较长的路要走,整个行业都有比较长的路要走”。

    现实上,“数据库行业的代价竞争很猛烈”,比达分析师李锦清报告北京商报记者,“国产数据库市场中,很多企业都是基于开源技术的二次开发,产物功能高度重叠,中小厂商经太低价策略争夺市场份额,导致毛利率不高。国际厂商市场份额逐步下落。国内云厂商经过云服务定阅模式低落本钱,也是正在以代价优势抢占市场。”

    杨冰没有避忌代价,“性价比是数据库领域永恒的话题,但正在IT软件这个领域,性价比往往意味着更高的质量,是设定一个代价但具有更好的能力。OceanBase是正在迭代中提拔能力,技术的立异也确切让企业正在本钱上实现了下落”。

    北京商报记者 魏蔚

    发布于:北京市
    38  收藏