搜索型数据库:应用场景、选型要点与未来发展趋势
创始人
2024-12-27 19:22:03
0

本期我们邀请到星环科技资深产品市场经理李昆,他指出,搜索型数据库主要应用于综合检索分析、全景观测、一站式检索平台等场景,随着AI大模型、RAG技术发展,为搜索型数据库带来新的发展空间。

搜索型数据库发展与场景应用

随着数字化转型不断深入,企业业务变得更加多元复杂,非结构化与半结构化数据的分析需求越来越旺盛,数据量也越来越大,传统关系型数据库对于文本的多样性检索支持能力不足,催生了搜索型数据库的发展。

李昆指出,作为NoSQL数据库的一种,搜索型数据库独特的倒排索引结构,具备高实时检索能力,可以处理包括结构化数据、半结构化数据和非结构化数据等多种类型数据。按照目前人们的检索使用习惯,它更偏向于全文检索引擎这一种使用方式,并结合了一系列 NoSQL 数据库的特点。

搜索型数据库的发展历史可以追溯到20世纪90年代,当时主要以全文检索为技术手段,最初用于文档检索和网络搜索。典型代表包括 AltaVista、Excite 等。随着互联网的快速发展,搜索引擎技术得到了广泛应用,Lucene、Sphinx 等开源搜索引擎的出现,以及Google等搜索引擎的成功推动了搜索型数据库技术的进步。

移动互联网与大数据技术的兴起进一步推动了搜索型数据库的发展,以 Solr、ElasticSearch 为代表的开源搜索型数据库逐渐成为主流,为搜索型数据库的发展提供了丰富的技术支持和生态系统。

现代搜索型数据库逐渐向多模数据库发展,能够支持多种数据类型以及更多样化的查询方式。同时随着人工智能和机器学习技术的发展,搜索数据库逐渐向智能化转型,开始引入机器学习、自然语言处理、大模型等技术,提供个性化推荐和智能搜索服务。

整体来看,搜索型数据库有以下主要应用场景:

  • 综合检索分析:包括信息检索、推荐系统、广告系统等多种对综合检索有需求的场景;

  • 全景观测:主要针对于企业内整体系统的管理与监控,包括对各类日志、指标等信息的统一收集、存储、实时分析,提升企业运维效率,如制造业的生产过程监控,IT管理部门的集群运维等等;

  • 一站式检索平台 :构建企业级知识库,提供全方位检索,提升用户检索效率与体验,如论文管理、社区论坛管理、企业项目数据搜索等等;

一直以来,对多样性数据的支持能力、检索实时性提升、多模联合分析能力、与其他产品生态的融合是搜索型数据库发展的重点也是难点,解决这些问题也为从业者带来了机遇。技术的供给和业务需求的变化推动着搜索型数据库不断演进,随着AI大模型、RAG技术发展,为搜索型数据库带来新的增量,让搜索型数据库的重要性越来越高。

选型:关注性能、高可用、扩展性数据安全等

数据库选型从来不是一件容易的事情,知己知彼百战不殆。

李昆介绍,不同行业对搜索型数据库有很多共性需求,包括:

  • 全文检索能力:包括各类索引的实现、分词技术等,使得数据库可以高效处理不同类型的数据,并提供多种灵活的检索方法;

  • 高效的检索性能:针对不同检索场景,远高于关系型数据的的秒级乃至毫秒级检索响应;

  • 更大数据量的支持:针对更大的数据体量,产品的水平拓展能力以及大规模集群的稳定性,也是客户在做集群长期规划需要考虑的一环;

  • 国产化与信创支持:对国产软硬件的兼容适配。

此外,不同行业的业务场景不同,对搜索型数据库的需求也存在差异。比如金融场景更偏统计分析的计算,知识库场景更偏语义、分词类的全文检索,在部分行业还存在一些特殊的定制化检索需求。

企业在进行搜索型数据库选型时会关注功能、性能、稳定性、高可用、扩展性、数据安全、性价比、国产化、技术服务保障等多方面因素。

比如,性能方面,需要支持读写分离,秒级查询与检索,满足高并发需求,同时,支持实时、微批数据接入方式;扩展性方面,要满足海量数据的存储与检索,100+集群稳定运行,分布式架构会是普遍的选择;高可用方面,出现故障时,主副本要保障数据一致性,TB级数据量重启恢复时间控制在分钟级等。

李昆介绍,从技术路线来看,现在市场上搜索型数据库主要有以下三类产品:一是,由Lucene等搜索内核封装与扩展,最典型的就是Elasticsearch、Solr,此外还有一系列Elasticsearch的商业化分支产品;二是,相对独立的商业检索产品,如Splunk;三是,基于其他关系数据库或者NoSQL数据库进行检索能力的拓展,如PostgreSQL、MongoDB等。

“第一类技术路线仍然是目前的使用主流趋势,使用人群基数大、开源社区等技术力量也最丰富;另一方面是从商业化角度来看,用户基础与习惯已经养成,过于差异化的产品在推广上存在比较大的难度。”李昆说。

星环科技分布式搜索引擎Scope便是第一类技术路线的代表,定位是Elasticsearch的国产化替代与升级。同时Scope也不是孤立的产品,与Hadoop生态中的Elasticserach类似,作为星环大数据平台体系中重要的产品组件之一,Scope能够基于多模型数据统一管理平台上满足各个场景的需求,并能够与关系型数据、图数据、时序数据等多模型数据实现跨模型联合分析。

展望:未来发展方向

经过多年的发展,搜索型数据库已经发展成为相对成熟的市场,AI带来新的挑战和机遇。李昆认为搜索型数据库未来主要有以下技术发展趋势:

  • 智能检索:配合大模型、语义检索的发展,搜索数据库可以作为AI落地推广智能搜索重要的一环,拥抱AI。

  • 实时检索:类似于Flink等流处理业务,用户对数据库的追求会不断往实时上靠拢,搜索型数据库也不例外,当前以准实时检索为主的技术可能会有更多的突破,满足用户对实时检索的需求。

  • 多模融合:与关系型数据、图数据、向量数据形成统一的管理和融合,并在资源管理框架上相融合,形成一体化的管理体系。

搜索型数据库想要获得长久的发展,离不开产品力和生态力两大能力建设。产品力方面,功能、性能、稳定性等能够完全对标国外产品能力,这是本,也是基本要求。此外,能否基于新技术、新需求创新发展,提供创新能力也很关键,比如多模型、大模型检索等创新场景的支持。生态方面,能够与目前上下游产品生态做到很好地兼容适配等。

相关内容

热门资讯

OpenAI研究员首次提出「A... 新智元报道 编辑:KingHZ 泽正 【新智元导读】本月,OpenAI科学家就当前LLM的scal...
打虎!周家斌被查 据中央纪委国家监委网站12月28日消息,广西壮族自治区人大常委会党组成员、副主任,桂林市委书记周家斌...
长城证券股份有限公司 第三届董... 证券代码:002939 证券简称:长城证券 公告编号:2024-103 长城证券股份有限公司 第三届...
双旦购机就选华为nova 13... 来源:快科技官方 临近元旦,节日氛围愈加浓厚,许多人开始准备选购一台新手机,奖赏自己过去一年的努力与...
国家级海上风电研究与试验 检测... 12月26日,我国首个国家级海上风电研究与试验检测基地传动链平台(右图)在福建建成投运。该平台是国内...
嫦娥五号月球样品向公众开放 据央视新闻消息,2020年12月,嫦娥五号成功从月球带回月壤样品,月球样品科研工作随之展开。今天(1...
广东琮泰取得用于水利工程施工的... 金融界2024年12月27日消息,国家知识产权局信息显示,广东琮泰工程有限公司取得一项名为“种用于水...
布局深市企业成长机遇,关注深证... 本周深证50指数上涨1.0%,深证100指数上涨0.8%,创业板指数下跌0.2%,创业板中盘200指...
通过股息得到固定收益?或许不止... “道琼斯高股息股票”(Dogs of the Dow)和略微不那么知名的“S&P高股息股票”(Dog...
越强阀门取得热熔断防火球阀专利... 金融界2024年12月27日消息,国家知识产权局信息显示,越强阀门有限公司取得一项名为“热熔断防火球...
武创院倡议共建生命科学仪器科创... 湖北日报全媒记者 李源 通讯员 冉文娟 “让我们携手深化‘共投共担’机制,打造生命科学仪器科创高地,...
韩国央行:超三成韩国人持有加密... 【韩国央行:超三成韩国人持有加密货币】财联社12月27日电,韩国央行根据在Upbit、Bithumb...
沪深北交易所修订专项品种公司债... 人民网北京12月28日电 (记者黄盛)沪深北交易所在12月27日分别发布公了公司债券专项品种指引,持...
“和合共生”彰显中华民族文化自... 余德烁 中华文明所蕴含的“和合共生”理念,不仅彰显中华民族的文化自信,也是全球化时代的智慧之光 在经...
中国联通&中国信通院:... 今天分享的是:中国联通&中国信通院:2024年流程智能研究报告 报告共计:50页 《2024年流程智...
特朗普要求:暂停执行TikTo... 当地时间12月27日,美国当选总统特朗普向美国最高法院提出请求,要求暂停执行TikTok强制出售令。...
全球AMR龙头启动港股IPO,... 在全球化背景下,物流是经济运行的关键,国务院办公厅发布的《有效降低全社会物流成本行动方案》强调了降低...
金观平:要更加注重投资质量效益 投资连接供需两端,是拉动经济增长的“三驾马车”之一。中央经济工作会议在部署明年重点工作任务时,把“大...
头豹研究院:2024年女性补血... 2019年—2023年,补血保健食品行业市场规模由22.34亿人民币元增长至24.73亿人民币元,期...
中国推出全球首款全地形探险骑乘... 香港《南华早报》12月26日文章,原题:中国公司推出全球首款全地形探险骑乘机器狗 一家中国公司推出了...