采用RAG和知识图谱克服人工智能幻觉问题
创始人
2024-10-14 15:00:57
0

将RAG与知识图谱相结合可以提高生成式人工智能应用程序的准确性,可以使用现有的数据库来完成。

生成式人工智能依赖于数据来构建对用户查询的响应。而训练大型语言模型(LLM)需要使用大量数据,例如OpenAI公司的GPT-3使用了CommonCrawl数据集进行训练,该数据集拥有570GB字节的数据和4000亿个令牌。虽然这些数据集的规模庞大,但都是时间快照,无法响应围绕当前发生的事件的查询。人工智能的反应也可能包括“幻觉”——提供看似合理但并不真实的信息。根据Vectara公司发布的幻觉排行榜,即使是表现最好的LLM系列 (目前是OpenAI公司开发的产品),也存在1.5%至1.9%的幻觉率。

因此,单独使用LLM面临两个问题:答案可能过时或者错误。为了克服这些潜在的问题,组织可以使用数据流将新信息获取到他们的数据集中,并部署检索增强生成(RAG)以与生成式人工智能一起使用的方式对业务数据进行编码。

RAG创建了一组数据,可以搜索与用户查询相关的语义匹配,然后将这些匹配与LLM共享,以便包含在响应中。随着时间的推移,向量数据集可以添加新的或额外的数据,因此可以将相关和及时的数据包含在响应中。

RAG面临的挑战

尽管RAG使组织能够将自己的数据与生成式人工智能服务结合使用,但它并不完美。在将RAG部署到生产环境中遇到的一个挑战是,它无法处理包含相似或相同信息的大量文档之间的搜索。当这些文件被分块并转换成向量嵌入时,每个文件都有可供搜索的数据。当这些文件中的每一个都有非常相似的块时,找到与该请求匹配的正确数据会变得更加困难。当查询的答案存在于多个相互交叉引用的文档中时,RAG也会遇到困难。而RAG不知道这些文档之间的关系。

例如,假设组织已经开发了一款聊天机器人服务,它可以调用其产品数据来回答客户的查询。组织已经将小部件目录转换为向量数据,但是这些小部件都非常相似。当客户查询聊天机器人时,即使有RAG,如何确保提供的响应是准确的?如果这些目录包含指向其他具有额外场景的文档的链接怎么办?提出不准确的建议或提供不准确的查询将影响客户互动。

回答这个问题是考虑采用一种不同的知识管理方法,为RAG所擅长的工作提供补充。微软研究院在今年早些时候发布了一份关于将知识图谱和RAG结合使用的研究报告,其中包括一种名为GraphRAG的技术。

知识图谱将数据点表示为“节点”和“边”,而不是将数据存储在传统搜索的行和列中,也不是作为向量搜索的嵌入。节点将是一个独特的事实或特征,并且边将连接与该事实有相关关系的所有节点。在产品目录的示例中,节点可能是单个产品,而边将是每个产品所具有的相似特征,例如尺寸或颜色。

向知识图谱发送查询涉及查找与该搜索相关的所有实体,然后创建一个知识子图,将这些实体汇集在一起。这样可以检索出与查询相关的信息,然后将其返回给LLM并用于构建响应。这意味着可以处理具有多个相似数据源的问题。与其将每个源视为不同的源并多次检索相同的数据,不如只检索一次数据。

在RAG中使用知识图谱

要在RAG应用程序中使用知识图谱,组织可以使用现有的、经过测试且已知事先正确数据的知识图谱,也可以创建自己的知识图谱。当组织使用自己的数据(例如产品目录)时,需要整理数据并检查其准确性。

组织可以使用自己的生成式人工智能方法来帮助实现这一目标。LLM的构建是为了从内容中提取信息,并在需要时对数据进行汇总。对于知识图谱,可以自动地以正确的格式构建数据,并且随着时间的推移添加更多的数据,支持对知识图谱的任何更新或更改。流行的LangChain服务上有多个工具可以查询文件,然后提供知识图谱,包括LLM Graph Transformer和Diffbot,而知识提取工具REBEL是另一种选择。

对于专用的图分析项目,可能需要采用一个完整的图数据库,该数据库可以使用Gremlin和Cipher等图形语言运行完整的查询。然而,为了支持作为RAG应用程序一部分的知识图谱请求,只需要运行同时覆盖两三个节点的小搜索。这意味着请求通常会表示为几轮简单的查询(每步一个)或SQL连接的形式。在更大的数据集中进行搜索不太可能返回正确的响应——事实上,这可能会导致查询失控,这些查询处理时间过长或实际上无法改善整体响应。

因此,可以使用现有的数据库来存储知识图谱数据,而不是部署额外的图数据库。这也简化了数据运营方面的工作,因为可以减少随时间推移而需要更新新数据的数据平台数量。

将知识图谱与RAG相结合可以提高生成式人工智能应用程序在响应用户查询时的准确性。通过将不同的数据管理技术相结合,可以在数据性能和请求中的语义理解方面获得两全其美的效果。

相关内容

热门资讯

中和应泰上海分公司荐股收费骗局...   中和应泰这家公司并没有任何实力,在网上给股民进行虚假承诺,暗示购买他们公司的服务后,推荐的股票会...
政府以旧换新补贴首次叠加双十一... 国庆消费高潮刚过,2024年又将迎来一年一度的消费盛宴。 搜索口令:红包到手11666,有惊喜哟!2...
金观平:深化制造业外资准入改革 近日召开的中央政治局会议指出,要抓紧推进和实施制造业领域外资准入等改革措施。作为我国扩大对外开放的重...
2024年度陕西省级上市后备企... 引言:得益于近年来陕西对新型科创类企业的不断培养与支持,在完善其产业结构、组织架构、市场治理和金融支...
人工智能专题:鲲鹏金融应用与生... 今天分享的是:人工智能专题:鲲鹏金融应用与生态白皮书 报告共计:35页 《鲲鹏金融应用与生态白皮书(...
全球互联网专线接入收入约为51... 《2024-2030中国互联网专线接入市场现状研究分析与发展前景预测报告》报告由168报告网研究中心...
员工离职了还能查看文档,共享文... 1.利用云文档平台的自带功能: 大多数云文档平台,如Google Docs、Microsoft Of...
蔚来旗下公司新增移动终端设备制... 鞭牛士 10月14日消息,天眼查App显示,近日,蔚来移动科技有限公司发生工商变更,经营范围新增移动...
“破茧成蝶”甲状腺癌防治培训成... 来源:中国科学报 本报讯(见习记者江庆龄)近日,上海市第十人民医院“破茧成蝶”甲状腺癌防治技术培训在...
永州首家!永州市三医院开通智慧... 今日永州讯(通讯员 周奕 马静)近日,永州市三医院成功办理首笔线上出院结算业务,成为全市首家实现此功...
工业和信息化部:强化助企扶企,... 今年以来,工业和信息化部从缓解中小企业面临的融资难回款难、到帮助企业降成本扩需求、再到不断加强服务保...
当“11.11”遇上“国补”,... 编辑/壹览君 今年的“11.11”大促相较往年提前,各大电商平台也是紧锣密鼓,促销周期成为史上最长的...
中信建投:白酒行业景气度或有较... 中信建投研报指出,白酒动销环比提振,期待经济政策显效。国庆假期宴席需求较为平稳,受益于商务礼赠需求回...
​官宣,又一款千元性价比神机来... 温馨提示: 最近来了很多新同学, 蓝字」, 右上角「···」, 将奇果酱「设为星标」, 以免错过重要...
美赞臣推出科学防敏亲舒Pro新... 中国网财经10月14日讯 10月13日,美赞臣于北京金山岭长城举办“共筑保护力长城”品牌活动暨亲舒新...
我国将“加量”推动支持独角兽企... 央视网消息:独角兽企业作为新经济新业态新模式的代表性企业,已经成为推动新质生产力的一股新生力量。工业...
宁德时代出手!资本暴增2000... 电池工业网讯 近日,奉新润安新能源有限公司发生工商变更,注册资本由1000万人民币增至约2.1亿人民...
展会新星:南京储能展丨官网丨C... CESC2025第三届国际储能大会是一场专业性的储能大展; 展会于2025年3月在中国南京举办,主办...
小米汽车如何摆脱“贵电池”困境... “你们不要再喊9万9了,不可能的。也不要再喊14万9了”。去年年末的小米汽车技术发布会上,雷军坚定地...
萧敬腾父亲在婚礼上催生 直言老... 搜狐娱乐讯 据台湾媒体报道,10月13日萧敬腾与经纪人林有慧举行盛大婚礼。在婚礼上萧敬腾父亲在台上发...