生成式人工智能时代的数据基础_资讯

生成式人工智能时代的数据基础

创始人

2024-12-23 18:04:46

0次

关键字: [Amazon Web Services re:Invent 2024，亚马逊云科技，生成式AI， SageMaker Lakehouse， Unstructured Data Processing， Data Integration Capabilities， Vector Data Management， Customer Data Integration， Data Governance Capabilities]

导读

对生成式AI前所未有的兴趣正推动各种规模的组织重新思考其数据战略。虽然数据基础构建（如数据管道、数据架构、数据存储和数据治理）需要不断发展，但也有一些业务要素需要保持不变，比如组织希望在整个数据资产中实现成本效益和高效协作。在本次讨论中，您将了解如何在亚马逊云科技上构建数据基础，这不仅提供了指导和构建模块来平衡这两种需求，还能赋能组织发展其数据战略，以构建生成式AI应用。

演讲精华

以下是小编为您整理的本次演讲的精华。

在过去三十年中，数据世界经历了多个变革性阶段，每个阶段都由关键里程碑事件标志，重塑了数据领域的格局。从数据仓库的出现到大数据的兴起，NoSQL数据库的崛起，以及机器学习的普及，这些决定性时刻推动了行业向前发展。然而，最新的范式转变——生成式人工智能(GenAI)的崛起，证明了数据作为推动这些技术进步的驱动力，其重要性依然不减。

虽然数据是这些创新的催化剂，但在思考GenAI领域时，它并不是首先浮现在脑海中的考虑因素。认识到这种脱节，本次会议深入探讨了GenAI对数据工程产生的深远影响，并探讨了亚马逊云科技如何扩展和发展其数据基础设施能力，以满足构建GenAI应用程序的日益增长的需求。会议一开始就进行了一个有趣的练习，邀请与会者猜测房间里大约有多少人，猜测范围从300到4人不等，最后揭晓实际人数接近400人。

首先，我们必须理解数据基础设施的概念，这是一种组织策略，围绕着数据的注入、集成、处理、转换和治理展开。它的目的是多方面的，不仅为组织的员工服务，还为合作伙伴服务，在许多情况下还扩展到客户。其总体目标是促进数据驱动的决策，这是现代商业运营的基石。

亚马逊云科技提供了一套全面的数据、机器学习和人工智能服务，无缝集成并具有在亚马逊云科技生态系统内外进行数据集成的本地功能。这种整体方法与全面的数据治理措施相辅相成，实现自助分析，并使组织能够充分利用其数据资产的潜力。

亚马逊云科技数据基础设施不仅仅是技术，还包括组织内人员和流程的关键角色，将这些因素纳入其中，以加速所谓的“数据飞轮效应”。这个概念将数据视为一种精心设计的产品，旨在提供丰富的客户体验，并有充分的空间根据反馈持续改进数据生态系统。

这种方法的好处可以大致分为业务和技术两个领域。在业务方面，战术性成果包括高质量数据的有效组织、建立信任和促进货币化。战略性好处包括快速采用新框架(如数据网格)的敏捷性，以及无缝过渡到新范式(如GenAI)的能力。

从技术角度来看，亚马逊云科技数据基础设施提高了数据的可发现性和可访问性，实现了大规模有效的发现和访问控制。它促进了不同数据类型和处理应用程序之间的更好互操作性，同时通过明确定义的使用合同实现了可重用性，以便重复利用。无论组织是构建复杂的数据网格还是简化的数据管道，这些优势都是适用的。

随着GenAI时代的到来，数据基础设施能力和数据管道的动态也将发生深刻变化。亚马逊云科技正在通过扩展其数据基础设施能力来应对这一转变，以满足构建GenAI应用程序的不断发展的需求。

为建立共同理解，GenAI可以简单定义为利用人工智能创建新内容，使用在大量数据上训练的AI模型。在亚马逊云科技生态系统中，已经出现了几种流行的应用程序构建模式，每种模式都有其独特之处，并对数据基础设施能力产生影响。

“预训练自己的模型”方法是从头开始构建模型，在大量数据集上进行预训练。“持续预训练”过程涉及微调模型参数，以适应新的未标记输入数据。“微调预训练模型”方法是采用现有的预训练模型，并在较小的标记数据集上进一步训练。最后，“RAG(检索增强生成)”是最常见的技术之一，因为它易于使用，体现了“上下文学习”，即通过提供额外的情境、语义或两者的组合来指导模型的行为，而无需更改模型参数或在特定数据集上进行训练。

这些构建模式对数据基础设施所需的能力产生了深远影响。然而，影响并不是一致的，区别因素在于数据本身。构建GenAI应用程序需要扩展数据基础设施能力的几个方面。

为了说明简单数据管道在构建GenAI应用程序时的影响范围，主要考虑之一是需要额外的数据源，主要是非结构化数据。虽然非结构化数据并不是一个新概念，但在GenAI管道中扮演着主导角色，世界上超过80%的数据都是非结构化格式。非结构化数据不符合预定义的格式或预设的数据模型，使metadata发现成为一项挑战。

在亚马逊云科技上构建的处理非结构化数据metadata的解决方案的高级架构包括将原始输入数据引入到Amazon S3等对象存储中。根据数据类型，可以使用各种专门用于从非结构化数据中提取metadata的亚马逊云科技 AI服务，最常见的是Amazon Comprehend、Amazon Transcribe、Amazon Textract和Amazon SageMaker。提取的metadata然后存储在S3存储桶中，并可选择使用亚马逊云科技 Glue ETL作业进一步转换以丰富和完善数据集。随后，构建一个包含提取的metadata属性的metadata目录，存储在S3中，以帮助数据发现。为了促进对此目录的发现和访问，可以使用亚马逊云科技 Glue Data Catalog和Amazon Athena作为查询引擎，同时使用Amazon Lake Formation和Datalake实现治理。

回到管道，数据处理阶段受到所采用的GenAI应用程序构建方法的影响。它可能涉及从数据仓库或数据湖中提取信息的特征工程、运行推理以进行持续预训练，或者管理RAG应用程序的向量数据以提供实时有意义的上下文。

关键是，所有这些处理都需要先进的数据集成和数据存储形式。以RAG应用程序中的向量数据管理为例，该过程首先利用Amazon Bedrock服务从非结构化数据源生成向量嵌入，并将这些嵌入存储在矢量化数据库索引中。然后，GenAI客户端向Lambda查询编码器函数提交查询，该函数又调用Bedrock API，在这种情况下是“检索和生成”API。该API查询知识库并生成响应，作为上下文返回给另一个基于知识的Lambda函数，与来自客户端的原始查询一起，作为提示提交给大型语言模型，从而生成更准确的响应。

如前所述，RAG与向量数据是一种流行的方法，值得进一步探讨向量数据管理。该过程包括对领域数据进行标记并将其分解为块，然后将这些块传递给大型语言模型以生成数值向量或数组。然后，这些向量存储在向量数据库中，其中具有相关含义的元素在多维向量空间中彼此靠近。搜索语义相关的数据并将其返回给GenAI提示，归结为在这些向量之间找到最小距离的数学函数。

在前面的RAG示例中，向量存储和向量搜索功能由基于Elasticsearch的开源解决方案Amazon OpenSearch Service提供，广泛用于搜索、分析和日志分析。选择熟悉的向量存储可以减少额外的许可成本，当向量和业务数据存储在同一位置时，应用程序可以提供更高的性能，并最小化数据移动。

为了与熟悉的工具、降低许可成本和更快的体验保持一致，亚马逊云科技在许多全托管数据库服务中提供了向量功能，包括SQL数据库(如Amazon Aurora和Amazon RDS)、NoSQL数据库(如Amazon DocumentDB)以及图形数据库Amazon Neptune。

回到数据管道，一些GenAI应用程序还结合了人工反馈强化学习(RLHF)等高级学习技术，这是一种利用人工反馈进行高度个性化和准确响应的机器学习技术。在适当的数据存储和高效管道中捕获这些信息有助于减少延迟并提高准确性。

为了举另一个RAG应用程序示例，可以通过调整数据管道来实现用户个性化上下文。在将客户的查询提交给编码器之前，应用程序可以参考其他信息来提供更相关和更有意义的用户上下文。它可以查询Amazon Redshift等Customer 360数据仓库来获取其他独特的客户属性，或在Amazon DynamoDB中维护一个数据库来存储对话的状态和历史记录。

Customer 360提供了客户个人资料的全面统一视图，支持数据驱动的业务决策，例如创建更有可能引起特定客户群体共鸣的营销活动。然而，构建Customer 360解决方案是一项艰巨的任务，需要访问分散在不同类型数据库和数据存储中的数据，能够随时间添加新数据集，并实施正确的变更数据捕获技术。

SQL数据库和NoSQL数据库通常存储用户操作数据，如用户配置文件、对话线程和交易历史记录。为了将这些数据引入Customer 360解决方案，需要构建复杂的数据集成管道，连接到源数据库、识别变更并将数据加载到目标数据存储中，这个过程被称为ETL(提取、转换、加载)。

亚马逊云科技的数据集成功能减轻了这一负担，使用CDC(变更数据捕获)技术，无需配置任何基础设施，即可将亚马逊云科技上的SQL和NoSQL数据库数据复制到Redshift数据仓库中。同样，GenAI应用程序通常需要最新的实时用户交易信息，以获得更完整的客户视图。Redshift与Amazon Managed Kafka、Amazon Kinesis Data Streams等服务之间的流式摄取，以及S3数据湖与Redshift之间的AutoCopy功能，为GenAI应用程序提供了最及时的下游处理上下文。

随着GenAI应用程序接触到更多样化的数据源和数据角色，数据治理成为整个端到端数据管道的一个功能。在幕后，数据共享、数据隐私、数据质量和数据目录在为GenAI应用程序提供全面的数据治理方面发挥着关键作用。

亚马逊云科技上的数据共享使数据无需移动或创建副本即可共享，无论是从数据仓库、数据湖还是数据市场共享数据。Amazon Lake Formation、Amazon Data Exchange和亚马逊云科技 Data Zone等服务简化了点对点或集中式数据共享。

当数据组织良好并编目时，数据共享变得更加容易。可以使用亚马逊云科技 Data Zone和亚马逊云科技 Glue Data Catalog为不同类型的数据构建技术和业务目录，与许多亚马逊云科技服务本机集成，帮助快速部署数据共享的治理最佳实践。

最后，如果不管理用户隐私和数据质量，任何AI/ML应用程序都无法被认真对待。亚马逊云科技已扩展Amazon Glue服务，以检测和处理敏感数据(如个人身份信息)，从而提高合规性，并为Glue服务配备了机器学习算法和基于规则的自动化功能，以监控、检测和缓解质量问题。

总之，本次会议涵盖了亚马逊云科技如何扩展其数据基础设施能力以增强AI/ML体验的多个方面。它探讨了结构化和非结构化数据的数据处理功能，以改善训练大型语言模型等AI/ML功能。然后介绍了ELT(提取、加载、转换)、自动复制和流式摄取等数据集成功能，以提升用户体验，接着介绍了优化的数据库，包括支持向量化结构，为检索增强生成(RAG)方法提供重要上下文。最后，它围绕着提供安全可靠体验的数据治理功能进行了讨论。

然而，亚马逊云科技的努力并未就此止步。正如Amazon Finance的Nathan Aurora所展示的真实用例，该公司继续发展其数据基础设施能力。

Nathan Aurora是Amazon Finance自动化团队的高级工程经理，负责领导构建和运营数据服务、通信和工作管理软件的团队，以支持财务运营。Amazon的财务运营负责三个关键职能:确保及时准确地向供应商和员工付款，确保客户及时付款给Amazon，并以最高级别的控制和安全性处理每一笔财务交易。

财务自动化是财务运营的技术团队，通过提高生产力、自动化和自助服务来支持Amazon的增长。他们为所有Amazon业务线提供支持，包括亚马逊云科技、零售和广告。财务运营由数千名员工组成，分析师负责在全球范围内以多种语言为各业务线的供应商提供支持，回应一般查询、处理争议并与全球最大的供应商生态系统建立牢固的合作伙伴关系。

为了说明他们工作的规模，Nathan Aurora解释说，当客户在Amazon下订单时，公司会从供应商那里大量订购产品以满足客户需求。这些产品被分发到履行中心，供应商会为收到的货物获得付款。虽然这个过程通常很直接，但Amazon的规模带来了复杂性，例如处理有缺陷的产品、退货和运输损坏，这增加了供应商付款过程的复杂性。

数百个团队和分布式系统负责管理Amazon的复杂供应链功能，如订购、库存、收货和退货。财务部门的任务是跟踪数十亿笔交易中的事件，并拼凑出财务全貌。这仅仅是Amazon零售业务线的情况。

Amazon庞大的规模使得需要专门的团队和分布式系统，每个系统管理特定的业务功能。虽然这种分布式结构支持了Amazon的快速增长，但也导致了数据孤岛。为了完整呈现一笔财务交易，财务部门需要整合数百个这样的系统中的事件，每月处理的事件数量达万亿级，数据量达到数百万亿字节。财务用户自然需要近乎实时的数据，以支持整个公司的运营监控、机器学习和数据分析用例。

Nathan Aurora举例说明了实时数据的使用方式:监控供应商付款以确保准确性和及时性;使用机器学习持续监控付款模式以进行欺诈检测和预防;分析现金和收款实践以改善Amazon的现金流。此类数据是Amazon日常有效运营财务业务并做出关键决策的重要组成部分。

在着手构建现代数据基础设施之旅时，Amazon Finance确定了三个关键目标。首先，他们面临着数据碎片化、多个团队、多个副本和多个位置的局面，导致效率低下和浪费。他们的目标是通过最小化数据冗余副本，为业务分析和机器学习创建单一的事实来源。

其次，为了真正最小化数据重复，他们需要提高数据的可访问性和可发现性。他们需要一个中央数据目录，用户可以在其中找到所需的数据集，确保目录中的每个数据集都通过一系列数据质量检查进行了协调和验证。

第三，由于数据来自数百个系统，他们需要强大的权限管理、严格的数据安全性和更强的治理，包括全面的审计跟踪，以确保始终有权访问正确的数据。

为了解决Amazon分布式环境及其权衡带来的数据孤岛和多个数据生产者问题，他们需要找到一种方式，使数据能够跨域和系统轻松但安全地连接。他们选择了数据网格作为基础策略，它倡导分散式数据管理和自助式数据共享，业务部门可以找到所需的数据并提出请求，这些请求将被分派给数据生产者，由他们决定授予适当的访问级别。

中央数据目录是发现、数据治理和数据集文档记录发生的地方，允许用户了解数据的质量、上下文和使用指南，将数据集视为数据产品。

在Amazon Finance数据网格基础设施的一侧是数据生产者，负责将来自各个领域(如应付款和应收款)的上游系统的数据引入数据网格。生产者管理数据存储、数据质量和生产高质量数据产品所需的其他任务。

另一侧是数据消费者，即执行分析、高级分析和机器学习用例的团队。目标很简单:集成一次，消费无限次。他们希望以可信的方式将高质量数据集集成到数据网格中，让业务分析和机器学习团队能够轻松消费数据，快速解决业务问题。

中央数据目录实现了权限管理、应用了一致的metadata管理防护措施、定义了治理政策并审计了使用情况。在整个实施过程中，使用了亚马逊云科技数据集成功能，如Amazon Lake Formation和Amazon Redshift Data Sharing，无需移动或复制数据即可共享数据，从而受益于利用亚马逊云科技的数据架构。

亚马逊金融公司已经实现了令人难以置信的业务敏捷性，可以根据不断变化的业务或技术需求来发展其数据基础设施。使数据可用和可消费的时间已从几个月缩短到几天。他们以更低的成本实现了更快的性能，节省了数百万美元。由于采用了亚马逊云科技数据集成模式，减少了计算和存储占用空间，他们从长时间运行的ETL作业转变为15分钟以内的作业，提高了数据的新鲜度，使企业能够更快做出决策。

他们的分散式架构帮助他们摆脱了大型单体团队的概念，转而在业务组织内部建立了专门的数据团队，这些团队对数据有专门的知识，使他们能够更快创新。一个中央横向数据服务团队负责数据管理、数据治理以及在整个组织内应用一致的防护措施。

有了这个坚实的数据基础，亚马逊金融公司现在可以更轻松、更快地利用生成式人工智能。他们良好的数据、全面的目录和协调一致的数据使他们能够将这些数据产品整合到业务流程中。

生成式人工智能为亚马逊金融公司带来了重大机遇，有望改善许多业务工作流程、实现更快更智能的决策，并通过更好的客户体验提高生产力。他们的首要任务是提高分析师在处理多个客户或供应商请求时的工作效率。

总的来说，亚马逊金融公司的数据基础和生成式人工智能提供了出色的能力，可以理解客户请求的意图、识别与业务政策文件相符的解决方案、整合并呈现来自多个来源的财务数据，并起草下一步措施供人工审查。目标是自动化常规人工任务，让人类作为最终决策者。

为了实现这一最终状态，亚马逊金融公司首先需要确定如何从政策文件中理解业务背景、整合数据，然后建议人工执行的行动。他们采取了两步走的方法。

第一步，他们的目标是从政策文件中理解业务背景，同时为分析师提供对话式体验，以搜索和检索解决方案，而不是浏览数百页文档。

第二步，他们将财务数据与业务背景合并，为分析师建议精确的行动，以解决客户问题。为了建立全面的理解，亚马逊金融公司利用了亚马逊云科技 Vector Data Store的强大功能。他们将存储在S3上的非结构化政策文档提取出来，进行分块，转换为向量嵌入，并加载到知识数据库中。他们选择了Titan嵌入模型，基于性能、准确性和成本基准测试。

金融部门一直在使用OpenSearch进行实时分析和高吞吐量事务搜索。向OpenSearch添加了向量数据库功能，使他们能够快速适应，而无需构建额外的数据基础设施。他们选择OpenSearch是基于其性能、能够跨不同文档类型进行搜索以及处理他们用例所需的大规模数据量的能力。

随着业务的发展，政策文档也会发生变化，因此他们构建了一个RAG(Retrieval Augmented Generation)管道，允许根据分析师的提示使用对话界面搜索和检索政策信息。

在第二步中，他们在现有的RAG基础上增加了传递财务数据的功能，从而为分析师解决客户请求提供具体建议和数据。

这种方法结合了来自政策文档的业务背景理解和精确的财务数据，利用数据网格中高质量的数据实现了针对性的问题解决。向量数据存储现在是他们数据网格的一个组成部分，与中央数据目录和大型语言模型(LLM)相连。

通过结合生成式人工智能和数据，人类不再是数据的整合者，LLM正在为他们的用例整合数据。虽然处于初期阶段，但初步结果令人振奋，显示出加快了解客户问题、获取答案和确定下一步措施的进程。

他们推出了一个用于政策文件问答的GenAI聊天机器人，在一个主要业务渠道中，提高了数百名分析师的工作效率超过80%。随着越来越多的渠道接入聊天机器人，人力生产率将继续提高，实现为每一位金融运营员工配备虚拟助手的愿景。

通过与数据整合，他们开始为分析师提供明确的总结和后续建议，使分析师能够解决跨越数千封电子邮件的客户查询，提高了工作效率并提升了客户体验。

然而，他们还没有完成。他们还有更多的领域、数据集和业务政策文档需要纳入数据网格。他们需要LLM来回答不同类型的问题、政策和各种提示，并提供高质量的数据。随着他们添加更多的来源和领域，他们需要更好的发现、更强的治理，以及在数据网格内使用良好的metadata进行语义搜索数据的能力。他们现在可以使用自然语言处理生成查询并执行它们，但他们仍有成本优化的机会，大约60%的管道可以从零ETL和进一步的成本优化中受益。

Nathan Aurora重申，在亚马逊云科技上建立良好的数据基础是生成式人工智能的必要条件。他们坚信，在生成式人工智能时代发展他们的数据基础设施的投资，将改变他们提高金融运营分析师生产力和重新定义客户体验的方式。

随后，负责亚马逊云科技分析服务技术发展的亚马逊云科技杰出工程师Ipo讨论了亚马逊云科技数据基础设施能力的未来发展。

亚马逊云科技推出了下一代Amazon SageMaker，其中包括:

SageMaker Unified Studio:一个统一的开发体验，用于数据处理、SQL分析、模型开发和生成式人工智能应用程序。
SageMaker Data and AI Governance:由亚马逊云科技 Data Zone提供支持的易于使用且功能强大的数据治理能力。
SageMaker Lake House:一个统一的数据管理层，允许管理和访问来自各种来源的数据，包括Redshift Managed Storage、S3中的开放文件格式以及新推出的S3表。

SageMaker Lake House将仓库和湖泊功能结合在一起，提供灵活的存储选项、通过Apache Iceberg REST API实现开放访问，以及基于细粒度访问控制的安全治理。亚马逊云科技还推出了零ETL功能，用于从企业应用程序和流媒体源将数据引入Lake House。

Ipo强调，亚马逊云科技客户一直在选择亚马逊云科技的全面服务来开发分析和人工智能应用程序，赞赏这些服务的深度，尤其是在定价、性能和安全态势方面。然而，多年来，客户表达了希望通过更统一的体验来利用同一套服务的愿望，无论是在数据层还是开发体验层。

为了解决这一问题，亚马逊云科技正在发展SageMaker服务，使其成为亚马逊云科技上数据分析和人工智能的中心。SageMaker正在通过三个基本组件得到增强:

SageMaker Unified Studio:一个统一的IDE，允许用户开发数据处理应用程序、使用Redshift运行SQL分析、开发模型以及构建生成式人工智能应用程序。它提供了项目访问权限，用户可以在其中管理数据、代码、模型和计算资源。
SageMaker Data and AI Governance:由亚马逊云科技 Data Zone提供支持，这是一种易于使用且功能强大的数据和人工智能治理能力。
SageMaker Lake House:是现有亚马逊云科技 Glue Data Catalog和Amazon Lake Formation的演进，允许用户管理和访问来自Redshift Managed Storage、S3中的开放文件格式以及新推出的S3表的数据。它提供了一个统一的技术目录，通过Apache Iceberg REST API实现开放访问。

SageMaker Lake House将仓库和湖泊功能结合在一起，提供灵活的存储选项。用户可以将数据存储在通用S3存储桶中，使用Iceberg协议访问数据，并从自动优化中受益，如数据压缩和统计信息收集。亚马逊云科技还提供托管的Iceberg SerieTables，这是一项由SerieTables提供支持的托管Iceberg服务，提供高读写吞吐量和完全托管的Iceberg表维护。

此外，用户可以将现有的Redshift数据库发布到Lake House命名空间，允许其他计算引擎连接并读写Redshift Managed Storage格式。这种专有格式针对分析进行了优化，提供了诸如通过机器学习进行持续性能优化、近乎实时的运营分析支持、多语句事务一致性以及与其他选择相比低延迟查询的吞吐量高达7倍等优势。

SageMaker Lake House是一个开放和安全的统一技术目录，可通过开放API(如Apache Iceberg REST API)访问。它允许用户设置企业安全性和治理，并具有细粒度的访问控制，例如列级安全性、行级安全性和基于标签的访问控制。

亚马逊云科技还在Zero ETL技术方面进行了创新，使其能够从各种来源(如DynamoDB、Aurora MySQL、Aurora PostgreSQL、Oracle、MySQL以及Salesforce、SAP、ServiceNow、Facebook Ads、Zendesk、Zoho、Instagram Ads和Salesforce Marketing Cloud (Pardot)等企业应用程序)向SageMaker Lake House摄取数据。从Aurora摄取后，数据出现在分析端的平均延迟约为8-9秒。

亚马逊云科技还将联合连接和流式摄取引入了Lake House，支持Kinesis Data Streams、Managed Kafka、Apache Kafka和Confluent，客户使用流式摄取向Redshift Managed Storage摄取每秒数千兆字节的数据。

SageMaker Unified Studio集成了各种功能，允许用户使用SageMaker AI训练和部署AI模型、使用Bedrock ID(预览版)构建生成式AI应用程序、使用EMR或Glue准备和集成数据，以及使用Redshift运行SQL查询。所有操作都由Amazon CodeWhisperer加速，这是一种强大的面向软件开发人员的生成式AI系统。

Ipo强调，现有的亚马逊云科技服务用户无需更改任何内容，因为亚马逊云科技正在将现有服务集成到下一代Amazon SageMaker中。他鼓励与会者提供反馈并在亚马逊云科技上进行开发，因为本周将有许多会议涵盖下一代SageMaker。

总之，本次会议全面概述了亚马逊云科技如何扩展和发展其数据基础设施能力，以满足生成式AI时代的需求。会议涵盖了GenAI对数据工程的影响、亚马逊云科技数据基础设施能力的扩展、亚马逊金融的真实用例，以及通过下一代Amazon SageMaker实现亚马逊云科技数据基础设施的未来发展。会议重点介绍了亚马逊云科技统一数据管理和开发体验、打破数据孤岛以及提供构建强大GenAI应用程序的综合平台的努力，视频中的数字和数据点丰富了叙述。

下面是一些演讲现场的精彩瞬间：

演讲者通过让观众猜测房间里有多少人，营造了一种互动和活跃的氛围，开启了“生成式人工智能时代的数据基础”分组会议。

亚马逊云科技强调了一些流行的应用程序构建模式，如预训练模型、持续预训练、微调预训练模型以及用于上下文学习的检索增强生成(RAG)。

展示了一个高级架构，其中包括亚马逊云科技服务用于处理非结构化数据的元数据，包括将数据引入 S3、使用 Comprehend 和 Transcribe 等 AI 服务进行提取、使用 Glue Data Catalog 和 Athena 进行元数据编目，以及使用 Lake Formation 进行治理。

演示了矢量数据管理和 RAG 应用程序的强大功能，用于高级数据集成和使用大型语言模型生成准确响应。

Redshift 与 Lakehouse 无缝集成，使数据科学家能够执行复杂分析，而不会中断生产工作负载。

Unified Studio 将多个亚马逊云科技控制台整合到一个数据和人工智能开发环境中，实现了机器学习、生成式人工智能应用程序、数据准备和 SQL 查询的无缝创建。

Andy Jassy 强调了亚马逊的人工智能能力，包括用于训练和部署模型的 SageMaker AI、用于生成式人工智能应用程序的 Bedrock ID、用于数据准备和集成的 EMR 和 Glue、用于 SQL 查询的 Redshift，以及作为软件开发人员最强大的生成式人工智能系统 CodeWhisperer。

总结

在生成式人工智能时代，亚马逊云科技正在扩展和发展其数据基础设施能力，以满足构建生成式人工智能应用程序的需求。主要涉及以下几个方面:

非结构化数据处理: 利用亚马逊云科技人工智能服务如Amazon Comprehend、Transcribe、Textract和SageMaker从图像、音频和文档等非结构化数据源中提取元数据。这些元数据对于训练大型语言模型和启用检索增强生成(RAG)等功能至关重要。
数据集成和存储: 采用高级数据集成技术如ELT、自动复制和流式摄取，以增强用户体验。针对向量数据存储优化的数据库，如Amazon OpenSearch Service、Amazon Aurora、Amazon DocumentDB和Amazon Neptune，为RAG应用程序提供高效的上下文检索。
用户个性化: 利用Amazon Redshift等客户360数据仓库和Amazon DynamoDB等数据库，融入用户上下文和对话历史，使生成式人工智能应用程序能够提供更加相关和个性化的响应。
数据治理: 亚马逊云科技服务如Amazon Lake Formation、Amazon Data Exchange和亚马逊云科技 Data Zone简化了数据共享、目录和治理，确保生成式人工智能应用程序的数据隐私、质量和合规性。
统一数据管理: 引入SageMaker Lakehouse统一数据管理层，将数据仓库和数据湖结合在一起，通过Apache Iceberg REST API实现开放访问。它提供安全的细粒度访问控制和自动优化。
统一开发体验: SageMaker Unified Studio提供了一个用于数据准备、SQL查询、模型训练和生成式人工智能应用程序开发的单一环境，并由Amazon CodeWhisperer加速。

亚马逊云科技将继续发展其数据基础设施能力，旨在使客户能够构建专门定制的生成式人工智能应用程序，推动业务发展。

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务，服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者，亚马逊云科技正在携手广泛的客户和合作伙伴，缔造可见的商业价值 – 汇集全球40余款大模型，亚马逊云科技为10万家全球企业提供AI及机器学习服务，守护3/4中国企业出海。

上一篇：5G加固平板电脑：工业4.0时代的智慧引擎与坚固盾牌

下一篇：上海海能证券投资顾问有限公司荐股骗局，夸大宣传诱导缴费！

生成式人工智能时代的数据基础

相关内容

热门资讯