你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

快速入门:在 Azure 门户中创建知识存储

在本快速入门中,你将创建知识存储,以充当从 Azure AI 搜索的 AI 扩充管道中生成的输出的存储库。 知识存储使生成的内容可以在 Azure 存储中用于搜索以外的工作负载。

首先,在 Azure 存储中设置一些示例数据。 接着,运行导入数据向导以创建同样会生成知识存储的扩充管道。 知识存储会包含从数据源(客户对酒店的评论)提取的原始源内容,以及 AI 生成的内容,包括情绪标签、关键短语提取和非英语客户评论的文本翻译。

先决条件

开始之前,必须具备以下先决条件:

此快速入门还将 Azure AI 服务用于 AI 扩充。 由于工作负载很小,因此在后台使用 Azure AI 服务来免费处理事务(最多 20 个事务)。 这意味着,无需创建额外的 Azure AI 多服务资源就能完成此练习。

启动向导

  1. 使用 Azure 帐户登录到 Azure 门户

  2. 查找搜索服务,并在“概述”页中,选择命令栏上的“导入数据”,通过四个步骤创建知识存储。

    Screenshot of the Import data command

步骤 1:创建数据源

由于数据在一个 CSV 文件中包含多行,因此请设置分析模式,为每一行获取一个搜索文档。

  1. 在“连接到数据”中,选择“Azure Blob 存储” 。

  2. 对于名称,请输入“hotel-reviews-ds”。

  3. 对于“要提取的数据”,请选择“内容和元数据”。

  4. 对于“分析模式”,请选择“分隔文本”,然后选中“第一行包含标头”复选框。 确保“分隔符”是逗号 (,)。

  5. 在“连接字符串”中,如果存储帐户位于同一订阅中,请选择现有连接。 否则,请粘贴 Azure 存储账户的连接字符串。

    连接字符串可以有完全访问权限,具有以下格式:DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.windows.net

    连接字符串也可以引用托管标识,前提是已在 Azure 存储中为其配置并分配了角色ResourceId=/subscriptions/{YOUR-SUBSCRIPTION-ID}/resourceGroups/{YOUR-RESOURCE-GROUP-NAME}/providers/Microsoft.Storage/storageAccounts/{YOUR-ACCOUNT-NAME};

  6. 在“容器”中,输入保存数据的 Blob 容器的名称(“hotel-reviews”)。

    页面应类似于以下屏幕截图。

    Screenshot of data source definition

  7. 继续转到下一页。

步骤 2:添加技能

在此向导步骤中,添加 AI 扩充技能。 源数据包括用英文和法语撰写的客户评论。 与此数据集相关的技能包括关键短语提取、情绪检测和文本翻译。 在后续步骤中,这些扩充内容会以 Azure 表的形式“投影”到知识存储。

  1. 展开“附加 Azure AI 服务”。 默认已选择“免费(受限扩充)”。 之所以可以使用此资源,是因为 HotelReviews-Free.csv 中的记录数为 19 个,并且此免费资源每天最多允许 20 个事务。

  2. 展开“添加扩充”。

  3. 对于“技能组名称”,请输入“hotel-reviews-ss”。

  4. 对于“源数据字段”,请选择“reviews_text”。

  5. 对于“扩充粒度级别”,请选择“页面(5000 个字符区块)” 。

  6. 对于“文本认知技能”,请选择以下技能:

    • 提取关键短语
    • 翻译文本
    • 语言检测
    • 检测情绪

    页面应类似于以下屏幕截图所示:

    Screenshot of the skillset definition

  7. 向下滚动并展开“将扩充内容保存到知识存储”。

  8. 选择“选择现有连接”,然后选择 Azure 存储账户。 此时会显示“容器”页,以便你为投影创建容器。 建议采用前缀命名约定(如“kstore-hotel-reviews”)来区分源内容和知识存储内容。

  9. 返回到“导入数据”向导,选择以下“Azure 表投影”。 向导始终提供“文档”投影。 会根据你选择的技能(例如关键短语)或扩充粒度(页面)提供其他投影:

    • 文档
    • 关键短语

    以下屏幕截图显示向导中的表投影选择。

    Screenshot of the knowledge store definition

  10. 继续转到下一页。

步骤 3:配置索引

在此向导步骤中,为可选的全文搜索查询配置索引。 知识存储不需要搜索索引,但索引器需要才能运行。

在此步骤中,向导会对数据源进行采样,以推断字段和数据类型。 你只需为所需的行为选择属性。 例如,可检索属性允许搜索服务返回字段值,而可搜索属性对字段启用全文搜索。

  1. 对于“索引名称”,请输入“hotel-reviews-idx”。

  2. 对于属性,请接受默认选项:“可检索”和“可搜索”(对于管道正在创建的新字段) 。

    索引应与下图类似: 由于该列表很长,图像中未显示所有字段。

    Screenshot of the index definition

  3. 继续转到下一页。

步骤 4:配置和运行索引器

在此向导步骤中,配置索引器,用于统一提取前面向导步骤中定义的数据源、技能集和索引。

  1. 对于名称,请输入“hotel-reviews-idxr”。

  2. 对于“计划”,请保留默认设置“一次”。

  3. 选择“提交”运行索引器。 数据提取、索引编制和应用认知技能的操作都在此步骤中发生。

步骤 5:检查状态

在“概述”页面中,打开页面中间的“索引器”选项卡,然后选择“hotels-reviews-idxr” 。 在一两分钟内,状态应从“正在进行”变为“成功”,且没有任何错误和警告。

检查 Azure 门户中的表

  1. 在 Azure 门户中,打开用于创建知识存储的存储帐户

  2. 在存储帐户的左侧导航窗格中,选择存储浏览器(预览版)查看新表。

    应会看到三个表,每个表对应于“添加扩充”页的“保存扩充”部分提供的每个投影。

    • “hotelReviewssDocuments”包含文档扩充树中所有不是集合的第一级节点。

    • “hotelReviewssKeyPhrases”包含一长串从所有评论中提取的关键短语。 输出集合(数组)(例如关键短语和实体)的技能会将输出发送到独立表。

    • “hotelReviewssKeyPhrases”包含在从文档拆分的每个页面上创建的扩充字段。 在此技能组和数据源中,页面级扩充由情绪标签和已翻译的文本组成。 当你在技能组定义中选择“pages”粒度时,系统会创建一个 pages 表;如果指定 sentences 这个特定级别的粒度,则会创建一个 sentences 表。

所有这些表都包含 ID 列,以支持其他工具和应用中的表关系。 打开表时,滚动浏览这些字段可查看管道添加的内容字段。

本快速入门中的“hotelReviewssPages”表应类似于以下屏幕截图:

Screenshot of the generated tables in Storage Browser

清理

在自己的订阅中操作时,最好在项目结束时确定是否仍需要已创建的资源。 持续运行资源可能会产生费用。 可以逐个删除资源,也可以删除资源组以删除整个资源集。

可以使用左侧导航窗格中的“所有资源”或“资源组”链接 ,在门户中查找和管理资源。

如果使用的是免费服务,请记住只能设置三个索引、索引器和数据源。 可以在门户中删除单个项目,以不超出此限制。

提示

若要重复此练习或尝试其他 AI 扩充演练,请删除 hotel-reviews-idxr 索引器和相关对象以重新创建它们。 删除该索引器会将每日的免费事务计数器重置为零。

后续步骤

现在,你已了解知识存储,请通过切换到 REST API 演练来仔细查看每个步骤。 REST 演练中介绍了向导在内部处理的任务。