你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

快速入门:自定义摘要(预览版)

参考本文开始创建自定义摘要项目,你可以在其中训练基于摘要的自定义模型。 模型是经过训练可以完成特定任务的人工智能软件。 对于此系统,模型将总结文本,并通过从导入的数据中学习来进行训练。

本文使用 Language Studio 来演示自定义摘要的关键概念。 例如,我们将构建一个自定义摘要模型来从简短的出院记录中提取设施或治疗地点。

先决条件

创建新的 Azure AI 语言资源和 Azure 存储帐户

在使用自定义摘要之前,需要创建一个 Azure AI 语言资源,该资源将为你提供创建项目和开始训练模型所需的凭据。 此外,还需要一个 Azure 存储帐户,使用该帐户,可以上传将用于生成模型的数据集。

重要

要快速开始,建议使用本文中提供的步骤新建 Azure AI 语言资源。 使用本文中的步骤可同时创建语言资源和存储帐户,这比以后再做更容易。

从 Azure 门户创建新资源

  1. 要创建新的 Azure AI 语言资源,请转到 Azure 门户

  2. 在出现的窗口中,请从自定义功能中选择此服务。 单击屏幕底部的“继续创建资源”。

    显示 Azure 门户中的自定义文本分类和自定义命名实体识别的屏幕截图。

  3. 创建包含以下详细信息的语言资源。

    名称 说明
    订阅 Azure 订阅。
    资源组 将包含资源的资源组。 可以使用现有资源组,也可以新建一个。
    区域 语言资源的区域。 例如,“美国西部 2”。
    名称 资源的名称。
    定价层 语言资源的定价层。 可以使用免费 (F0) 定价层试用该服务。

    注意

    如果收到一条消息“登录帐户不是所选存储帐户资源组的所有者”,则帐户需要在资源组上分配一个所有者角色,然后才能创建语言资源。 请联系 Azure 订阅所有者寻求帮助。

  4. 在此服务的部分,选择现有存储帐户或选择“新建存储帐户”。 这些值用于帮助你快速入门,不一定是你希望在生产环境中使用的存储帐户值。 为避免在生成项目时出现延迟,请连接到与语言资源位于同一区域的存储帐户。

    存储帐户值 建议的值
    存储帐户名称 任何名称
    存储帐户类型 标准 LRS
  5. 确保选中“负责任的 AI 通知”。 在页面底部选择“查看 + 创建”,然后选择“创建”。

下载示例数据

如果你需要示例数据,我们为本快速入门提供了一些用于文本摘要对话摘要方案的示例数据。

将示例数据上传到 Blob 容器

  1. 找到要上传到存储帐户的文件

  2. Azure 门户中,导航到你创建的存储帐户,然后选择它。

  3. 在存储帐户中,从位于“数据存储”下方的左侧菜单中选择“容器”。 在出现的屏幕上,选择“+ 容器”。 将容器命名为“example-data”并保留默认的“公共访问级别”。

    显示存储帐户主页的屏幕截图。

  4. 创建容器后,选择该容器。 然后选择“上传”按钮以选择之前下载的 .txt.json 文件。

    显示用于将文件上传到存储帐户的按钮的屏幕截图。

创建自定义摘要项目

在配置资源和存储帐户后,创建新的自定义摘要项目。 项目是一个基于数据构建自定义 ML 模型的工作区。 只有你和对所使用的语言资源具有访问权限的其他人才能访问你的项目。

  1. 登录到 Language Studio。 随即将出现一个窗口,供你选择订阅和语言资源。 选择在上一步中创建的语言资源。

  2. 选择要在 Language Studio 中使用的功能。

  3. 从项目页的顶部菜单中选择“创建新项目”。 创建项目后,可以标记数据,训练、评估、改进和部署模型。

    项目创建页的屏幕截图。

  4. 输入项目信息,包括名称、说明和项目中文件的语言。 如果使用示例数据集,请选择“英语”。 以后无法更改项目名称。 选择“下一步”

    提示

    你的数据集无须完全使用同一语言。 你可以有多个文档,每个文档都支持不同的语言。 如果数据集包含不同语言的文档,或者你在运行时需要不同语言的文本,请在输入项目基本信息时选择“启用多语言数据集”选项。 稍后可以从“项目设置”页面启用此选项。

  5. 选择“创建新项目”后,将会显示用于连接存储帐户的屏幕。 如果已连接了存储帐户,将看到该存储帐户已连接。 如果未显示,请从显示的下拉列表中选择你的存储帐户,然后选择“连接存储帐户”;这将为你的存储帐户设置所需的角色。 如果你没有被指定为存储帐户的“所有者”,此步骤可能会返回错误。

    注意

    • 只需为使用的每个新资源执行一次此步骤。
    • 此过程是不可逆的,如果将一个存储帐户连接到你的语言资源,以后将无法断开其连接。
    • 只能将你的语言资源连接到一个存储帐户。
  6. 选择你上传数据集的容器。

  7. 如果已标记数据,请确保它遵循支持的格式,并选择“是,我的文件已标记,并且我已设置 JSON 标签文件的格式”,然后从下拉菜单中选择标签文件。 选择“下一页”。 如果你使用的是快速入门中的数据集,则无需查看 JSON 标签文件的格式设置。

  8. 查看输入的数据,并选择“创建项目”。

训练模型

创建项目后,可以继续操作并开始训练你的模型。

若要在 Language Studio 中开始训练模型,请执行以下操作:

  1. 在左侧菜单中,选择“训练作业”。

  2. 从顶部菜单中选择“启动训练作业”。

  3. 然后选择“训练新模型”并在文本框中键入模型名称。 还可以通过选择“覆盖现有模型”选项并从下拉菜单中选择要覆盖的模型来覆盖现有模型。 覆盖已训练的模型是不可逆的,但这在部署新模型之前不会影响已部署的模型。

    新建训练作业

  4. 默认情况下,系统会根据指定的百分比在训练集和测试集之间拆分标记的数据。 如果测试集中包含文档,则可以手动拆分训练数据和测试数据。

  5. 选择“训练”按钮。

  6. 如果从列表中选择训练作业 ID,则会显示一个侧窗格,可在其中检查此作业的“训练进度”、“作业状态”和其他详细信息。

    注意

    • 只有成功完成的训练作业才会生成模型。
    • 训练可能需要几分钟到几个小时,具体取决于已标记数据的大小。
    • 一次只能运行一个训练作业。 在运行的作业完成之前,无法在同一项目中启动其他训练作业。

部署模型

通常,训练模型后,你会查看其评估详细信息,并在必要时进行改进。 在本快速入门中,你将仅部署模型,并使其可供你在 Language Studio 中试用。

若要要从 Language Studio 中部署模型,请执行以下操作:

  1. 在左侧菜单中,选择“部署模型”。

  2. 选择“添加部署”,以开始新部署作业。

    显示部署按钮的屏幕截图

  3. 选择“创建新部署”以创建新的部署,并从下面的下拉列表中分配已训练的模型。 还可以通过选择“覆盖现有部署”选项来覆盖现有部署,然后从下面的下拉列表中选择要为其分配的已训练的模型。

    注意

    覆盖现有部署不需要更改预测 API 调用,但产生的结果将基于新分配的模型。

    显示部署屏幕的屏幕截图

  4. 选择“部署”以启动部署作业。

  5. 部署成功后,旁边将显示到期日期。 部署到期是指已部署的模型将无法用于预测,这通常发生在训练配置到期后的 12 个月。

测试模型

在本快速入门中,将使用 Language Studio 提交自定义摘要任务并直观呈现结果。 在之前下载的示例数据集中,可以找到一些可在此步骤中使用的测试文档。

若要在 Language Studio 中测试已部署的模型,请执行以下操作:

  1. 在左侧菜单中,选择“测试部署”。

  2. 选择要测试的部署。 只能测试分配给部署的模型。

  3. 对于多语言项目,请从语言下拉列表中选择要测试的文本的语言。

  4. 从下拉列表中选择要查询/测试的部署。

  5. 可以输入要提交到请求的文本,或上传要使用的 .txt 文件。

  6. 选择顶部菜单中的“运行测试”。

  7. 在“结果”选项卡中,可以看到从文本中提取的实体及其类型。 还可以在“JSON”选项卡下查看 JSON 响应。

显示模型测试结果的屏幕截图。

清理资源

如果不再需要项目,可以使用 Language Studio 删除项目。 在顶部选择你正在使用的功能,然后选择要删除的项目。 选择顶部菜单中的“删除”以删除项目。

后续步骤