从文本中提取关键短语

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

从给定文本中提取关键短语

类别:文本分析

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本文介绍如何使用 机器学习 Studio (经典) 中的"从文本中提取关键短语"模块预处理文本列。 给定自然语言文本列后,模块将提取一个或多个有意义的短语。 短语可能是单个单词、复合名词或修饰符加上名词。

此模块是自然语言处理 API 的包装器,用于关键短语提取。 由于各种原因,这些短语在句子上下文中被分析为可能有意义:

  • 短语捕获句子的主题。
  • 短语包含指示情绪的修饰符和名词的组合。

例如,假设所分析的句子为:"这是一家很棒的酒店,有独特的餐厅且友好的员工。"

" 从文本中提取关键短语" 模块可能会返回以下关键短语:

  • 酒店
  • 友好的员工
  • 唯一的花

如何配置从文本中提取关键短语

若要提取关键短语,必须连接包含文本列的数据集。

  1. 将"从文本中提取关键短语"模块添加到 机器学习 Studio (经典) 。 然后,连接至少具有一个全文列的数据集。

  2. 使用列选择器选择字符串类型的列,从中提取关键短语。

  3. 对于 "语言",请选择在分析短语时使用的语言。 如果指定语言,则仅输出目标语言中的短语。

  4. 如果文本列包含多种语言的短语,请选择选项"在列中 标识的语言"。 将显示一个新的列选择器,用于选择数据集中包含语言标识符的列。 语言标识符可以是语言名称或 Iso6391 区域性标识符。 例如,"英语"或"en"是可接受的。

    提示

    在运行 "从文本中提取关键短语"之前,请使用" 检测 语言"模块来标识每行中的语言并生成标识符。 如果语言标识符列包含从文本中提取关键短语不支持的任何 语言,则引发错误

结果

模块的输出是包含以逗号分隔的关键短语列的数据集。

例如,以下示例结果适用于包含多种语言评论的输入数据集:

关键短语
story, 则使用中文, 好书, adventure story, avalanche of event, good characters
primer misterio,personjes,fan,aventura,isla
  • 所有输出短语都包含在单个列中;不会传递其他列,并且不会添加标识符。 但是,如果要将输出短语与源文本对齐,可以使用"添加列"模块将输出短语与输入 重新 组合。

  • 关键短语提取的输出不标记单个短语的语言。

  • 如果包含"提取关键短语"模块不支持的语言, (0039) 。 若要避免错误,请确保筛选出具有不兼容语言标识符的输入文本。

    如果其他语言的行很少,则还可以省略语言标识符,然后使用单个语言选择分析所有文本,从而避免错误。 但是,当你这样做时,结果非常差,因为其他语言中的整个句子可能输出为单个关键短语。

示例

以下示例演示如何使用此模块提取关键短语,然后从以下短语生成词云:提取关键短语和 显示单词云

有关使用 Azure AI 库 处理文本的更多示例,请参阅机器学习。

技术说明

此模块当前支持以下语言:

  • 荷兰语
  • 英语
  • 法语
  • 德语
  • 意大利语
  • 西班牙语

对于其他语言,请考虑在 Azure 认知服务 中文本分析 API。 有关详细信息,请参阅如何在 文本分析

预期输入

名称 类型 说明
数据集 数据表 包含要处理的文本的表。

模块参数

名称 类型 范围 可选 默认 说明
区域性语言列 ColumnSelection language:Column 包含语言 包含区域性语言信息的列的名称或基于一的索引
文本列 ColumnSelection 必选 文本列的名称或从一个索引。
语言 T_Language 英语、西班牙语、法语、荷兰语、德语、意大利语、列包含语言 必选 英语 选择要处理的文本的语言。

Outputs

名称 类型 说明
结果数据集 数据表 提取的关键短语

例外

异常 描述
错误 0003 如果一个或多个输入为 NULL 或为空,将出现异常。
错误 0010 如果输入数据集的列名应匹配但不匹配,将出现异常。
错误 0016 如果传递给模块的输入数据集应该具有兼容的列类型,而实际没有,将出现异常。
错误 0008 如果参数不在范围内,将出现异常。

有关特定于工作室和经典 (模块) 的列表,请参阅机器学习代码

有关 API 异常的列表,请参阅机器学习 REST API代码

另请参阅

文本分析
A-Z 模块列表