從文字中將關鍵字組解壓縮

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

從指定的文字中解壓縮關鍵字組

Category:文字分析

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文說明如何使用機器學習 Studio (傳統) 中的文字模塊的 [將關鍵字組解壓縮],以預先處理文字資料行。 針對自然語言文字的資料行,此模組會解壓縮一或多個有意義的片語。 片語可能是單一單字、複合名詞或修飾詞加上名詞。

此模組是適用于主要片語解壓縮之自然語言處理 Api 的包裝函式。 在句子內容中,會針對各種原因,將片語分析為可能有意義:

  • 此片語會捕捉句子的主題。
  • 此片語包含表示情感的修飾元和名片語合。

例如,假設分析的句子是:「這是很棒的飯店,有獨特的 décor 和易記的員工」。

從文字模塊中解壓縮關鍵字組可能會傳回這些關鍵字組:

  • 很棒的飯店
  • 易記的員工
  • 唯一 décor

如何設定從文字中將關鍵字組解壓縮

若要將關鍵字組解壓縮,您必須連接具有文字資料行的資料集。

  1. 在機器學習 Studio (傳統) 中,從文字模塊將「解壓縮關鍵字組」新增至您的實驗。 然後,連接至少有一個全文檢索資料行的資料集。

  2. 使用 [資料行選取器] 選取 [字串] 類型的資料行,以從中解壓縮主要片語。

  3. 針對 [ 語言],請選取分析片語時要使用的語言。 如果您指定語言,則只會輸出目的語言中的片語。

  4. 如果文字資料行包含多種語言的片語,請選擇 [資料 行中識別的語言] 選項。 隨即顯示新的資料行選取器,可讓您選取包含語言識別項之資料集中的資料行。 語言識別項可以是語言名稱或 Iso6391 文化特性識別碼。 例如,可以接受「英文」或「en」。

    提示

    從文字執行將關鍵字組解壓縮之前,請使用 [偵測語言] 模組來識別每個資料列中的語言,並為您產生識別碼。 如果 [語言識別項] 資料行包含 從文字中解壓縮關鍵字組所不支援的任何語言,則會引發錯誤。

結果

模組的輸出是資料集,其中包含以逗號分隔之主要片語的資料行。

例如,下列範例結果適用于輸入資料集,其中包含多種語言的評論:

主要片語
新穎、海底、優質書、冒險故事、活動大量、良好字元
入門 misterio、personajes、風扇、aventura、isla
  • 所有的輸出片語都包含在單一資料行中;不會傳遞任何其他資料行,而且不會新增識別碼。 但是,如果您想要將輸出片語與來源文字對齊,您可以使用 [ 加入資料行 ] 模組,以輸入重新合併輸出片語。

  • 關鍵字組解壓縮的輸出不會標示個別片語的語言。

  • 如果包含了 [ 解壓縮關鍵字 組] 模組不支援的語言,則會 (0039) 引發錯誤。 若要避免發生錯誤,請務必篩選出具有不相容語言識別項的輸入文字。

    如果有很多資料列的其他語言,您也可以省略此錯誤,方法是省略語言識別項,並使用單一語言選擇來分析所有文字。 但是,當您這樣做時,結果會很差,因為其他語言中的整個句子可能會輸出為單一按鍵片語。

範例

下列範例示範如何使用此模組來將關鍵字組解壓縮,然後從片語建立單字雲端:將關鍵字組 解壓縮並顯示單字雲端

如需使用機器學習的文字處理範例,請參閱Azure AI 資源庫

技術說明

此課程模組目前支援下列語言:

  • 荷蘭文
  • 英文
  • 法文
  • 德文
  • 義大利文
  • 西班牙文

如需其他語言,請考慮在 Azure 認知服務中使用文字分析 API 。 如需詳細資訊,請參閱如何在文字分析中將關鍵字組解壓縮

預期的輸入

名稱 類型 說明
資料集 資料表 包含要處理之文字的資料表。

模組參數

名稱 類型 範圍 選擇性 預設 描述
文化特性語言資料行 ColumnSelection language:資料行包含語言 包含文化特性語言資訊之資料行的名稱或以一為基礎的索引
文字資料行 ColumnSelection 必要 文字資料行的名稱或以一為起始的索引。
語言 T_Language 英文、西班牙文、法文、荷蘭文、德文、義大利文、含語言的資料行 必要 英文 選取要處理之文字的語言。

輸出

名稱 類型 說明
結果資料集 資料表 已解壓縮的主要片語

例外狀況

例外狀況 描述
錯誤 0003 如果一或多個輸入為 Null 或空白,就會發生例外狀況。
錯誤 0010 如果輸入資料集有應符合但卻不符的資料行名稱,就會發生例外狀況。
錯誤 0016 如果傳至模組的輸入資料集應有相容的資料行類型,但卻沒有,就會發生例外狀況。
錯誤 0008 如果參數不在範圍內,就會發生例外狀況。

如需 Studio (傳統) 模組特定的錯誤清單,請參閱機器學習錯誤碼

如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼

另請參閱

文字分析
A-Z 模組清單