Share via


如何在 Azure AI Studio 中檢視評估結果

注意

Azure AI Studio 目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議用於處理生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

Azure AI Studio 評估頁面是一個多功能的中樞,不僅可讓您可視化和評估結果,還能做為優化、疑難解答和選取適合您部署需求的理想 AI 模型的控制中心。 這是 AI 專案中數據驅動決策和效能增強的一站式解決方案。 您可以順暢地存取和解譯來自各種來源的結果,包括流程、遊樂場快速測試會話、評估提交UI、產生式SDK和 CLI。 此彈性可確保您可以以最符合工作流程和喜好設定的方式與結果互動。

一旦您將評估結果可視化,您就可以深入探討徹底的檢查。 這包括不僅能夠檢視個別結果,還能比較這些結果,跨多個評估回合。 如此一來,您就可以識別趨勢、模式和差異,並取得各種條件下 AI 系統效能的寶貴見解。

在本文中,您將瞭解如何:

  • 檢視評估結果和計量。
  • 比較評估結果。
  • 瞭解內建評估計量。
  • 改善效能。
  • 檢視評估結果和計量。

尋找您的評估結果

提交評估之後,您可以流覽至 [評估] 頁面,在執行清單中找出提交的評估 執行。

您可以在執行清單中監視和管理評估回合。 有了使用數據行編輯器修改數據行並實作篩選的彈性,您可以自定義並建立自己的執行清單版本。 此外,您可以快速檢閱整個回合的匯總評估計量,讓您能夠執行快速比較。

評估回合清單的螢幕快照。

若要深入瞭解評估計量的衍生方式,您可以選取 [深入瞭解計量] 選項來存取完整的說明。 此詳細資源提供評估程式中所用計量的計算和解譯的寶貴見解。

評估計量詳細數據的螢幕快照。

您可以選擇特定的回合,這會帶您前往 [執行詳細數據] 頁面。 您可以在這裡存取完整的資訊,包括工作類型、提示、溫度等評估詳細數據。 此外,您可以檢視與每個數據範例相關聯的計量。 計量分數圖表提供如何針對每個計量在整個數據集中散發分數的視覺表示法。

在計量詳細數據數據表中,您可以對每個個別數據範例進行全面檢查。 在這裡,您可以仔細檢查產生的輸出及其對應的評估計量分數。 此詳細數據層級可讓您做出數據驅動決策,並採取特定動作來改善模型的效能。

根據評估計量的一些潛在動作專案可能包括:

  • 模式辨識:藉由篩選數值和計量,您可以向下切入分數較低的樣本。 調查這些範例,以識別模型回應中的週期性模式或問題。 例如,您可能會注意到,當模型在特定主題上產生內容時,通常會發生低分。
  • 模型精簡:使用較低評分範例的深入解析來改善系統提示指示或微調您的模型。 如果您觀察到一致的問題,例如一致性或相關性,您也可以據以調整模型的定型數據或參數。
  • 數據行自定義:數據行編輯器可讓您建立數據表的自定義檢視,著重於與評估目標最相關的計量和數據。 這可簡化您的分析,並協助您更有效率地找出趨勢。
  • 關鍵詞搜尋:搜尋方塊可讓您在產生的輸出中尋找特定單字或片語。 這適用於找出與特定主題或關鍵詞相關的問題或模式,並特別解決這些問題。

計量詳細數據表格提供豐富的數據,可引導您的模型改進工作,從辨識模式到自定義檢視,以有效率地分析和根據已識別的問題精簡模型。

我們會依效能、品質和風險和安全性計量細分匯總檢視或計量。 您可以檢視評估數據集中分數的分佈,並查看每個計量的匯總分數。

  • 針對效能和品質計量,我們會計算每個計量的所有分數的平均值來匯總。 效能和品質計量儀錶板索引標籤的螢幕快照。
  • 針對風險和安全性計量,我們會根據閾值匯總,以計算每個計量所有分數的瑕疵率。 瑕疵率定義為測試數據集中實例的百分比,其超過整個數據集大小的嚴重性調整臨界值。
    風險與安全計量儀錶板索引標籤的螢幕快照。

以下是問題解答案例的計量結果範例:

問題解答案例的計量結果螢幕快照。

以下是交談案例計量結果的一些範例:

交談案例的計量結果螢幕快照。

針對風險和安全性計量,評估會為每個分數提供嚴重性分數和推理。 以下是問題解答案例的風險和安全性計量結果範例:

問題解答案例的風險和安全性計量結果螢幕快照。

評估結果對於不同的物件可能有不同的意義。 例如,安全性評估可能會針對暴力內容的「低」嚴重性產生標籤,可能不符合人類檢閱者對特定暴力內容可能有多嚴重性的定義。 在檢閱您的評估結果時,我們會提供具有 豎起大拇指的人類意見反應 數據行,以呈現人為檢閱者核准或標示為不正確的實例。

具有人為意見反應的風險與安全計量結果螢幕快照。

瞭解每個內容風險計量時,您可以藉由選取圖表上方的計量名稱,輕鬆檢視每個計量定義和嚴重性級別,以查看彈出視窗中的詳細說明。

風險與安全計量的螢幕快照,詳細說明彈出視窗。

如果執行發生問題,您也可以使用記錄和追蹤對評估回合進行偵錯。

以下是可用來偵錯評估回合的一些記錄範例:

可用來偵錯評估回合之記錄的螢幕快照。

以下是追蹤的範例:

可用來偵錯評估回合之追蹤的螢幕快照。

若要深入瞭解如何產生評估結果,請選取 [ 流程 中的檢視] 按鈕,以流覽至連結至評估回合的流程頁面。

評估流程圖的螢幕快照。

比較評估結果

若要促進兩個以上回合之間的全面比較,您可以選擇選取所需的執行,並選取 [比較] 按鈕來起始程式,或針對一般詳細的儀錶板檢視,[切換至儀錶板檢視] 按鈕。 這項功能可讓您分析和對比多個回合的效能和結果,以取得更明智的決策制定和針對性改進。

比較評估選項的螢幕快照。

在儀錶板檢視中,您可以存取兩個有價值的元件:計量分佈比較圖表和比較數據表。 這些工具可讓您執行所選評估回合的並存分析,讓您輕鬆且精確地比較每個數據範例的各個層面。

[計量評估] 頁面的螢幕快照,其中包含選取手動評估的選項。

在比較數據表中,您可以藉由將滑鼠停留在您想要作為參考點並設定為基準的特定回合上,來建立比較比較的基準。 此外,藉由啟用 [顯示差異] 切換,您就可以輕鬆地將基準執行與數值的其他回合之間的差異可視化。 此外,啟用 [只顯示差異] 切換時,數據表只會顯示所選回合之間不同的數據列,有助於識別不同的變化。

您可以使用這些比較功能,做出明智的決策來選取最佳版本:

  • 比較基準:藉由設定基準執行,您可以識別要比較其他執行的參考點。 這可讓您查看每個執行如何偏離您選擇的標準。
  • 數值評估:啟用 [顯示差異] 選項可協助您了解基準與其他執行之間的差異程度。 這適用於評估各種執行在特定評估計量方面的執行方式。
  • 差異隔離:「只顯示差異」功能只會醒目提示執行之間差異的區域,以簡化您的分析。 這有助於找出需要改進或調整的位置。

藉由有效地使用這些比較工具,您可以識別模型或系統的哪個版本會針對您定義的準則和計量執行最佳效能,最終協助您為應用程式選取最理想的選項。

並排評估結果的螢幕快照。

測量越獄弱點

評估越獄是比較度量,而不是 AI 輔助計量。 在兩個不同的紅色小組數據集上執行評估:基準對立測試數據集與第一回合的同一個對立測試數據集搭配越獄插入。

您可以在上切換 「越獄缺陷率」,以在比較檢視中檢視計量。 越獄缺陷率定義為測試數據集中實例的百分比,其中越獄插入會針對 整個 數據集大小的基準產生較高嚴重性分數的任何內容風險計量。 您可以在比較儀錶板中選取多個評估,以檢視瑕疵率的差異。

已開啟越獄缺陷並排評估結果的螢幕快照。

提示

越獄缺陷率只會針對相同大小的數據集計算,而且只有在所有執行都包含內容風險計量時才計算。

了解內建評估計量

瞭解內建計量對於評估 AI 應用程式的效能和有效性至關重要。 藉由取得這些重要測量工具的深入解析,您可以更充分地解譯結果、做出明智的決策,以及微調您的應用程式,以達到最佳結果。 若要深入瞭解每個計量的意義、計算方式、其評估模型不同層面的角色,以及如何解譯結果,以取得數據驅動的改善,請參閱 評估與監視計量

下一步

深入瞭解如何評估您的 Generative AI 應用程式:

深入瞭解 損害風險降低技術