Dovednosti vkládání v Azure OpenAI

Článek
04/07/2024

Důležité

Tato funkce je ve veřejné verzi Preview v rámci dodatečných podmínek použití. Rozhraní REST API verze 2023-10-01-Preview tuto funkci podporuje.

Dovednost vkládání Azure OpenAI se připojuje k nasazeného modelu vkládání ve vašem prostředku Azure OpenAI za účelem vygenerování vkládání.

Data importu a vektorizace používají dovednosti vkládání Azure OpenAI k vektorizaci obsahu. Průvodce můžete spustit a zkontrolovat vygenerovanou sadu dovedností a podívat se, jak ho průvodce sestaví.

Poznámka:

Tato dovednost je vázána na Azure OpenAI a účtuje se za stávající cenu průběžných plateb Azure OpenAI.

@odata.type

Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

Omezení dat

Maximální velikost textového vstupu by měla být 8 000 tokenů. Pokud vstup překročí maximální povolenou hodnotu, model vyvolá chybu neplatného požadavku. Další informace najdete v klíčovém konceptu tokenů v dokumentaci k Azure OpenAI. Pokud potřebujete vytváření bloků dat, zvažte použití dovednosti Rozdělení textu.

Parametry dovedností

Parametry rozlišují malá a velká písmena.

Vstupy	Popis
`resourceUri`	Identifikátor URI poskytovatele modelu, jako je prostředek Azure OpenAI nebo adresa URL OpenAI.
`apiKey`	Tajný klíč použitý pro přístup k modelu. Pokud zadáte klíč, nechejte `authIdentity` prázdný. Pokud nastavíte připojení `apiKey` i `authIdentity`, `apiKey` použije se v připojení.
`deploymentId`	Název nasazeného modelu vkládání Azure OpenAI Model by měl být vložený model, například text-embedding-ada-002. Seznam modelů Azure OpenAI pro podporované modely
`authIdentity`	Identita spravovaná uživatelem používaná vyhledávací službou pro připojení k Azure OpenAI. Můžete použít identitu spravovanou systémem nebo uživatelem. Pokud chcete použít systémovou mangovanou identitu, nechejte `apiKey` ji prázdnou.`authIdentity` Identita spravovaná systémem se používá automaticky. Spravovaná identita musí mít oprávnění uživatele OpenAI služeb Cognitive Services k odesílání textu do Azure OpenAI.

Vstupy dovedností

Vstup	Popis
`text`	Vstupní text, který má být vektorizován. Pokud používáte blok dat, zdroj může být `/document/pages/*`.

Výstupy dovedností

Výstup	Popis
`embedding`	Vektorizované vkládání vstupního textu

Ukázková definice

Představte si záznam, který obsahuje následující pole:

{
    "content": "Microsoft released Windows 10."
}

Definice dovedností pak může vypadat takto:

{
  "@odata.type": "#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill",
  "description": "Connects a deployed embedding model.",
  "resourceUri": "https://my-demo-openai-eastus.openai.azure.com/",
  "deploymentId": "my-text-embedding-ada-002-model",
  "inputs": [
    {
      "name": "text",
      "source": "/document/content"
    }
  ],
  "outputs": [
    {
      "name": "embedding"
    }
  ]
}

Ukázkový výstup

Pro daný vstupní text se vytvoří vektorizovaný vložený výstup.

{
  "embedding": [
        0.018990106880664825,
        -0.0073809814639389515,
        .... 
        0.021276434883475304,
      ]
}

Výstup se nachází v paměti. Pokud chcete tento výstup odeslat do pole v indexu vyhledávání, musíte definovat outputFieldMapping , který mapuje vektorizovaný vložený výstup (což je pole) na vektorové pole. Za předpokladu, že se výstup dovednosti nachází v uzlu pro vložení dokumentu a content_vector je pole v indexu vyhledávání, měl by výstupFieldMapping v indexeru vypadat takto:

  "outputFieldMappings": [
    {
      "sourceFieldName": "/document/embedding/*",
      "targetFieldName": "content_vector"
    }
  ]

Osvědčené postupy

Tady jsou některé osvědčené postupy, které je potřeba vzít v úvahu při využívání této dovednosti:

Pokud dosáhnete limitu azure OpenAI TPM (tokeny za minutu), zvažte rady pro omezení kvót, abyste mohli odpovídajícím způsobem řešit. Další informace o výkonu instance Azure OpenAI najdete v dokumentaci k monitorování Azure OpenAI.
Nasazení modelu vkládání Azure OpenAI, které používáte pro tuto dovednost, by mělo být ideálně oddělené od nasazení používaného pro jiné případy použití, včetně vektorizátoru dotazů. To pomáhá každé nasazení přizpůsobit konkrétnímu případu použití, což vede k optimalizaci výkonu a identifikaci provozu z indexeru a volání indexu pro vkládání.
Vaše instance Azure OpenAI by měla být ve stejné oblasti nebo alespoň geograficky blízko oblasti, ve které je vaše Search AI hostovaná. Tím se sníží latence a zvýší se rychlost přenosu dat mezi službami.
Pokud máte limit azure OpenAI TPM (tokeny za minutu), který je publikovaný v dokumentaci k kvótám a limitům , otevřete případ podpory u týmu Služby Azure AI Search, abyste ho mohli odpovídajícím způsobem upravit. To pomáhá, aby se proces indexování zbytečně nezpomaloval podle zdokumentovaného výchozího limitu TPM, pokud máte vyšší limity.

Chyby a upozornění

Podmínka	Výsledek
Identifikátor URI s hodnotou null nebo neplatným	Chyba
Null nebo invalid deploymentID	Chyba
Text je prázdný.	Upozorňující
Text je větší než 8 000 tokenů	Chyba