Wat is samenvatting van documenten en gesprekken?

Belangrijk

Onze preview-regio, Zweden - centraal, toont onze nieuwste en voortdurend ontwikkelende LLM-verfijningstechnieken op basis van GPT-modellen. U bent van harte welkom om ze uit te proberen met een taalresource in de regio Zweden - centraal.

Samenvatting van gesprekken is alleen beschikbaar met:

  • REST-API
  • Python
  • C#

Samenvatting is een van de functies van Azure AI Language, een verzameling machine learning- en AI-algoritmen in de cloud voor het ontwikkelen van intelligente toepassingen die betrekking hebben op geschreven taal. Gebruik dit artikel voor meer informatie over deze functie en hoe u deze kunt gebruiken in uw toepassingen.

Hoewel de services zijn gelabeld als document- en gesprekssamenvatting, accepteert documentsamenvatting alleen blokken met tekst zonder opmaak en accepteert de samenvatting van gesprekken verschillende spraakartefacten om het model meer te leren. Als u een gesprek wilt verwerken, maar alleen om tekst geeft, kunt u documentsamenvatting gebruiken voor dat scenario.

Deze documentatie bevat de volgende artikeltypen:

  • Quickstarts zijn aan de slag-instructies om u te begeleiden bij het indienen van aanvragen bij de service.
  • Instructiegidsen bevatten instructies voor het gebruik van de service op specifiekere of aangepaste manieren.

Documentsamenvatting maakt gebruik van technieken voor verwerking van natuurlijke taal om een samenvatting voor documenten te genereren. Er zijn drie ondersteunde API-benaderingen voor automatische samenvatting: extraherend, abstractief en querygericht.

Met extraherende samenvatting worden zinnen geëxtraheerd die gezamenlijk de belangrijkste of relevante informatie in de oorspronkelijke inhoud vertegenwoordigen. Abstractieve samenvatting genereert een samenvatting met beknopte, coherente zinnen of woorden die geen exacte zinnen uit het oorspronkelijke document bevatten. Deze functies zijn ontworpen om inhoud te verkorten die te lang kan worden beschouwd om te lezen.

Systeemeigen documentondersteuning

Een systeemeigen document verwijst naar de bestandsindeling die wordt gebruikt om het oorspronkelijke document te maken, zoals Microsoft Word (docx) of een draagbaar documentbestand (PDF). Systeemeigen documentondersteuning elimineert de noodzaak voor het vooraf verwerken van tekst voordat u de resourcemogelijkheden van Azure AI Language gebruikt. Momenteel is systeemeigen documentondersteuning beschikbaar voor zowel abstractiveSummarization- als extractiveSummarization-mogelijkheden.

Documentsamenvatting ondersteunt momenteel de volgende systeemeigen documentindelingen:

Bestandstype Bestandsextensie Beschrijving
Tekst .txt Een niet-opgemaakt tekstdocument.
Adobe PDF .pdf Een document met een draagbare documentindeling.
Microsoft Word .docx Een Microsoft Word-documentbestand.

ZieSysteemeigen documenten gebruiken voor taalverwerking voor meer informatie

Belangrijkste functies

Er zijn de aspecten van documentsamenvatting die deze API biedt:

  • Extraheerlijk overzicht: Produceert een samenvatting door opvallende zinnen in het document te extraheren.

    • Meerdere geëxtraheerde zinnen: deze zinnen geven gezamenlijk het hoofdidee van het document over. Het zijn oorspronkelijke zinnen die zijn geëxtraheerd uit de inhoud van het invoerdocument.
    • Classificatiescore: De classificatiescore geeft aan hoe relevant een zin is voor het hoofdonderwerp van een document. Documentsamenvatting rangschikt geëxtraheerde zinnen en u kunt bepalen of ze worden geretourneerd in de volgorde waarin ze worden weergegeven, of volgens hun rang.
    • Meerdere geretourneerde zinnen: bepaal het maximum aantal zinnen dat moet worden geretourneerd. Als u bijvoorbeeld een samenvatting met drie zinnen aanvraagt, worden de drie hoogste zinnen geretourneerd.
    • Positionele informatie: De beginpositie en lengte van geëxtraheerde zinnen.
  • Abstractieve samenvatting: Genereert een samenvatting die niet dezelfde woorden gebruikt als in het document, maar legt het hoofdidee vast.

    • Samenvattingsteksten: Abstractieve samenvatting retourneert een samenvatting voor elk contextueel invoerbereik in het document. Een lang document kan worden gesegmenteerd, zodat meerdere groepen samenvattingsteksten kunnen worden geretourneerd met hun contextuele invoerbereik.
    • Contextueel invoerbereik: het bereik in het invoerdocument dat is gebruikt om de samenvattingstekst te genereren.
  • Samenvatting op basis van query's: Genereert een samenvatting op basis van een query

Bekijk bijvoorbeeld de volgende alinea met tekst:

"Bij Microsoft zijn we op zoek om AI verder te zetten dan bestaande technieken, door een meer holistische, mensgerichte benadering van leren en begrijpen te volgen. Als Chief Technology Officer van Azure AI-services heb ik gewerkt met een team van geweldige wetenschappers en technici om deze zoektocht om te zetten in een realiteit. In mijn rol geniet ik van een uniek perspectief bij het bekijken van de relatie tussen drie kenmerken van menselijke cognitie: monoscalel text (X), audio- of visuele sensorische signalen, (Y) en meertalige (Z). Op het snijpunt van alle drie is er magie, wat we XYZ-code noemen, zoals geïllustreerd in afbeelding 1, een gezamenlijke representatie voor het creëren van krachtigere AI die mensen kan spreken, horen, zien en begrijpen. We geloven dat XYZ-code ons in staat stelt om onze langetermijnvisie te vervullen: cross-domain transfer learning, spanningsmodaliteiten en talen. Het doel is om vooraf getrainde modellen te hebben die gezamenlijk weergaven kunnen leren om een breed scala aan downstream AI-taken te ondersteunen, veel op de manier waarop mensen tegenwoordig doen. In de afgelopen vijf jaar bereiken we menselijke prestaties op het gebied van gespreksspraakherkenning, machinevertaling, gespreksvragen beantwoorden, begrip van machinelezen en beeld onderschrift ing. Deze vijf doorbraaken gaven ons sterke signalen voor onze ambitieuzere ambitie om een sprong in AI-mogelijkheden te produceren, waardoor multisensorische en meertalige leermogelijkheden worden bereikt die dichter bij de wijze waarop mensen leren en begrijpen. Ik geloof dat de gezamenlijke XYZ-code een fundamenteel onderdeel van deze ambitie is, indien geaard met externe kennisbronnen in de downstream AI-taken."

De documentsamenvattings-API-aanvraag wordt verwerkt na ontvangst van de aanvraag door een taak voor de API-back-end te maken. Als de taak is geslaagd, wordt de uitvoer van de API geretourneerd. De uitvoer is 24 uur beschikbaar voor ophalen. Na deze tijd wordt de uitvoer leeggemaakt. Vanwege meertalige ondersteuning voor emoji's kan het antwoord tekstverschuivingen bevatten. Zie voor meer informatie hoe u offsets verwerkt.

Als we het bovenstaande voorbeeld gebruiken, kan de API deze samengevatte zinnen retourneren:

Extraheersende samenvatting:

  • "Bij Microsoft zijn we op een zoektocht om AI verder te zetten dan bestaande technieken, door een meer holistische, mensgerichte benadering van leren en begrijpen te nemen."
  • "We geloven dat XYZ-code ons in staat stelt om onze langetermijnvisie te vervullen: cross-domain transfer learning, spanningsmodaliteiten en talen."
  • "Het doel is om vooraf getrainde modellen te hebben die gezamenlijk weergaven kunnen leren om een breed scala aan downstream AI-taken te ondersteunen, veel op de manier waarop mensen vandaag de dag doen."

Abstractieve samenvatting:

  • "Microsoft maakt gebruik van een meer holistische, mensgerichte benadering van leren en begrijpen. We geloven dat XYZ-code ons in staat stelt om onze langetermijnvisie te vervullen: cross-domain transfer learning, spanningsmodaliteiten en talen. De afgelopen vijf jaar bereikten we menselijke prestaties op benchmarks in gespreksspraakherkenning."

Aan de slag met samenvatting

Als u samenvatting wilt gebruiken, dient u deze in voor analyse en verwerkt u de API-uitvoer in uw toepassing. Analyse wordt uitgevoerd als zodanig, zonder dat er aanpassingen zijn toegevoegd aan het model dat op uw gegevens wordt gebruikt. Er zijn twee manieren om samenvatting te gebruiken:

Ontwikkelingsoptie Beschrijving
Taalstudio Language Studio is een webplatform waarmee u entiteitskoppelingen kunt proberen met tekstvoorbeelden zonder een Azure-account en uw eigen gegevens wanneer u zich aanmeldt. Zie de quickstart voor Language Studio of Language Studio voor meer informatie.
REST API of clientbibliotheek (Azure SDK) Integreer documentsamenvatting in uw toepassingen met behulp van de REST API of de clientbibliotheek die beschikbaar is in verschillende talen. Zie de quickstart voor samenvattingen voor meer informatie.

Invoervereisten en servicelimieten

Referentiedocumentatie en codevoorbeelden

Als u documentsamenvatting in uw toepassingen gebruikt, raadpleegt u de volgende referentiedocumentatie en voorbeelden voor Azure AI Language:

Ontwikkelingsoptie/taal Referentiedocumentatie Voorbeelden
C# C#-documentatie C#-voorbeelden
Java Java-documentatie Java-voorbeelden
JavaScript Documentatie over JavaScript JavaScript-voorbeelden
Python Python-documentatie Python-voorbeelden

Verantwoorde AI

Een AI-systeem bevat niet alleen de technologie, maar ook de mensen die het gebruiken, de mensen die er last van hebben en de implementatieomgeving. Lees de transparantienotitie voor samenvatting voor meer informatie over verantwoord AI-gebruik en -implementatie in uw systemen. Raadpleeg voor meer informatie de volgende artikelen: