Maak een Extractor in Microsoft SharePoint Syntex.



Vóór of na het maken van een classificatiemodel voor het automatiseren van de identificatie en classificatie van specifieke documenttypen, kun je desgewenst extra uittreksels toevoegen aan je model om specifieke informatie uit deze documenten te halen. U wilt bijvoorbeeld dat uw model niet alleen alle Contractverlengingsdocumenten identificeert die zijn toegevoegd aan uw documentbibliotheek, maar ook dat de servicestartdatum voor elk document wordt weergegeven als kolomwaarde in de documentbibliotheek.

Je moet een extractor maken voor elke entiteit in het document die je wilt ophalen. In ons voorbeeld willen we de  begindatum van de service extraheren voor elke  contractvernieuwing -document dat door het model wordt geïdentificeerd. We willen een weergave kunnen zien in de documentbibliotheek van alle  contract documenten, met een kolom waarin de begindatum van de service van elk document wordt weergegeven.

Notitie

Als u een extractor wilt maken, gebruikt u dezelfde bestanden die u eerder hebt geüpload om de classificatie te trainen.

Een naam voor de Extractor geven

  1. Klik op de startpagina van het model op Train Extractor in de tegel Extractor maken en trainen.

  2. Typ in het scherm New entiteit Extractor de naam van je extractor in het veld Nieuwe extractorname. Als je bijvoorbeeld de begindatum van de service wilt wijzigen als je de begindatum van de service wilt ophalen uit elk document voor het verlengen van een contract. Je kunt er ook voor kiezen om een eerder gemaakte kolom opnieuw te gebruiken (bijvoorbeeld een kolom met beheerde metagegevens).

    Notitie

    Voor extractoren met het kolomtype Eén regel tekst is de maximumtekenlimiet 255. Alle tekens die de limiet overschrijden worden afgebroken.

  3. Klik op Maken wanneer je klaar bent.

Een label toevoegen

De volgende stap bestaat uit het label van de entiteit die je wilt ophalen in de voorbeeldbestanden van de training.

Als u de extractor maakt, wordt de extractorpagina geopend. Hier ziet u een lijst met uw voorbeeldbestanden, waarbij het eerste bestand in de lijst wordt weergegeven in de viewer.

  1. Selecteer in de viewer de gegevens die je wilt ophalen uit de bestanden. Als je bijvoorbeeld de begindatum van service wilt ophalen, markeer je de datumwaarde in het eerste bestand (maandag, 14 oktober 2019). en klik dan op Opslaan. De weergave van de waarde wordt weergegeven in het bestand in de lijst voorbeelden met een bijschrift onder de labelkolom.

  2. Selecteer Volgende bestand om automatisch op te slaan en het volgende bestand te openen in de lijst in de viewer. Of selecteer Opslaan en selecteer een ander bestand van de lijst Gelabelde voorbeelden.

  3. Herhaal stap 1 en 2 in de viewer en herhaal dit totdat je het label in alle vijf bestanden hebt opgeslagen.

    Geavanceerde instellingen.

Wanneer je vijf bestanden hebt voorzien van een label, wordt een melding weergegeven met de mededeling dat je wilt overstappen op de training. Je kunt ervoor kiezen om meer documenten beter te labelen of verder te gaan met de training.

Zoeken gebruiken om in je bestand te zoeken

Je kunt de functie Zoeken gebruiken om te zoeken naar een entiteit in je document, dat je van een label wilt voorzien.

Zoeken in bestand.

De functie Zoeken is handig als je in een groot document zoekt of als het document meerdere exemplaren van de entiteit bevat. Als je meerdere exemplaren hebt gevonden, kun je in de zoekresultaten het exemplaar selecteren dat je nodig hebt om naar die locatie in de viewer te gaan en dat exemplaar van een label te voorzien.

Voeg een uitleg toe

In ons voorbeeld gaan we een uitleg maken die een hint biedt over de entiteitsindeling zelf en variaties die deze in de voorbeelddocumenten kan hebben. Een datum kan bijvoorbeeld worden weergegeven in een aantal verschillende notaties:

  • 10/14/2019
  • 14 oktober 2019
  • Maandag 14 oktober 2019

Als je de begindatum van de service wilt identificeren kun je een uitleg bij het patroon maken.

  1. In de sectie uitleg selecteer je Nieuw en type een naam (bijvoorbeeld, Leeg).
  2. Selecteer bij type Patroonlijst.
  3. Geef bij waarde de datumvariant op zoals deze wordt weergegeven in de voorbeeldbestanden. Als je bijvoorbeeld datumnotaties hebt die worden weergegeven als 0/00/0000, geef je de variaties op die worden weergegeven in je documenten, zoals:
    • 0/0/0000
    • 0/00/0000
    • 00/0/0000
    • 00/00/0000
  4. Kies Opslaan.

Notitie

Zie Uitlegtypenvoor meer informatie over uitlegtypen.

De Uitlegbibliotheek gebruiken

Voor het maken van toelichtingen voor items als datums, is het eenvoudiger om de uitlegbibliotheek te gebruiken dan om alle variaties handmatig in te voeren. De uitlegbibliotheek is een set vooraf gedefinieerde frasen en patroonverklaringen. De bibliotheek biedt alle indelingen voor veelgebruikte woordenlijsten of patroonlijsten, zoals datums, telefoonnummers en postcodes.

Voor het voorbeeld Begindatum van de service is het efficiënter om de vooraf gedefinieerde uitleg voor Datum te gebruiken in de uitlegbibliotheek:

  1. In de Sectie uitleg selecteer je Nieuw en vervolgens Uit Uitlegbibliotheek.

  2. Uit de uitlegbibliotheek, selecteer Datum. Je kunt alle datumvariaties weergeven die worden herkend.

  3. Kies Toevoegen.

    Uitlegbibliotheek.

  4. Op de pagina een uitleg maken wordt de Datum informatie uit de uitlegbibliotheek automatisch ingevuld op de velden. Kies Opslaan.

    Datum.

Het model trainen

Je uitleg start de training opslaan. Als je model voldoende gegevens heeft om de gegevens uit de voorbeeldbestanden met een label te halen, zie je elk bestand dat is gemarkeerd met Overeenkomst.

Overeenkomst.

Als er niet voldoende informatie is om de gegevens te vinden die je wilt ophalen, krijgt elk bestand de aanduiding Komt niet overeen. Je kunt klikken op de Bestanden die niet overeenkomen, om meer informatie weer te geven over de reden waarom er geen overeenkomt was.

Nog een uitleg toevoegen

Vaak is de niet-overeenkomende informatie een indicatie dat de uitleg die we hebben gegeven niet voldoende informatie bevat om de begindatumwaarde van de service uit te pakken zodat deze overeenkomt met onze gelabelde bestanden. Mogelijk moet u deze bewerken of een andere uitleg toevoegen.

In ons voorbeeld ziet u dat de tekenreeks Begindatum van de service van altijd vóór de werkelijke waarde begint. Als je de begindatum van de service wilt identificeren moet je een uitleg bij de frase maken.

  1. In de sectie uitleg selecteer je Nieuw en type een naam (bijvoorbeeld, Voorvoegseltekenreeks).

  2. Voor het type selecteer je Woordenlijst.

  3. De Begindatum van de service van als waarde gebruiken.

  4. Kies Opslaan.

    Voorvoegseltekenreeks.

Het model nogmaals trainen

Door de uitleg op te slaan, wordt de training opnieuw gestart en deze keer worden met beide uitleggen in het voorbeeld gebruikt. Als je model voldoende gegevens heeft om de gegevens uit de voorbeeldbestanden met een label te halen, zie je elk bestand dat is gemarkeerd met Overeenkomst.

Als je opnieuw een Komt niet overeen op je gelabelde bestanden ontvangt, moet je waarschijnlijk nog een uitleg maken om het model meer informatie te geven om het documenttype te identificeren, of je kunt wijzigingen aanbrengen in je bestaande bestanden.

Test je model.

Als je een overeenkomst hebt gekregen met de gelabelde voorbeeldbestanden, kun je nu je model testen op de andere niet-gelabelde voorbeeldbestanden. Dit is een optionele, maar handige stap voor het evalueren van de "geschiktheid" of het voorbereiding van het model voordat dit wordt gebruikt, door het te testen op bestanden die het model nog niet heeft gezien.

  1. Op de startpagina van het model klik je op het tabblad Testen. Hiermee wordt het model uitgevoerd op de niet-gelabelde voorbeeldbestanden.

  2. In de lijst Testbestanden worden de voorbeeldbestanden weergegeven om aan te geven of de gegevens die je nodig hebt, door het model kunnen worden opgehaald. Gebruik deze informatie om de effectiviteit van je classificatie bij het identificeren van je documenten vast te stellen.

    Test op uw bestanden.

Zie ook

Een classificatie maken

Uitlegtypen

De taxonomie van een termenarchief benutten bij het maken van een extractor

Overzicht van documentbegrip

Een model toepassen

SharePoint Syntex toegankelijkheidsmodus