Overzicht van documentbegrip in Microsoft SharePoint Syntex



Bij documentbegrip wordt gebruikgemaakt van modellen voor kunstmatige intelligentie (AI) om de classificatie van bestanden en extractie van informatie te automatiseren. Dit werkt het beste met ongestructureerde documenten zoals brieven of contracten. Deze documenten moeten tekst bevatten die kan worden geïdentificeerd op basis van frasen of patronen. De geïdentificeerde tekst duidt aan wat het bestandstype is (de classificatie) en wat u eruit wilt halen (de extractoren).

Notitie

Zie Ingebruikname van SharePoint Syntex: introductiehandleiding voor meer informatie over scenariovoorbeelden voor documentbegrip.

Documentbegripmodellen worden gemaakt en beheerd in een type SharePoint-site, genaamd een inhoudscentrum. Wanneer het model wordt toegepast op een SharePoint-documentbibliotheek, wordt het gekoppeld aan een inhoudstype dat kolommen bevat waarin de geëxtraheerde informatie wordt opgeslagen. De inhoud die u maakt, wordt opgeslagen in de SharePoint-inhoudstypegalerie. U kunt er ook voor kiezen om het schema van bestaande inhoudstypen te gebruiken.

Notitie

Alleen-lezen- of verzegelde inhoudstypen kunnen niet worden bijgewerkt, dus kunnen ze niet worden gebruikt in een model.

Voeg classificaties en extractoren toe aan uw documentkennismodellen om de volgende acties uit te voeren:

  • Classificaties worden gebruikt om documenten die worden geüpload naar de documentbibliotheek te identificeren en classificeren. Een classificatie kan bijvoorbeeld worden ‘getraind’ om alle documenten met contractverlengingen te identificeren die naar de bibliotheek worden geüpload. Het inhoudstype contractverlenging wordt door u gedefinieerd wanneer u de classificatie maakt.

  • Extractoren halen informatie uit deze documenten. Voor elk contractvernieuwingsdocument dat is geïdentificeerd in uw documentbibliotheek worden bijvoorbeeld kolommen weergegeven met de begindatum en client van de service voor elk document.

U kunt voorbeeldbestanden gebruiken om de classificaties en extractoren in uw model te trainen en te testen. Voorbeeldbestanden voorzien uw model van voorbeelden van waar ze naar moeten zoeken bij het identificeren en extraheren van gegevens uit bestanden. U kunt bijvoorbeeld uw contractverlengingsclassificaties en -extractoren trainen met voorbeelden van contractverlengingsdocumenten waar uw bedrijf mee werkt. U kunt voorbeeldbestanden ook gebruiken om de effectiviteit van uw model te testen.

Nadat u uw model hebt gepubliceerd, gebruikt u het inhoudscentrum om het toe te passen op een SharePoint-documentbibliotheek waartoe u toegang hebt.

Bestandbeperkingen

Documentverkenningsmodellen gebruiken OCR-technologie (Optical Character Recognition) om PDF-bestanden, afbeeldingen en TIFF-bestanden te scannen. Bestanden worden gescand wanneer u een model traint met voorbeeldbestanden en wanneer u het model uit te voeren op bestanden in een documentbibliotheek.

Houd rekening met de volgende verschillen Microsoft Office tekstbestanden en OCR-gescande bestanden (PDF, afbeelding of TIFF):

  • Office-bestanden: afgekapt op 64.000 tekens (tijdens training en wanneer uitgevoerd voor bestanden in een documentbibliotheek).

  • OCR-gescande bestanden: er geldt een limiet van 20 pagina's.

Vereisten

OCR-verwerking werkt het beste met documenten die aan de volgende vereisten voldoen:

  • JPG-, PNG- of PDF-indeling (tekst of gescand) PDF-bestanden met ingesloten tekst werken beter omdat er geen fouten optreden voor tekenextractie en -locatie.

  • Als uw PDF-bestanden met een wachtwoord zijn vergrendeld, moet u de vergrendeling verwijderen voordat u ze indient.

  • De gecombineerde bestandsgrootte van de documenten die u gebruikt voor training per collectie, mag niet groter zijn dan 50 MB en PDF-documenten mogen maximaal 500 pagina's bevatten.

  • De afmetingen van afbeeldingen moeten tussen 50 x 50 en 10000 x 10000 pixels liggen.

    Notitie

    Afbeeldingen die erg breed zijn of bijzondere afmetingen hebben (bijvoorbeeld bouwtekeningen), worden mogelijk afgekapt tijdens het OCR-proces en worden mogelijk minder nauwkeurig.

  • PDF-bestanden moeten maximaal 17 x 17 inch groot zijn, wat overeenkomt met de papierformaten Legal of A3 en kleiner.

  • Scans op basis van papieren documenten moeten afbeeldingen van hoge kwaliteit zijn.

  • Het Latijnse alfabet moeten worden gebruikt (Engelse tekens).

Notitie

De volgende typen formuliergegevens worden momenteel niet ondersteund in AI Builder:
- Selectievakken of keuzerondjes
- Handtekeningen
- Invulbare PDF-bestanden

Ondersteunde bestandstypen

Documentbegripmodellen ondersteunen de volgende typen:

  • doc
  • docx
  • eml
  • heic
  • heif
  • htm
  • html
  • jpeg
  • jpg
  • markdown
  • md
  • msg
  • pdf
  • png
  • ppt
  • pptx
  • rtf
  • tif
  • tiff
  • txt
  • xls
  • xlsx

Zie ook

Een classificatie maken

Een extractor maken

Een inhoudscentrum maken

Een formulierverwerkingsmodel maken

Een model toepassen

Het verschil tussen een documentbegripmodel en een formulierverwerkingsmodel

Overzicht formulierverwerking

SharePoint Syntex toegankheidsmodus