Übersicht über das Dokumentverständnis in Microsoft SharePoint Syntex



Das Dokumentverständnis-Feature verwendet KI-Modelle (künstliche Intelligenz), um die Klassifizierung von Dateien und das Extrahieren von Informationen zu automatisieren. Es eignet sich am besten für unstrukturierte Dokumente, z. B. Briefe oder Verträge. Diese Dokumente müssen Text enthalten, der anhand von Phrasen oder Mustern erkannt werden kann. Der erkannte Text bestimmt sowohl den Dateityp (seine Klassifizierung) als auch das, was extrahiert werden soll (die Extraktoren).

Hinweis

Weitere Informationen zu Beispielszenarien für das Dokumentverständnis finden Sie unter SharePoint Syntex – Leitfaden für die ersten Schritte.

Dokumentverständnismodelle werden auf einer Art von SharePoint-Site namens Inhaltscenter erstellt und verwaltet. Ein auf eine SharePoint-Dokumentbibliothek angewendetes Modell ist mit einem Inhaltstyp verknüpft und enthält Spalten zum Speichern der extrahierten Informationen. Der von Ihnen erstellte Inhaltstyp wird im SharePoint-Inhaltstypkatalog gespeichert. Sie können auch vorhandene Inhaltstypen verwenden, um deren Schema zu verwenden.

Hinweis

Schreibgeschützte oder versiegelte Inhaltstypen können nicht aktualisiert und somit nicht in einem Modell verwendet werden.

Fügen Sie Klassifizierungen und Extraktoren zu Ihren Dokumentverständnismodellen hinzu, um die folgenden Aktionen auszuführen:

  • Klassifizierungen werden verwendet, um Dokumente zu identifizieren und zu klassifizieren, die in die Dokumentbibliothek hochgeladen werden. So kann beispielsweise eine Klassifizierung "trainiert" werden, alle Vertragsverlängerungsdokumente zu erkennen, die in die Bibliothek hochgeladen werden. Der Inhaltstyp der Vertragsverlängerung wird von Ihnen bei der Erstellung der Klassifizierung definiert.

  • Extraktoren rufen Informationen aus diesen Dokumenten ab. For example, for each contract renewal document identified in your document library, columns will display that show the Service Start Date and Client for each document.

Sie können Beispieldateien verwenden, um Ihre Klassifizierungen und Extraktoren im Modell zu trainieren und zu testen. Beispieldateien liefern Ihrem Modell Beispiele für das, wonach gesucht werden soll, wenn nach zu extrahierenden Daten in Dateien gesucht wird. So würden Sie beispielsweise Ihre Klassifizierungen und Extraktoren für Vertragsverlängerungen mit Beispielen für Vertragsverlängerungsdokumente trainieren, die in Ihrem Unternehmen verwendet werden. Sie können Beispieldateien auch dazu verwenden, die Effektivität Ihres Modells zu testen.

Nach dessen Veröffentlichung können Sie das Modell über das Inhaltscenter auf eine beliebige SharePoint-Dokumentbibliothek anwenden, auf die Sie Zugriff haben.

Dateieinschränkungen

Dokumentverständnismodelle verwenden DIE OCR-Technologie (Optical Character Recognition), um PDFs, Bilder und TIFF-Dateien zu scannen. Dateien werden gescannt, wenn Sie ein Modell mit Beispieldateien trainieren und wenn Sie das Modell für Dateien in einer Dokumentbibliothek ausführen.

Beachten Sie die folgenden Unterschiede bei Microsoft Office textbasierten Und OCR-gescannten Dateien (PDF, Bild oder TIFF):

  • Office-Dateien: Bei einer Länge von 64K Zeichen abgeschnitten (beim Training und beim Ausführen mit Dateien einer Dokumentbibliothek)

  • Mit OCR gescannte Dateien: Es besteht Limit von 20 Seiten.

Anforderungen

Die OCR-Verarbeitung funktioniert am besten bei Dokumenten, die die folgenden Kriterien erfüllen:

  • JPG-, PNG- oder PDF-Format (Text oder Scan). PDF-Dateien mit eingebettetem Text eignen sich besser, da bei Zeichenextraktion und -position keine Fehler auftreten.

  • Wenn Ihre PDF-Dateien durch ein Kennwort gesperrt sind, müssen Sie die Sperre vor dem Senden entfernen.

  • Die kombinierte Dateigröße der für die Schulung verwendeten Dokumente pro Sammlung darf 50 MB nicht überschreiten, und PDF-Dokumente sollten nicht mehr als 500 Seiten haben.

  • Bei Bildern müssen Abmessungen zwischen 50 × 50 und 10.000 × 10.000 Pixel liegen.

    Hinweis

    Bilder, die sehr breit sind oder seltsame Abmessungen haben (z. B. Grundrisse), werden im OCR-Prozess möglicherweise abgeschnitten und verlieren an Genauigkeit.

  • Bei PDF-Dateien dürfen die Abmessungen höchstens 17 x 17 Zoll betragen, was der Papiergröße „Legal“ oder A3 und kleiner entspricht.

  • Wenn von Papierdokumenten gescannt wird, sollte es sich bei den Scans um Bilder mit hoher Auflösung handeln.

  • Das lateinische Alphabet (englische Zeichen) müssen verwendet werden.

Hinweis

Der KI-Generator unterstützt derzeit die folgenden Arten von Eingabedaten für die Formularverarbeitung nicht:
– Kontrollkästchen oder Optionsfelder
– Signaturen
– Ausfüllbare PDF-Dateien

Unterstützte Dateitypen

Dokumentverständnismodelle unterstützen die folgenden Dateitypen:

  • DOC
  • DOCX
  • EML
  • HEIC
  • HEIF
  • HTM
  • HTML
  • JPEG
  • JPG
  • MARKDOWN
  • MD
  • MSG
  • PDF
  • PNG
  • PPT
  • PPTX
  • RTF
  • TIF
  • TIFF
  • TXT
  • XLS
  • XLSX

Siehe auch

Erstellen einer Klassifizierung

Erstellen eines Extraktors

Erstellen eines Inhaltscenters

Erstellen eines Formularverarbeitungsmodells

Anwenden eines Modells

Unterschied zwischen Dokumentverständnis- und Formularverarbeitungsmodellen

Übersicht über die Formularverarbeitung

Barrierefreiheitsmodus für SharePoint Syntex