Der Skill „OCR“OCR cognitive skill

Mit der Qualifikation für die optische Zeichenerkennung (OCR) wird gedruckter und handschriftlicher Text in Bilddateien erkannt.Optical character recognition (OCR) skill recognizes printed and handwritten text in image files. Diese Qualifikation verwendet die durch Maschinelles Sehen in Cognitive Services bereitgestellten Machine Learning-Modelle.This skill uses the machine learning models provided by Computer Vision in Cognitive Services. Die Qualifikation OCR ist den folgenden Funktionen zugeordnet:The OCR skill maps to the following functionality:

  • Wenn „textExtractionAlgorithmus“ auf „handwritten“ festgelegt ist, wird die Funktion „RecognizeText“ verwendet.When textExtractionAlgorithm is set to "handwritten", the "RecognizeText" functionality is used.
  • Wenn „textExtractionAlgorithmus“ auf „printed“ festgelegt ist, wird die Funktion „OCR“ für andere Sprachen als Englisch verwendet.When textExtractionAlgorithm is set to "printed", the "OCR" functionality is used for languages other than English. Für Englisch wird die neue Funktion „Texterkennung“ für gedruckten Text verwendet.For English, the new "Recognize Text" functionality for printed text is used.

Der Skill OCR extrahiert Text aus Bilddateien.The OCR skill extracts text from image files. Folgende Dateiformate werden unterstützt:Supported file formats include:

  • .JPEG.JPEG
  • .JPG.JPG
  • .PNG.PNG
  • .BMP.BMP
  • .GIF.GIF
  • .TIFF.TIFF

Hinweis

Wenn Sie den Umfang erweitern, indem Sie die Verarbeitungsfrequenz erhöhen oder weitere Dokumente oder KI-Algorithmen hinzufügen, müssen Sie eine kostenpflichtige Cognitive Services-Ressource anfügen.As you expand scope by increasing the frequency of processing, adding more documents, or adding more AI algorithms, you will need to attach a billable Cognitive Services resource. Gebühren fallen beim Aufrufen von APIs in Cognitive Services sowie für die Bildextraktion im Rahmen der Dokumentaufschlüsselungsphase in Azure Search an.Charges accrue when calling APIs in Cognitive Services, and for image extraction as part of the document-cracking stage in Azure Search. Für die Textextraktion aus Dokumenten fallen keine Gebühren an.There are no charges for text extraction from documents.

Die Ausführung integrierter Qualifikationen wird nach dem bestehenden nutzungsbasierten Preis für Cognitive Services berechnet.Execution of built-in skills is charged at the existing Cognitive Services pay-as-you go price. Die Preise für die Bildextraktion werden auf der Preisseite von Azure Search beschrieben.Image extraction pricing is described on the Azure Search pricing page.

SkillparameterSkill parameters

Bei den Parametern wird zwischen Groß- und Kleinschreibung unterschieden.Parameters are case-sensitive.

ParameternameParameter name BESCHREIBUNGDescription
detectOrientationdetectOrientation Aktiviert die automatische Erkennung der Bildausrichtung.Enables autodetection of image orientation.
Gültige Werte: „true“ und „false“Valid values: true / false.
defaultLanguageCodedefaultLanguageCode

Sprachcode des Eingabetexts.Language code of the input text. Unterstützte Sprachen:Supported languages include:
zh-Hans (Vereinfachtes Chinesisch)zh-Hans (ChineseSimplified)
zh-Hant (Traditionelles Chinesisch)zh-Hant (ChineseTraditional)
cs (Tschechisch)cs (Czech)
da (Dänisch)da (Danish)
nl (Niederländisch)nl (Dutch)
en (Englisch)en (English)
fi (Finnisch)fi (Finnish)
fr (Französisch)fr (French)
de (Deutsch)de (German)
el (Griechisch)el (Greek)
hu (Ungarisch)hu (Hungarian)
it (Italienisch)it (Italian)
ja (Japanisch)ja (Japanese)
ko (Koreanisch)ko (Korean)
nb (Norwegisch)nb (Norwegian)
pl (Polnisch)pl (Polish)
pt (Portugiesisch)pt (Portuguese)
ru (Russisch)ru (Russian)
es (Spanisch)es (Spanish)
sv (Schwedisch)sv (Swedish)
tr (Türkisch)tr (Turkish)
ar (Arabisch)ar (Arabic)
ro (Rumänisch)ro (Romanian)
sr-Cyrl (Serbisch, kyrillisch)sr-Cyrl (SerbianCyrillic)
sr-Latn (Serbisch, lateinisch)sr-Latn (SerbianLatin)
sk (Slowakisch)sk (Slovak).
unk (Unbekannt)unk (Unknown)

Wenn der Sprachcode nicht angegeben oder Null ist, wird als Sprache automatisch Englisch festgelegt.If the language code is unspecified or null, the language will be set to English. Wenn die Sprache explizit auf „unk“ festgelegt ist, wird die Sprache automatisch erkannt.If the language is explicitly set to "unk", the language will be auto-detected.

textExtractionAlgorithmtextExtractionAlgorithm „printed“ (gedruckt) oder „handwritten“ (handgeschrieben)"printed" or "handwritten". Der OCR-Algorithmus für die Erkennung von „handgeschriebenem“ Text befindet sich derzeit in der Vorschau und ist nur in englischer Sprache verfügbar.The "handwritten" text recognition OCR algorithm is currently in preview and only supported in English.
lineEndinglineEnding Der Wert, der zwischen jeder erkannten Zeile verwendet werden soll.The value to use between each detected line. Mögliche Werte: 'Space','CarriageReturn','LineFeed'.Possible values: 'Space','CarriageReturn','LineFeed'. Der Standardwert ist 'Space'.The default is 'Space'

SkilleingabenSkill inputs

EingabenameInput name BESCHREIBUNGDescription
imageimage Komplexer Typ.Complex Type. Arbeitet derzeit mit dem Feld „/document/normalized_images“, das vom Azure Blob-Indexer generiert wird, wenn imageAction auf einen anderen Wert als none gesetzt ist.Currently only works with "/document/normalized_images" field, produced by the Azure Blob indexer when imageAction is set to a value other than none. Weitere Informationen finden Sie im Beispiel.See the sample for more information.

SkillausgabenSkill outputs

AusgabenameOutput name BESCHREIBUNGDescription
texttext Aus dem Bild extrahierter Nur-Text-Inhalt.Plain text extracted from the image.
layoutTextlayoutText Komplexer Typ, der den extrahierten Text und die Fundstelle beschreibt.Complex type that describes the extracted text and the location where the text was found.

BeispieldefinitionSample definition

{
  "skills": [
    {
      "description": "Extracts text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": null,
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text",
          "targetName": "myText"
        },
        {
          "name": "layoutText",
          "targetName": "myLayoutText"
        }
      ]
    }
  ]
}

Beispieltext und „layoutText“-AusgabeSample text and layoutText output

{
  "text": "Hello World. -John",
  "layoutText":
  {
    "language" : "en",
    "text" : "Hello World. -John",
    "lines" : [
      {
        "boundingBox":
        [ {"x":10, "y":10}, {"x":50, "y":10}, {"x":50, "y":30},{"x":10, "y":30}],
        "text":"Hello World."
      },
      {
        "boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
        "text":"-John"
      }
    ],
    "words": [
      {
        "boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
        "text":"Hello"
      },
      {
        "boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
        "text":"World."
      },
      {
        "boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
        "text":"-John"
      }
    ]
  }
}

Beispiel: Text, der aus eingebetteten Bildern extrahiert wurde, wird mit dem Inhalt des Dokuments zusammengeführt.Sample: Merging text extracted from embedded images with the content of the document.

Ein häufiger Anwendungsfall für die Textzusammenführung ist die Möglichkeit, die Textdarstellung von Bildern (Text aus einem OCR-Skill oder der Titel eines Bildes) in das Inhaltsfeld eines Dokuments einzubinden.A common use case for Text Merger is the ability to merge the textual representation of images (text from an OCR skill, or the caption of an image) into the content field of a document.

Mit der folgenden Beispielqualifikationsgruppe wird das Feld mit der Bezeichnung merged_text erstellt.The following example skillset creates a merged_text field. Dieses Feld enthält den Textinhalt des Dokuments und den per OCR erkannten Text aus den einzelnen im Dokument eingebetteten Bildern.This field contains the textual content of your document and the OCRed text from each of the images embedded in that document.

Syntax des AnforderungstextsRequest Body Syntax

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", "source": "/document/content"
        },
        {
          "name": "itemsToInsert", "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", "source": "/document/normalized_images/*/contentOffset"
        }
      ],
      "outputs": [
        {
          "name": "mergedText", "targetName" : "merged_text"
        }
      ]
    }
  ]
}

Im oben gezeigten Beispiel für das Skillset wird davon ausgegangen, dass ein Feld mit normalisierten Bildern vorhanden ist.The above skillset example assumes that a normalized-images field exists. Um ein Feld zu erhalten, legen Sie die Konfiguration imageAction in Ihrer Indexerdefinition auf generateNormalizedImages fest, wie unten gezeigt:To generate this field, set the imageAction configuration in your indexer definition to generateNormalizedImages as shown below:

{
  //...rest of your indexer definition goes here ...
  "parameters": {
    "configuration": {
      "dataToExtract":"contentAndMetadata",
      "imageAction":"generateNormalizedImages"
    }
  }
}

Weitere InformationenSee also