Belge Ayıklama bilişsel becerisi

Makale
10/26/2023

Belge Ayıklama becerisi, zenginleştirme işlem hattı içindeki bir dosyadan içerik ayıklar. Bu, diğer beceriler tarafından oluşturulabilecek dosyalarla beceri kümesi yürütmeden önce normalde gerçekleşen belge ayıklama adımından yararlanmanızı sağlar.

Dekont

Bu beceri Azure yapay zeka hizmetlerine bağlı değildir ve Azure yapay zeka hizmetleri temel gereksinimi yoktur. Bu beceri metin ve görüntüleri ayıklar. Metin ayıklama ücretsizdir. Görüntü ayıklama, Azure AI Search tarafından ölçülür. Ücretsiz arama hizmetinde, hızlı başlangıçları, öğreticileri ve küçük projeleri ücretsiz olarak tamamlayabilmeniz için günlük dizin oluşturucu başına 20 işlem maliyeti alınır. Temel, Standart ve üzeri için görüntü ayıklama faturalanabilir.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Desteklenen belge biçimleri

DocumentExtractionSkill aşağıdaki belge biçimlerinden metin ayıklayabilir:

CSV (bkz. CSV bloblarının dizinini oluşturma)
EML
EPUB
GZ
HTML
JSON (bkz. JSON bloblarını dizinleme)
KML (coğrafi gösterimler için XML)
Microsoft Office biçimleri: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook e-postaları), XML (hem 2003 hem de 2006 WORD XML)
Belge biçimlerini açma: ODT, ODS, ODP
PDF
Düz metin dosyaları (ayrıca bkz. Düz metin dizini oluşturma)
RTF
XML
ZIP

Beceri parametreleri

Parametreler büyük/küçük harfe duyarlıdır.

Girişler İzin Verilen Değerler Tanım

Girişler	İzin Verilen Değerler	Tanım
`parsingMode`	`default` `text` `json`	`default` Saf metin veya json olmayan dosyalardan belge ayıklama için olarak ayarlayın. İşaretlemeyi içeren kaynak dosyalar (PDF, HTML, RTF ve Microsoft Office dosyaları gibi) için varsayılanı kullanarak yalnızca metni ayıklayın, herhangi bir işaretleme dili veya etiketi çıkarın. Açıkça tanımlanmadıysa `parsingMode` , olarak ayarlanır `default`. `text` Kaynak dosyaların TXT olup olmadığını olarak ayarlayın. Bu ayrıştırma modu düz metin dosyalarındaki performansı artırır. Dosyalar işaretleme içerirse, bu mod son çıktıdaki etiketleri korur. `json` JSON dosyalarından yapılandırılmış içeriği ayıklamak için olarak ayarlayın.
`dataToExtract`	`contentAndMetadata` `allMetadata`	`contentAndMetadata` Her dosyadan tüm meta verileri ve metin içeriğini ayıklamak için olarak ayarlayın. Açıkça tanımlanmadıysa `dataToExtract` , olarak ayarlanır `contentAndMetadata`. yalnızca içerik türünün meta veri özelliklerini ayıklamak `allMetadata`için olarak ayarlayın (örneğin, yalnızca .png dosyalarına özgü meta veriler).
`configuration`	Aşağıya bakın.	Belge ayıklama işleminin nasıl gerçekleştirildiğini ayarlayan isteğe bağlı parametrelerden oluşan bir sözlük. Desteklenen yapılandırma özelliklerinin açıklamaları için aşağıdaki tabloya bakın.

parsingMode

default
text
json

default Saf metin veya json olmayan dosyalardan belge ayıklama için olarak ayarlayın. İşaretlemeyi içeren kaynak dosyalar (PDF, HTML, RTF ve Microsoft Office dosyaları gibi) için varsayılanı kullanarak yalnızca metni ayıklayın, herhangi bir işaretleme dili veya etiketi çıkarın. Açıkça tanımlanmadıysa parsingMode , olarak ayarlanır default.

text Kaynak dosyaların TXT olup olmadığını olarak ayarlayın. Bu ayrıştırma modu düz metin dosyalarındaki performansı artırır. Dosyalar işaretleme içerirse, bu mod son çıktıdaki etiketleri korur.

json JSON dosyalarından yapılandırılmış içeriği ayıklamak için olarak ayarlayın.

dataToExtract

contentAndMetadata
allMetadata

contentAndMetadata Her dosyadan tüm meta verileri ve metin içeriğini ayıklamak için olarak ayarlayın. Açıkça tanımlanmadıysa dataToExtract , olarak ayarlanır contentAndMetadata.

yalnızca içerik türünün meta veri özelliklerini ayıklamak allMetadataiçin olarak ayarlayın (örneğin, yalnızca .png dosyalarına özgü meta veriler).

configuration Aşağıya bakın. Belge ayıklama işleminin nasıl gerçekleştirildiğini ayarlayan isteğe bağlı parametrelerden oluşan bir sözlük. Desteklenen yapılandırma özelliklerinin açıklamaları için aşağıdaki tabloya bakın.

Yapılandırma Parametresi İzin Verilen Değerler Tanım

Yapılandırma Parametresi	İzin Verilen Değerler	Tanım
`imageAction`	`none` `generateNormalizedImages` `generateNormalizedImagePerPage`	`none` Veri kümesindeki ekli görüntüleri veya görüntü dosyalarını yoksaymak için veya kaynak veriler görüntü dosyalarını içermiyorsa olarak ayarlayın. Bu varsayılan seçenektir. OCR ve görüntü analizi için`generateNormalizedImages`, becerinin belge kırılma işleminin bir parçası olarak normalleştirilmiş görüntüler dizisi oluşturmasını sağlamak üzere ayarlayın. Bu eylem, olarak `parsingMode` ve olarak `defaultdataToExtract` ayarlanmasını `contentAndMetadata`gerektirir. Normalleştirilmiş görüntü, görsel arama sonuçlarına görüntü eklediğinizde tutarlı işlemeyi teşvik etmek için boyutlandırılmış ve döndürülmüş tekdüzen görüntü çıkışıyla sonuçlanan ek işlemeyi ifade eder (örneğin, JFK tanıtımında görüldüğü gibi grafik denetiminde aynı boyutlu fotoğraflar). Bu seçenek kullanıldığında her görüntü için bu bilgiler oluşturulur. olarak `generateNormalizedImagePerPage`ayarlarsanız, PDF dosyaları ekli görüntüleri ayıklamak yerine farklı şekilde işlenir, her sayfa bir görüntü olarak işlenir ve buna göre normalleştirilir. PDF olmayan dosya türleri, ayarlanmış gibi `generateNormalizedImages` değerlendirilir.
`normalizedImageMaxWidth`	50-10000 arasındaki herhangi bir tamsayı	Oluşturulan normalleştirilmiş görüntüler için maksimum genişlik (piksel cinsinden). Varsayılan değer 2000’dir.
`normalizedImageMaxHeight`	50-10000 arasındaki herhangi bir tamsayı	Oluşturulan normalleştirilmiş görüntüler için maksimum yükseklik (piksel cinsinden). Varsayılan değer 2000’dir.

imageAction

none
generateNormalizedImages
generateNormalizedImagePerPage

none Veri kümesindeki ekli görüntüleri veya görüntü dosyalarını yoksaymak için veya kaynak veriler görüntü dosyalarını içermiyorsa olarak ayarlayın. Bu varsayılan seçenektir.

OCR ve görüntü analizi içingenerateNormalizedImages, becerinin belge kırılma işleminin bir parçası olarak normalleştirilmiş görüntüler dizisi oluşturmasını sağlamak üzere ayarlayın. Bu eylem, olarak parsingMode ve olarak defaultdataToExtract ayarlanmasını contentAndMetadatagerektirir. Normalleştirilmiş görüntü, görsel arama sonuçlarına görüntü eklediğinizde tutarlı işlemeyi teşvik etmek için boyutlandırılmış ve döndürülmüş tekdüzen görüntü çıkışıyla sonuçlanan ek işlemeyi ifade eder (örneğin, JFK tanıtımında görüldüğü gibi grafik denetiminde aynı boyutlu fotoğraflar). Bu seçenek kullanıldığında her görüntü için bu bilgiler oluşturulur.

olarak generateNormalizedImagePerPageayarlarsanız, PDF dosyaları ekli görüntüleri ayıklamak yerine farklı şekilde işlenir, her sayfa bir görüntü olarak işlenir ve buna göre normalleştirilir. PDF olmayan dosya türleri, ayarlanmış gibi generateNormalizedImages değerlendirilir.

normalizedImageMaxWidth 50-10000 arasındaki herhangi bir tamsayı Oluşturulan normalleştirilmiş görüntüler için maksimum genişlik (piksel cinsinden). Varsayılan değer 2000’dir.

normalizedImageMaxHeight 50-10000 arasındaki herhangi bir tamsayı Oluşturulan normalleştirilmiş görüntüler için maksimum yükseklik (piksel cinsinden). Varsayılan değer 2000’dir.

Dekont

Normalleştirilmiş görüntüler için maksimum genişlik ve yükseklik için varsayılan 2000 piksel, OCR becerisi ve görüntü analizi becerisi tarafından desteklenen maksimum boyutlara bağlıdır. OCR becerisi, İngilizce olmayan diller için maksimum genişlik ve yükseklik 4200'i, İngilizce için 10000'i destekler. Maksimum sınırları artırırsanız, beceri kümesi tanımınıza ve belgelerin diline bağlı olarak daha büyük görüntülerde işleme başarısız olabilir.

Beceri girişleri

Giriş adı	Tanım
`file_data`	İçeriğin ayıklanması gereken dosya.

"file_data" girişi şu şekilde tanımlanan bir nesne olmalıdır:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Alternatif olarak, şu şekilde tanımlanabilir:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Dosya başvuru nesnesi üç yoldan biri oluşturulabilir:

Dizin oluşturucu tanımınızdaki parametreyi allowSkillsetToReadFileData "true" olarak ayarlama. Bu, blob veri kaynağınızdan indirilen özgün dosya verilerini temsil eden bir nesne olan bir yol /document/file_data oluşturur. Bu parametre yalnızca Blob depolamadaki dosyalar için geçerlidir.
Dizin oluşturucu tanımınızdaki parametresini imageAction dışında nonebir değere ayarlama. Bu, tek tek geçirilirse (yani /document/normalized_images/*), bu beceriye giriş için gerekli kuralı izleyen bir görüntü dizisi oluşturur.
Özel beceriye sahip olmak, yukarıda olduğu gibi TAM olarak tanımlanmış bir json nesnesi döndürür. $type parametresi tam olarak file ayarlanmalıdır ve data parametre, dosya içeriğinin temel 64 kodlanmış bayt dizisi verileri olmalıdır veya url parametre, dosyayı bu konumda indirmek için erişimi olan doğru biçimlendirilmiş bir URL olmalıdır.

Beceri çıkışları

Çıkış adı	Tanım
`content`	Belgenin metin içeriği.
`normalized_images`	`imageAction` değeri dışında `none`bir değere ayarlandığında, yeni normalized_images alanı bir görüntü dizisi içerir. Çıkış biçimi hakkında daha fazla ayrıntı için bkz . Resimlerden metin ve bilgi ayıklama.

Örnek tanım

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Örnek girdi

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Örnek çıktı

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}