Avro formátum Azure Data Factory és Synapse Analytics

A KÖVETKEZŐKRE VONATKOZIK: Azure Data Factory Azure Synapse Analytics

Akkor kövesse ezt a cikket, ha Avro-fájlokat szeretne elemezni, vagy Avro formátumba szeretné írni az adatokat.

Az Avro formátum a következő összekötőkhöz támogatott: Amazon S3,Amazon S3 Compatible Storage,Azure Blob,Azure Data Lake Storage Gen1,Azure Data Lake Storage Gen2, Azure Files, fájlrendszer,FTP, Google Cloud Storage,HDFS,HTTP, Oracle Cloud Storage és SFTP.

Adatkészlet tulajdonságai

Az adatkészletek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az Adatkészletek cikkben olvashatja el. Ez a szakasz az Avro-adatkészlet által támogatott tulajdonságok listáját tartalmazza.

Tulajdonság Leírás Kötelező
típus Az adatkészlet type (típus) tulajdonságát Avro (Avro) beállításra kell állítani. Igen
location A fájl(nak) helybeállítása. Minden fájlalapú összekötő saját helytípussal és támogatott tulajdonságokkal rendelkezik a location alatt. Részleteket az összekötővel kapcsolatos cikkben talál – Adatkészlet tulajdonságai szakasz. Igen
avroCompressionCodec Az Avro-fájlokba való íráshoz használt tömörítési kodek. Avro-fájlokból olvasva a szolgáltatás automatikusan meghatározza a tömörítési kodeket a fájl metaadatai alapján.
A támogatott típusok a "none" (default), "deflate", "snappy". Vegye figyelembe, Copy tevékenység Avro-fájlok írása/olvasása jelenleg nem támogatja a Snappyt.
Nem

Megjegyzés

Az oszlopnévben lévő térköz nem támogatott az Avro-fájlokban.

Az alábbiakban egy azure blobtárolóN található Avro-adatkészletre Storage:

{
  "name": "AvroDataset",
  "properties": {
    "type": "Avro",
    "linkedServiceName": {
      "referenceName": "<Azure Blob Storage linked service name>",
      "type": "LinkedServiceReference"
    },
    "schema": [ < physical schema, optional, retrievable during authoring > ],
    "typeProperties": {
      "location": {
        "type": "AzureBlobStorageLocation",
        "container": "containername",
        "folderPath": "folder/subfolder",
      },
      "avroCompressionCodec": "snappy"
    }
  }
}

Másolási tevékenység tulajdonságai

A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Pipelines (Folyamatok) cikkben olvashatja el. Ez a szakasz az Avro-forrás és -fogadó által támogatott tulajdonságok listáját tartalmazza.

Az Avro mint forrás

A másolási tevékenység *forrás* szakaszában az alábbi tulajdonságok támogatottak.

Tulajdonság Leírás Kötelező
típus A másolási tevékenység forrásának type (típus) tulajdonságát AvroSource (AvroSource) értékre kell állítani. Igen
storeSettings Tulajdonságok csoportja arra, hogyan lehet adatokat beolvasni egy adattárból. Minden fájlalapú összekötő saját támogatott olvasási beállításokkal rendelkezik a storeSettings alatt. Részleteket az összekötővel kapcsolatos cikkben talál – Copy tevékenység tulajdonságok szakaszt. Nem

Avro mint fogadó

A másolási tevékenység *fogadó* szakaszában az alábbi tulajdonságok támogatottak.

Tulajdonság Leírás Kötelező
típus A másolási tevékenység forrásának type (típus) tulajdonságát AvroSink (AvroSink) beállításrakell állítani. Igen
formatSettings Tulajdonságok egy csoportja. Tekintse meg az alábbi Avro írási beállítások táblázatát. Nem
storeSettings Tulajdonságok csoportja arra, hogyan lehet adatokat írni egy adattárba. Minden fájlalapú összekötő saját támogatott írási beállításokkal rendelkezik a storeSettings alatt. Részleteket az összekötővel kapcsolatos cikkben talál – Copy tevékenység tulajdonságok szakaszt. Nem

Támogatott Avro írási beállítások a alatt:

Tulajdonság Leírás Kötelező
típus A formatSettings típusának AvroWriteSettingsnakkell lennie. Igen
maxRowsPerFile Amikor adatokat ír egy mappába, dönthet úgy, hogy több fájlba ír, és megadja a fájlok maximális sorait. Nem
fileNamePrefix (fájlnév előtagja) A maxRowsPerFile konfiguráláskor alkalmazható.
Adja meg a fájlnév előtagját, amikor több fájlba ír adatokat, ami a következő mintát eredményezi: <fileNamePrefix>_00000.<fileExtension> . Ha nincs megadva, a fájlnév előtagja automatikusan létrejön. Ez a tulajdonság nem érvényes, ha a forrás fájlalapú tároló vagy partíció lehetőséggel kompatibilis adattár.
Nem

Adatfolyam-tulajdonságok leképezése

A leképezési adatfolyamokban a következő adattárakban olvashat és írhat avro formátumban: Azure Blob Storage,Azure Data Lake Storage Gen1 és Azure Data Lake Storage Gen2,valamint avro formátum az Amazon S3-ban.

Forrástulajdonságok

Az alábbi táblázat az avro-forrás által támogatott tulajdonságokat sorolja fel. Ezeket a tulajdonságokat a Forrásbeállítások lapon szerkesztheti.

Név Leírás Kötelező Megengedett értékek Adatfolyam-szkript tulajdonsága
Helyettesítő karakterek elérési útjai A helyettesítő karakteres elérési úttal egyező összes fájl fel lesz feldolgozva. Felülbírálja az adatkészletben beállított mappát és fájlútvonalat. nem Sztring[] wildcardPaths (helyettesítő karakterek)
Partíció gyökérútvonala Particionált fájladatokhoz megadhatja a partíció gyökérútvonalát, hogy a particionált mappákat oszlopként olvassa nem Sztring partitionRootPath
Fájlok listája Azt határozza meg, hogy a forrás egy feldolgozni kívánt fájlokat felsoroló szövegfájlra mutasson-e nem true vagy false Filelist
A fájlnév tárolására kívánt oszlop Új oszlop létrehozása a forrásfájl nevével és elérési útával nem Sztring rowUrlColumn
A befejezés után Törölje vagy helyezze át a fájlokat a feldolgozás után. A fájl elérési útja a tároló gyökerében kezdődik nem Törlés: true vagy false
Mozgatni: ['<from>', '<to>']
purgeFiles
moveFiles
Szűrés az utolsó módosítás alapján A fájlok szűrése a legutóbbi módosított adatok alapján nem Időbélyeg modifiedAfter (módosítás után)
modifiedBefore
Nem található fájl engedélyezése Ha igaz, a rendszer nem ad vissza hibát, ha nem található fájl nem true vagy false ignoreNoFilesFound

Fogadó tulajdonságai

Az alábbi táblázat az avro-fogadók által támogatott tulajdonságokat sorolja fel. Ezeket a tulajdonságokat a Gépház szerkesztheti.

Név Leírás Kötelező Megengedett értékek Adatfolyam-szkript tulajdonsága
A mappa törlése Ha a célmappa ki van ürítve az írás előtt nem true vagy false Megcsonkít
Fájlnév beállítás Az írt adatok elnevezési formátuma. Alapértelmezés szerint partíciónként egy fájl, formátumban part-#####-tid-<guid> nem Minta: Sztring
Partíciónként: Sztring[]
Adatokként az oszlopban: Sztring
Kimenet egyetlen fájlba: ['<fileName>']
filePattern
partitionFileNames
rowUrlColumn
partitionFileNames
Az összes idézőjele Az összes érték idézőjelek közé való beiktatása nem true vagy false quoteAll

Adattípusok támogatása

Másolási tevékenység

Az összetett Avro-adattípusok (rekordok, felsorolások, tömbök, térképek, uniók és rögzítettek) nem támogatottak a másolási tevékenységben.

Adatfolyamok

Amikor adatfolyamok Avro-fájlokkal dolgozik, olvashat és írhat összetett adattípusokat, de először törölje a fizikai sémát az adatkészletből. Az adatfolyamok segítségével beállíthatja a logikai leképezéseket, és összetett struktúrákat származtathat az oszlopokból, majd automatikusan leképezheti ezeket a mezőket egy Avro-fájlra.

Következő lépések