Megosztás a következőn keresztül:


Parquet formátum a Data Factoryben a Microsoft Fabricben

Ez a cikk bemutatja, hogyan konfigurálhatja a Parquet formátumot a Data Factory adatfolyamában a Microsoft Fabricben.

Támogatott képességek

A parquet formátum a következő tevékenységekhez és összekötőkhöz támogatott forrásként és célként.

Kategória Csatlakozás or/tevékenység
Támogatott összekötő Amazon S3
Azure Blob Storage
1. generációs Azure Data Lake Storage
Azure Data Lake Storage Gen2
Google Cloud Storage
HTTP
Támogatott tevékenység Copy tevékenység
Keresési tevékenység
GetMetadata-tevékenység
Tevékenység törlése

Parquet formátum másolási tevékenységben

A Parquet formátum konfigurálásához válassza ki a kapcsolatot az adatfolyam-másolási tevékenység forrásában vagy célhelyén, majd válassza a Parquet elemet a Fájlformátum legördülő listájában. Válassza a Gépház a formátum további konfigurálásához.

Screenshot showing file format settings.

Parquet formátum forrásként

Miután kiválasztotta a Gépház a Fájlformátum szakaszban, a következő tulajdonságok jelennek meg az előugró Fájlformátum beállításai párbeszédpanelen.

Screenshot showing parquet file format source.

  • Tömörítés típusa: Válassza ki a legördülő listában a Parquet-fájlok olvasásához használt tömörítési kodeket. Választhat a Nincs, a gzip (.gz), a snappy, az lzo, a Brotli (.br), a Zstandard, az lz4, az lz4frame, a bzip2 (.bz2) vagy az lz4hadoop közül.

Parquet formátum célként

A Gépház kiválasztása után a következő tulajdonságok jelennek meg az előugró fájlformátum beállításai párbeszédpanelen.

Screenshot showing parquet file format destination.

  • Tömörítés típusa: Válassza ki a parquet-fájlok írásához használt tömörítési kodeket a legördülő listában. Választhat a Nincs, a gzip (.gz), a snappy, az lzo, a Brotli (.br), a Zstandard, az lz4, az lz4frame, a bzip2 (.bz2) vagy az lz4hadoop közül.

  • V-Order használata: Írási idő optimalizálásának engedélyezése a parquet fájlformátumban. További információ: Delta Lake table optimization and V-Order. Alapértelmezés szerint engedélyezve van.

A Cél lapon a Speciális beállítások területen a következő Parquet formátumhoz kapcsolódó tulajdonságok jelennek meg.

  • Fájlonkénti sorok maximális száma: Ha adatokat ír egy mappába, több fájlba is írhat, és megadhatja a fájlonkénti sorok maximális számát. Adja meg a fájlonként írni kívánt sorok maximális számát.
  • Fájlnév előtagja: Akkor alkalmazható, ha a fájlonkénti sorok maximális száma konfigurálva van. Adja meg a fájlnév előtagot, amikor több fájlba ír adatokat, és a következő mintát eredményezte: <fileNamePrefix>_00000.<fileExtension>. Ha nincs megadva, a fájlnév előtagja automatikusan létrejön. Ez a tulajdonság nem érvényes, ha a forrás fájlalapú tároló vagy partícióbeállítás-kompatibilis adattár.

Táblázat összefoglalása

Parquet mint forrás

A másolási tevékenység forrás szakaszában a következő tulajdonságok támogatottak a Parquet formátum használatakor.

Név Leírás Érték Szükséges JSON-szkripttulajdonság
Fájlformátum A használni kívánt fájlformátum. Parketta Igen típus (alatt datasetSettings):
Parketta
Tömörítés típusa A Parquet-fájlok olvasásához használt tömörítési kodek. Válasszon a következő lehetőségek közül:
Egyik sem
gzip (.gz)
Snappy
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
Nem compressionCodec:

gzip
Snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet mint cél

A másolási tevékenység Cél szakaszában a következő tulajdonságok támogatottak a Parquet formátum használatakor.

Név Leírás Érték Szükséges JSON-szkripttulajdonság
Fájlformátum A használni kívánt fájlformátum. Parketta Igen típus (alatt datasetSettings):
Parketta
V-Order használata Írási idő optimalizálása a parquet fájlformátumra. kijelölve vagy kijelölve Nem enableVertiParquet
Tömörítés típusa A Parquet-fájlok írásához használt tömörítési kodek. Válasszon a következő lehetőségek közül:
Egyik sem
gzip (.gz)
Snappy
lzo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
Nem compressionCodec:

gzip
Snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
Sorok maximális száma fájlonként Ha adatokat ír egy mappába, több fájlba is írhat, és megadhatja a fájlonkénti maximális sorokat. Adja meg a fájlonként írni kívánt sorok maximális számát. <a maximális sorok száma fájlonként> Nem maxRowsPerFile
Fájlnév előtagja Akkor alkalmazható, ha a fájlonkénti sorok maximális száma van konfigurálva. Adja meg a fájlnév előtagot, amikor több fájlba ír adatokat, és a következő mintát eredményezte: <fileNamePrefix>_00000.<fileExtension>. Ha nincs megadva, a fájlnév előtagja automatikusan létrejön. Ez a tulajdonság nem érvényes, ha a forrás fájlalapú tároló vagy partícióbeállítás-kompatibilis adattár. <a fájlnév előtagja> Nem fileNamePrefix