Format pliku programu Excel w usługach Azure Data Factory i Azure Synapse Analytics

Artykuł
12/09/2023

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Postępuj zgodnie z tym artykułem, gdy chcesz przeanalizować pliki programu Excel. Usługa obsługuje zarówno pliki ".xls" i ".xlsx".

Format programu Excel jest obsługiwany w przypadku następujących łączników: Amazon S3, Amazon S3 Compatible Storage, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage i SFTP. Jest obsługiwany jako źródło, ale nie ujście.

Uwaga

Format ".xls" nie jest obsługiwany podczas korzystania z protokołu HTTP.

Właściwości zestawu danych

Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania zestawów danych, zobacz artykuł Zestawy danych. Ta sekcja zawiera listę właściwości obsługiwanych przez zestaw danych programu Excel.

Właściwości	Opis	Wymagania
type	Właściwość type zestawu danych musi być ustawiona na excel.	Tak
lokalizacja	Ustawienia lokalizacji plików. Każdy łącznik oparty na plikach ma własny typ lokalizacji i obsługiwane właściwości w obszarze `location`.	Tak
sheetName	Nazwa arkusza programu Excel do odczytywania danych.	Określ `sheetName` lub `sheetIndex`
sheetIndex	Indeks arkusza programu Excel do odczytywania danych, począwszy od 0.	Określ `sheetName` lub `sheetIndex`
range	Zakres komórek w danym arkuszu w celu zlokalizowania danych selektywnych, np.: - Nie określono: odczytuje cały arkusz jako tabelę z pierwszego niepustego wiersza i kolumny - `A3`: odczytuje tabelę rozpoczynającą się od danej komórki, dynamicznie wykrywa wszystkie poniższe wiersze i wszystkie kolumny po prawej stronie - `A3:H5`: odczytuje ten stały zakres jako tabelę - `A3:A3`: odczytuje tę pojedynczą komórkę	Nie.
firstRowAsHeader	Określa, czy pierwszy wiersz w danym arkuszu/zakresie ma być traktowany jako wiersz nagłówka z nazwami kolumn. Dozwolone wartości to true i false (wartość domyślna).	Nie.
nullValue	Określa ciąg reprezentujący wartość null. Wartość domyślna to pusty ciąg.	Nie.
kompresja	Grupa właściwości do skonfigurowania kompresji pliku. Skonfiguruj tę sekcję, gdy chcesz wykonać kompresję/dekompresję podczas wykonywania działań.	Nie.
type (w obszarze `compression`)	Koder koder kompresji używany do odczytu/zapisu plików JSON. Dozwolone wartości to bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, Snappy lub lz4. Wartość domyślna nie jest kompresowana. Uwaga obecnie działanie Kopiuj nie obsługuje "snappy" i "lz4", a przepływ danych mapowania nie obsługuje "ZipDeflate", "TarGzip" i "Tar". Uwaga podczas używania działania kopiowania do dekompresowania plików ZipDeflate i zapisu w magazynie danych ujścia opartego na plikach pliki pliki są wyodrębniane do folderu: `<path specified in dataset>/<folder named as source zip file>/`.	L.p.
poziom (w obszarze `compression`)	Współczynnik kompresji. Dozwolone wartości są optymalne lub najszybsze. - Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany. - Optymalna: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz Temat Poziom kompresji.	Nie.

Poniżej przedstawiono przykład zestawu danych programu Excel w usłudze Azure Blob Storage:

{
    "name": "ExcelDataset",
    "properties": {
        "type": "Excel",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "sheetName": "MyWorksheet",
            "range": "A3:H5",
            "firstRowAsHeader": true
        }
    }
}

Właściwości działania kopiowania

Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania działań, zobacz artykuł Pipelines (Potoki ). Ta sekcja zawiera listę właściwości obsługiwanych przez źródło programu Excel.

Excel jako źródło

Następujące właściwości są obsługiwane w sekcji działanie kopiowania *źródło* .

Właściwości	Opis	Wymagania
type	Właściwość type źródła działania kopiowania musi być ustawiona na ExcelSource.	Tak
store Ustawienia	Grupa właściwości dotyczących odczytywania danych z magazynu danych. Każdy łącznik oparty na plikach ma własne obsługiwane ustawienia odczytu w obszarze `storeSettings`.	Nie.

"activities": [
    {
        "name": "CopyFromExcel",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "ExcelSource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true
                }
            },
            ...
        }
        ...
    }
]

Właściwości przepływu mapowania danych

W przepływach mapowania danych można odczytać format programu Excel w następujących magazynach danych: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 i SFTP. Możesz wskazać pliki programu Excel przy użyciu zestawu danych programu Excel lub wbudowanego zestawu danych.

Właściwości źródła

W poniższej tabeli wymieniono właściwości obsługiwane przez źródło programu Excel. Te właściwości można edytować na karcie Opcje źródła. W przypadku korzystania z wbudowanego zestawu danych zostaną wyświetlone dodatkowe ustawienia pliku, które są takie same jak właściwości opisane w sekcji właściwości zestawu danych.

Nazwa/nazwisko	opis	Wymagania	Dozwolone wartości	Właściwość skryptu przepływu danych
Ścieżki z symbolami wieloznacznymi	Wszystkie pliki pasujące do ścieżki wieloznacznej zostaną przetworzone. Zastępuje folder i ścieżkę pliku ustawioną w zestawie danych.	nie	Ciąg[]	symbole wieloznacznePaths
Ścieżka główna partycji	W przypadku danych plików podzielonych na partycje można wprowadzić ścieżkę katalogu głównego partycji, aby odczytywać foldery podzielone na partycje jako kolumny	nie	String	partitionRootPath
Lista plików	Czy źródło wskazuje plik tekstowy, który wyświetla listę plików do przetworzenia	nie	`true` lub `false`	Filelist
Kolumna do przechowywania nazwy pliku	Utwórz nową kolumnę z nazwą pliku źródłowego i ścieżką	nie	String	rowUrlColumn
Po zakończeniu	Usuń lub przenieś pliki po przetworzeniu. Ścieżka pliku rozpoczyna się od katalogu głównego kontenera	nie	Usuń: `true` lub `false` Przenieść: `['<from>', '<to>']`	przeczyszczanie plików moveFiles
Filtruj według ostatniej modyfikacji	Wybierz filtrowanie plików w oparciu o czas ich ostatniej zmiany	nie	Sygnatura czasowa	Modifiedafter Modifiedbefore
Zezwalaj na brak znalezionych plików	Jeśli wartość true, błąd nie jest zgłaszany, jeśli nie znaleziono żadnych plików	nie	`true` lub `false`	ignoreNoFilesFound

Przykład źródła

Na poniższej ilustracji przedstawiono przykład konfiguracji źródła programu Excel w przepływach mapowania danych przy użyciu trybu zestawu danych.

Excel source

Skojarzony skrypt przepływu danych to:

source(allowSchemaDrift: true,
    validateSchema: false,
    wildcardPaths:['*.xls']) ~> ExcelSource

Jeśli używasz wbudowanego zestawu danych, w przepływie danych mapowania są widoczne następujące opcje źródła.

Excel source inline dataset

Skojarzony skrypt przepływu danych to:

source(allowSchemaDrift: true,
    validateSchema: false,
    format: 'excel',
    fileSystem: 'container',
    folderPath: 'path',
    fileName: 'sample.xls',
    sheetName: 'worksheet',
    firstRowAsHeader: true) ~> ExcelSourceInlineDataset

Obsługa bardzo dużych plików programu Excel

Łącznik programu Excel nie obsługuje odczytu strumieniowego dla działanie Kopiuj i musi załadować cały plik do pamięci, zanim będzie można odczytać dane. Aby zaimportować schemat, wyświetlić podgląd danych lub odświeżyć zestaw danych programu Excel, dane muszą zostać zwrócone przed przekroczeniem limitu czasu żądania http (100s). W przypadku dużych plików programu Excel te operacje mogą nie zostać zakończone w tym przedziale czasu, powodując błąd przekroczenia limitu czasu. Jeśli chcesz przenieść duże pliki programu Excel (>100 MB) do innego magazynu danych, możesz użyć jednej z następujących opcji, aby obejść to ograniczenie:

Użyj własnego środowiska Integration Runtime (SHIR), a następnie użyj działanie Kopiuj, aby przenieść duży plik programu Excel do innego magazynu danych za pomocą środowiska SHIR.
Podziel duży plik programu Excel na kilka mniejszych, a następnie użyj działanie Kopiuj, aby przenieść folder zawierający pliki.
Użyj działania przepływu danych, aby przenieść duży plik programu Excel do innego magazynu danych. Przepływ danych obsługuje odczyt strumieniowy dla programu Excel i może szybko przenosić/przesyłać duże pliki.
Ręcznie przekonwertuj duży plik programu Excel na format CSV, a następnie użyj działanie Kopiuj, aby przenieść plik.

Format pliku programu Excel w usługach Azure Data Factory i Azure Synapse Analytics

Właściwości zestawu danych

Właściwości działania kopiowania

Excel jako źródło

Właściwości przepływu mapowania danych

Właściwości źródła

Przykład źródła

Obsługa bardzo dużych plików programu Excel

Powiązana zawartość

Dodatkowe zasoby