Format pliku programu Excel w usługach Azure Data Factory i Azure Synapse Analytics

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Postępuj zgodnie z tym artykułem, gdy chcesz przeanalizować pliki programu Excel. Usługa obsługuje zarówno pliki ".xls" i ".xlsx".

Format programu Excel jest obsługiwany w przypadku następujących łączników: Amazon S3, Amazon S3 Compatible Storage, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage i SFTP. Jest obsługiwany jako źródło, ale nie ujście.

Uwaga

Format ".xls" nie jest obsługiwany podczas korzystania z protokołu HTTP.

Właściwości zestawu danych

Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania zestawów danych, zobacz artykuł Zestawy danych. Ta sekcja zawiera listę właściwości obsługiwanych przez zestaw danych programu Excel.

Właściwości Opis Wymagania
type Właściwość type zestawu danych musi być ustawiona na excel. Tak
lokalizacja Ustawienia lokalizacji plików. Każdy łącznik oparty na plikach ma własny typ lokalizacji i obsługiwane właściwości w obszarze location. Tak
sheetName Nazwa arkusza programu Excel do odczytywania danych. Określ sheetName lub sheetIndex
sheetIndex Indeks arkusza programu Excel do odczytywania danych, począwszy od 0. Określ sheetName lub sheetIndex
range Zakres komórek w danym arkuszu w celu zlokalizowania danych selektywnych, np.:
- Nie określono: odczytuje cały arkusz jako tabelę z pierwszego niepustego wiersza i kolumny
- A3: odczytuje tabelę rozpoczynającą się od danej komórki, dynamicznie wykrywa wszystkie poniższe wiersze i wszystkie kolumny po prawej stronie
- A3:H5: odczytuje ten stały zakres jako tabelę
- A3:A3: odczytuje tę pojedynczą komórkę
Nie.
firstRowAsHeader Określa, czy pierwszy wiersz w danym arkuszu/zakresie ma być traktowany jako wiersz nagłówka z nazwami kolumn.
Dozwolone wartości to true i false (wartość domyślna).
Nie.
nullValue Określa ciąg reprezentujący wartość null.
Wartość domyślna to pusty ciąg.
Nie.
kompresja Grupa właściwości do skonfigurowania kompresji pliku. Skonfiguruj tę sekcję, gdy chcesz wykonać kompresję/dekompresję podczas wykonywania działań. Nie.
type
(w obszarze compression)
Koder koder kompresji używany do odczytu/zapisu plików JSON.
Dozwolone wartości to bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, Snappy lub lz4. Wartość domyślna nie jest kompresowana.
Uwaga obecnie działanie Kopiuj nie obsługuje "snappy" i "lz4", a przepływ danych mapowania nie obsługuje "ZipDeflate", "TarGzip" i "Tar".
Uwaga podczas używania działania kopiowania do dekompresowania plików ZipDeflate i zapisu w magazynie danych ujścia opartego na plikach pliki pliki są wyodrębniane do folderu: <path specified in dataset>/<folder named as source zip file>/.
L.p.
poziom
(w obszarze compression)
Współczynnik kompresji.
Dozwolone wartości są optymalne lub najszybsze.
- Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany.
- Optymalna: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz Temat Poziom kompresji.
Nie.

Poniżej przedstawiono przykład zestawu danych programu Excel w usłudze Azure Blob Storage:

{
    "name": "ExcelDataset",
    "properties": {
        "type": "Excel",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "sheetName": "MyWorksheet",
            "range": "A3:H5",
            "firstRowAsHeader": true
        }
    }
}

Właściwości działania kopiowania

Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania działań, zobacz artykuł Pipelines (Potoki ). Ta sekcja zawiera listę właściwości obsługiwanych przez źródło programu Excel.

Excel jako źródło

Następujące właściwości są obsługiwane w sekcji działanie kopiowania *źródło* .

Właściwości Opis Wymagania
type Właściwość type źródła działania kopiowania musi być ustawiona na ExcelSource. Tak
store Ustawienia Grupa właściwości dotyczących odczytywania danych z magazynu danych. Każdy łącznik oparty na plikach ma własne obsługiwane ustawienia odczytu w obszarze storeSettings. Nie.
"activities": [
    {
        "name": "CopyFromExcel",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "ExcelSource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true
                }
            },
            ...
        }
        ...
    }
]

Właściwości przepływu mapowania danych

W przepływach mapowania danych można odczytać format programu Excel w następujących magazynach danych: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 i SFTP. Możesz wskazać pliki programu Excel przy użyciu zestawu danych programu Excel lub wbudowanego zestawu danych.

Właściwości źródła

W poniższej tabeli wymieniono właściwości obsługiwane przez źródło programu Excel. Te właściwości można edytować na karcie Opcje źródła. W przypadku korzystania z wbudowanego zestawu danych zostaną wyświetlone dodatkowe ustawienia pliku, które są takie same jak właściwości opisane w sekcji właściwości zestawu danych.

Nazwa/nazwisko opis Wymagania Dozwolone wartości Właściwość skryptu przepływu danych
Ścieżki z symbolami wieloznacznymi Wszystkie pliki pasujące do ścieżki wieloznacznej zostaną przetworzone. Zastępuje folder i ścieżkę pliku ustawioną w zestawie danych. nie Ciąg[] symbole wieloznacznePaths
Ścieżka główna partycji W przypadku danych plików podzielonych na partycje można wprowadzić ścieżkę katalogu głównego partycji, aby odczytywać foldery podzielone na partycje jako kolumny nie String partitionRootPath
Lista plików Czy źródło wskazuje plik tekstowy, który wyświetla listę plików do przetworzenia nie true lub false Filelist
Kolumna do przechowywania nazwy pliku Utwórz nową kolumnę z nazwą pliku źródłowego i ścieżką nie String rowUrlColumn
Po zakończeniu Usuń lub przenieś pliki po przetworzeniu. Ścieżka pliku rozpoczyna się od katalogu głównego kontenera nie Usuń: true lub false
Przenieść: ['<from>', '<to>']
przeczyszczanie plików
moveFiles
Filtruj według ostatniej modyfikacji Wybierz filtrowanie plików w oparciu o czas ich ostatniej zmiany nie Sygnatura czasowa Modifiedafter
Modifiedbefore
Zezwalaj na brak znalezionych plików Jeśli wartość true, błąd nie jest zgłaszany, jeśli nie znaleziono żadnych plików nie true lub false ignoreNoFilesFound

Przykład źródła

Na poniższej ilustracji przedstawiono przykład konfiguracji źródła programu Excel w przepływach mapowania danych przy użyciu trybu zestawu danych.

Excel source

Skojarzony skrypt przepływu danych to:

source(allowSchemaDrift: true,
    validateSchema: false,
    wildcardPaths:['*.xls']) ~> ExcelSource

Jeśli używasz wbudowanego zestawu danych, w przepływie danych mapowania są widoczne następujące opcje źródła.

Excel source inline dataset

Skojarzony skrypt przepływu danych to:

source(allowSchemaDrift: true,
    validateSchema: false,
    format: 'excel',
    fileSystem: 'container',
    folderPath: 'path',
    fileName: 'sample.xls',
    sheetName: 'worksheet',
    firstRowAsHeader: true) ~> ExcelSourceInlineDataset

Obsługa bardzo dużych plików programu Excel

Łącznik programu Excel nie obsługuje odczytu strumieniowego dla działanie Kopiuj i musi załadować cały plik do pamięci, zanim będzie można odczytać dane. Aby zaimportować schemat, wyświetlić podgląd danych lub odświeżyć zestaw danych programu Excel, dane muszą zostać zwrócone przed przekroczeniem limitu czasu żądania http (100s). W przypadku dużych plików programu Excel te operacje mogą nie zostać zakończone w tym przedziale czasu, powodując błąd przekroczenia limitu czasu. Jeśli chcesz przenieść duże pliki programu Excel (>100 MB) do innego magazynu danych, możesz użyć jednej z następujących opcji, aby obejść to ograniczenie:

  • Użyj własnego środowiska Integration Runtime (SHIR), a następnie użyj działanie Kopiuj, aby przenieść duży plik programu Excel do innego magazynu danych za pomocą środowiska SHIR.
  • Podziel duży plik programu Excel na kilka mniejszych, a następnie użyj działanie Kopiuj, aby przenieść folder zawierający pliki.
  • Użyj działania przepływu danych, aby przenieść duży plik programu Excel do innego magazynu danych. Przepływ danych obsługuje odczyt strumieniowy dla programu Excel i może szybko przenosić/przesyłać duże pliki.
  • Ręcznie przekonwertuj duży plik programu Excel na format CSV, a następnie użyj działanie Kopiuj, aby przenieść plik.