Terminologia dotycząca usługi Microsoft Fabric

Poznaj definicje terminów używanych w usłudze Microsoft Fabric, w tym terminy specyficzne dla usługi Synapse Data Warehouse, Synapse inżynierowie danych ing, Synapse Nauka o danych, Synapse Real-Time Analytics, Data Factory i Power BI.

Ogólne terminy

  • Pojemność: Pojemność to dedykowany zestaw zasobów, który jest dostępny w danym momencie do użycia. Pojemność definiuje zdolność zasobu do wykonywania działania lub generowania danych wyjściowych. Różne elementy zużywają w określonym czasie inną pojemność. Sieć szkieletowa oferuje pojemność za pośrednictwem jednostki SKU sieci szkieletowej i wersji próbnych. Aby uzyskać więcej informacji, zobacz Co to jest pojemność?

  • Doświadczenie: Zbiór możliwości przeznaczonych dla określonej funkcjonalności. Środowiska sieci szkieletowej obejmują usługę Synapse Data Warehouse, usługę Synapse inżynierowie danych, usługę Synapse Nauka o danych, usługę Synapse Real-Time Analytics, usługę Data Factory i usługę Power BI.

  • Element: element zestaw możliwości w środowisku. Użytkownicy mogą tworzyć, edytować i usuwać je. Każdy typ elementu zapewnia różne możliwości. Na przykład środowisko inżynierowie danych obejmuje elementy definicji zadań lakehouse, notebook i Spark.

  • Dzierżawa: dzierżawa jest pojedynczym wystąpieniem usługi Fabric dla organizacji i jest zgodna z identyfikatorem Entra firmy Microsoft.

  • Obszar roboczy: Obszar roboczy to kolekcja elementów, które łączą różne funkcje w jednym środowisku zaprojektowanym do współpracy. Działa jako kontener, który używa pojemności do wykonywanej pracy i zapewnia kontrolę, kto może uzyskać dostęp do elementów w nim. Na przykład w obszarze roboczym użytkownicy tworzą raporty, notesy, modele semantyczne itp. Aby uzyskać więcej informacji, zobacz artykuł Obszary robocze .

Inżynieria danych usługi Synapse

  • Lakehouse: Lakehouse to kolekcja plików, folderów i tabel reprezentujących bazę danych za pośrednictwem magazynu typu data lake używanego przez aparat Apache Spark i aparat SQL do przetwarzania danych big data. Usługa Lakehouse oferuje ulepszone możliwości transakcji ACID podczas korzystania z tabel w formacie delta typu open source. Element lakehouse jest hostowany w unikatowym folderze obszaru roboczego w usłudze Microsoft OneLake. Zawiera pliki w różnych formatach (ustrukturyzowanych i nieustrukturyzowanych) zorganizowanych w folderach i podfolderach. Aby uzyskać więcej informacji, zobacz Co to jest jezioro?

  • Notes: Notes usługi Fabric to wielojęzyczne interaktywne narzędzie do programowania z zaawansowanymi funkcjami. Obejmuje to tworzenie kodu i znaczników markdown, uruchamianie i monitorowanie zadania platformy Spark, wyświetlanie i wizualizowanie wyników oraz współpraca z zespołem. Pomaga to inżynierom danych i analitykom danych eksplorować i przetwarzać dane oraz tworzyć eksperymenty uczenia maszynowego zarówno przy użyciu kodu, jak i środowiska z małą ilością kodu. Można go łatwo przekształcić w działanie potoku na potrzeby orkiestracji.

  • Aplikacja Spark: aplikacja Platformy Apache Spark to program napisany przez użytkownika przy użyciu jednego z języków interfejsu API platformy Spark (Scala, Python, Spark SQL lub Java) lub języków dodanych przez firmę Microsoft (.NET z językiem C# lub F#). Po uruchomieniu aplikacji jest ona podzielona na jedno lub więcej zadań platformy Spark, które są uruchamiane równolegle w celu szybszego przetwarzania danych. Aby uzyskać więcej informacji, zobacz Monitorowanie aplikacji platformy Spark.

  • Zadanie platformy Apache Spark: zadanie platformy Spark jest częścią aplikacji Spark, która jest uruchamiana równolegle z innymi zadaniami w aplikacji. Zadanie składa się z wielu zadań. Aby uzyskać więcej informacji, zobacz Monitorowanie zadań platformy Spark.

  • Definicja zadania platformy Apache Spark: definicja zadania platformy Spark to zestaw parametrów ustawiony przez użytkownika, wskazujący, jak powinna być uruchamiana aplikacja Spark. Umożliwia przesyłanie zadań wsadowych lub przesyłanych strumieniowo do klastra Spark. Aby uzyskać więcej informacji, zobacz Co to jest definicja zadania platformy Apache Spark?

  • Kolejność maszyn wirtualnych: optymalizacja zapisu w formacie pliku parquet, która umożliwia szybkie odczyty i zapewnia oszczędność kosztów i lepszą wydajność. Wszystkie aparaty sieci szkieletowej domyślnie zapisują pliki parquet uporządkowane w wersji wirtualnej.

Data Factory

  • Połączenie or: Usługa Data Factory oferuje bogaty zestaw łączników, które umożliwiają łączenie się z różnymi typami magazynów danych. Po nawiązaniu połączenia możesz przekształcić dane. Aby uzyskać więcej informacji, zobacz łączniki.

  • Potok danych: w usłudze Data Factory potok danych służy do organizowania przenoszenia i przekształcania danych. Te potoki różnią się od potoków wdrażania w sieci szkieletowej. Aby uzyskać więcej informacji, zobacz Pipelines in the Data Factory overview (Potoki w omówieniu usługi Data Factory).

  • Dataflow Gen2: Przepływy danych zapewniają interfejs z małą ilością kodu do pozyskiwania danych z setek źródeł danych i przekształcania danych. Przepływy danych w sieci szkieletowej są określane jako Dataflow Gen2. Przepływ danych Gen1 istnieje w usłudze Power BI. Usługa Dataflow Gen2 oferuje dodatkowe możliwości w porównaniu z przepływami danych w usłudze Azure Data Factory lub Power BI. Nie można uaktualnić z wersji Gen1 do gen2. Aby uzyskać więcej informacji, zobacz Przepływy danych w omówieniu usługi Data Factory.

Nauka o danych usługi Synapse

  • Data Wrangler: Data Wrangler to narzędzie oparte na notesach, które zapewnia użytkownikom immersyjne środowisko do przeprowadzania eksploracyjnej analizy danych. Ta funkcja łączy wyświetlanie danych przypominających siatkę z dynamicznymi statystykami podsumowania i zestawem typowych operacji czyszczenia danych, które są dostępne z kilkoma wybranymi ikonami. Każda operacja generuje kod, który można zapisać z powrotem do notesu jako skrypt wielokrotnego użytku.

  • Eksperyment: Eksperyment uczenia maszynowego to podstawowa jednostka organizacji i kontroli dla wszystkich powiązanych przebiegów uczenia maszynowego. Aby uzyskać więcej informacji, zobacz Eksperymenty uczenia maszynowego w usłudze Microsoft Fabric.

  • Model: Model uczenia maszynowego to plik wyszkolony do rozpoznawania niektórych typów wzorców. Wytrenujesz model na zestawie danych i udostępnisz mu algorytm, którego używa do wnioskowania i uczenia się z tego zestawu danych. Aby uzyskać więcej informacji, zobacz Model uczenia maszynowego.

  • Uruchom: przebieg odpowiada pojedynczemu wykonaniu kodu modelu. W środowisku MLflow śledzenie jest oparte na eksperymentach i przebiegach.

Magazyn danych usługi Synapse

  • Punkt końcowy analizy SQL: każdy magazyn lakehouse ma punkt końcowy analizy SQL, który umożliwia użytkownikowi wykonywanie zapytań dotyczących danych tabeli różnicowej za pomocą języka TSQL za pośrednictwem usługi TDS. Aby uzyskać więcej informacji, zobacz Punkt końcowy analizy SQL.

  • Usługa Synapse Data Warehouse: usługa Synapse Data Warehouse pełni funkcję tradycyjnego magazynu danych i obsługuje pełne transakcyjne możliwości języka T-SQL, których można oczekiwać w magazynie danych przedsiębiorstwa. Aby uzyskać więcej informacji, zobacz Synapse Data Warehouse.

Analiza w czasie rzeczywistym usługi Synapse

  • Baza danych KQL: baza danych KQL przechowuje dane w formacie, na którym można wykonywać zapytania KQL. Aby uzyskać więcej informacji, zobacz Query a KQL database (Wykonywanie zapytań w bazie danych KQL).

  • Zestaw zapytań KQL: Zestaw zapytań KQL jest elementem używanym do uruchamiania zapytań, wyświetlania wyników i manipulowania wynikami zapytań na danych z bazy danych eksploratora danych. Zestaw zapytań zawiera bazy danych i tabele, zapytania i wyniki. Zestaw zapytań KQL umożliwia zapisywanie zapytań w celu użycia w przyszłości lub eksportowanie i udostępnianie zapytań innym osobom. Aby uzyskać więcej informacji, zobacz Query data in the KQL Queryset (Wykonywanie zapytań w zestawie zapytań KQL)

  • Strumień zdarzeń: funkcja strumieni zdarzeń usługi Microsoft Fabric udostępnia scentralizowane miejsce na platformie Sieci szkieletowej do przechwytywania, przekształcania i kierowania zdarzeń w czasie rzeczywistym do miejsc docelowych bez kodu. Strumień zdarzeń składa się z różnych źródeł danych przesyłania strumieniowego, miejsc docelowych pozyskiwania i procesora zdarzeń, gdy jest wymagana transformacja. Aby uzyskać więcej informacji, zobacz Strumienie zdarzeń usługi Microsoft Fabric.

OneLake

  • Skrót: Skróty są osadzonymi odwołaniami w usłudze OneLake wskazującymi inne lokalizacje magazynu plików. Zapewniają one sposób nawiązywania połączenia z istniejącymi danymi bez konieczności bezpośredniego kopiowania. Aby uzyskać więcej informacji, zobacz OneLake shortcuts (Skróty onelake).