Zagadnienia dotyczące produkcji związane ze strukturalnym przesyłaniem strumieniowym

Ten artykuł zawiera rekomendacje dotyczące konfigurowania obciążeń przetwarzania przyrostowego w środowisku produkcyjnym za pomocą przesyłania strumieniowego ze strukturą w usłudze Azure Databricks w celu spełnienia wymagań dotyczących opóźnień i kosztów aplikacji w czasie rzeczywistym lub wsadowych. Zrozumienie kluczowych pojęć dotyczących przesyłania strumieniowego ze strukturą w usłudze Azure Databricks może pomóc uniknąć typowych pułapek podczas skalowania w górę ilości i szybkości danych oraz przechodzenia z programowania do środowiska produkcyjnego.

Usługa Azure Databricks wprowadziła tabele delta live, aby zmniejszyć złożoność zarządzania infrastrukturą produkcyjną dla obciążeń przesyłania strumieniowego ze strukturą. Usługa Databricks zaleca używanie tabel delta Live Tables dla nowych potoków przesyłania strumieniowego ze strukturą; zobacz Co to są tabele delta live?.

Uwaga

Skalowanie automatyczne obliczeń ma ograniczenia skalowania w dół rozmiaru klastra dla obciążeń przesyłania strumieniowego ze strukturą. Usługa Databricks zaleca używanie tabel delta live z rozszerzonym skalowaniem automatycznym na potrzeby obciążeń przesyłania strumieniowego. Zobacz Optymalizowanie wykorzystania klastra potoków tabel na żywo różnicowych przy użyciu rozszerzonego skalowania automatycznego.

Używanie notesów dla obciążeń przesyłania strumieniowego ze strukturą

Interaktywne programowanie za pomocą notesów usługi Databricks wymaga dołączenia notesów do klastra w celu ręcznego wykonywania zapytań. Notesy usługi Databricks można zaplanować na potrzeby automatycznego wdrażania i automatycznego odzyskiwania po niepowodzeniu zapytań przy użyciu przepływów pracy.

Zapytania przesyłania strumieniowego ze strukturą można wizualizować w notesach podczas interaktywnego programowania lub na potrzeby interaktywnego monitorowania obciążeń produkcyjnych. Należy wizualizować zapytanie przesyłania strumieniowego ze strukturą tylko w środowisku produkcyjnym, jeśli człowiek będzie regularnie monitorować dane wyjściowe notesu. trigger Chociaż parametry i checkpointLocation są opcjonalne, najlepszym rozwiązaniem jest usługa Databricks zaleca, aby zawsze określać je w środowisku produkcyjnym.

Kontrolowanie rozmiaru partii i częstotliwości przesyłania strumieniowego ze strukturą w usłudze Azure Databricks

Przesyłanie strumieniowe ze strukturą w usłudze Azure Databricks oferuje ulepszone opcje kontrolowania kosztów i opóźnień podczas przesyłania strumieniowego za pomocą automatycznego modułu ładującego i usługi Delta Lake.

Co to jest przesyłanie strumieniowe stanowe?

Stanowe zapytanie przesyłania strumieniowego ze strukturą wymaga przyrostowych aktualizacji informacji o stanie pośrednim, natomiast bezstanowe zapytanie przesyłania strumieniowego ze strukturą śledzi tylko informacje o tym, które wiersze zostały przetworzone ze źródła do ujścia.

Operacje stanowe obejmują agregację przesyłania strumieniowego, sprzężenia dropDuplicatesstrumienia, mapGroupsWithStatei flatMapGroupsWithState.

Informacje o stanie pośrednim wymagane dla stanowych zapytań przesyłania strumieniowego ze strukturą mogą prowadzić do nieoczekiwanych opóźnień i problemów produkcyjnych, jeśli nie zostały prawidłowo skonfigurowane.

W środowisku Databricks Runtime 13.3 LTS i nowszym można włączyć tworzenie punktów kontrolnych dziennika zmian za pomocą bazy danych RocksDB, aby zmniejszyć czas trwania punktu kontrolnego i kompleksowe opóźnienie obciążeń przesyłania strumieniowego ze strukturą. Usługa Databricks zaleca włączenie punktów kontrolnych dziennika zmian dla wszystkich zapytań stanowych przesyłania strumieniowego ze strukturą. Zobacz Włączanie tworzenia punktów kontrolnych dziennika zmian.