Εξαγωγή δεδομένων Dataverse σε μορφή Delta Lake

Χρησιμοποιήστε το Azure Synapse Link for Dataverse για εξαγωγή των δεδομένων του Microsoft Dataverse στο Azure Synapse Analytics σε μορφή Delta Lake. Στη συνέχεια, εξερευνήστε τα δεδομένα σας και επιταχύνετε τον χρόνο για πληροφόρηση. Σε αυτό το άρθρο παρέχονται οι ακόλουθες πληροφορίες και παρουσιάζεται ο τρόπος εκτέλεσης των ακόλουθων εργασιών:

  • Εξηγεί το Delta Lake και το Parquet καθώς και τον λόγο για τον οποίο πρέπει να εξαγάγετε δεδομένα σε αυτήν τη μορφή.
  • Εξαγάγετε τα δεδομένα Dataverse στον χώρο εργασίας του Azure Synapse Analytics σε μορφή Delta Lake με το Azure Synapse Link.
  • Παρακολουθήστε το Azure Synapse Link και τη μετατροπή δεδομένων.
  • Προβολή των δεδομένων σας από το Azure Data Lake Storage Gen2.
  • Προβάλετε τα δεδομένα σας από τον χώρο εργασίας Synapse.

Σημαντικό

  • Εάν κάνετε αναβάθμιση από CSV στο Delta Lake με τις υπάρχουσες προσαρμοσμένες προβολές, συνιστούμε να ενημερώσετε τη δέσμη ενεργειών ώστε να αντικατασταθούν όλοι οι τμηματοποιημένοι πίνακες σε μη τμηματοποιημένοι. Αυτό κάντε το αναζητώντας παρουσίες _partitioned και αντικαταστήστε τις με μια κενή συμβολοσειρά.
  • Για τη ρύθμιση παραμέτρων Dataverse, η επιλογή "μόνο προσάρτηση" ενεργοποιείται από προεπιλογή για την εξαγωγή δεδομένων CSV σε λειτουργία appendonly. Ωστόσο, ο πίνακας Delta Lake θα έχει εφαρμοσμένη δομή ενημέρωσης, καθώς η μετατροπή Delta Lake συνοδεύεται από διαδικασία περιοδικής συγχώνευσης.
  • Δεν προκύπτουν δαπάνες για τη δημιουργία των χώρου συγκέντρωσης Spark. Οι χρεώσεις προκύπτουν μόνο μόλις εκτελεστεί μια εργασία Spark στον χώρο συγκέντρωσης Spark προορισμού και η παρουσία Spark έχει προκύψει κατ' απαίτηση. Αυτές οι δαπάνες σχετίζονται με τη χρήση του Spark Azure Synapse workspace και τιμολογούνται μηνιαία. Το κόστος διεξαγωγής υπολογισμού Spark εξαρτάται κυρίως από το χρονικό διάστημα για την τμηματική ενημέρωση και τους όγκους των δεδομένων. Περισσότερες πληροφορίες: Τιμολόγηση Azure Synapse Analytics
  • Είναι σημαντικό να έχετε υπόψη σας αυτές τις πρόσθετες δαπάνες όταν αποφασίζετε να χρησιμοποιήσετε αυτήν τη δυνατότητα, καθώς δεν είναι προαιρετικές και πρέπει να πληρωθούν για να συνεχίσετε να χρησιμοποιείτε αυτήν τη δυνατότητα.
  • Ανακοινώθηκε το τέλος ζωής (EOLA) για το περιβάλλον εκτέλεσης του Azure Synapse για το Apache Spark 3.1 στις 26 Ιανουαρίου 2023. Σύμφωνα με την πολιτική κύκλου ζωής του περιβάλλοντος εκτέλεσης του Synapse για το Apache Spark, το περιβάλλον εκτέλεσης του Azure Synapse για το Apache Spark 3.1 θα αποσυρθεί και θα απενεργοποιηθεί από τις 26 Ιανουαρίου 2024. Μετά την ημερομηνία EOL, τα περιβάλλοντα εκτέλεσης που αποσύρθηκαν δεν είναι διαθέσιμα για νέες ομάδες Spark και οι υπάρχουσες ροές εργασίας δεν μπορούν να εκτελεστούν. Τα μεταδεδομένα θα παραμείνουν προσωρινά στον χώρο εργασίας του Synapse. Περισσότερες πληροφορίες: Περιβάλλον εκτέλεσης Azure Synapse για Apache Spark 3.1 (EOLA). Για να αναβαθμίσετε το Synapse Link για το Dataverse με τη μορφή εξαγωγής σε Delta Lake σε Spark 3.3, κάντε μια επιτόπια αναβάθμιση για τα υπάρχοντα προφίλ σας. Περισσότερες πληροφορίες: Επιτόπια αναβάθμιση σε Apache Spark 3.3 με Delta Lake 2.2
  • Από τις 4 Ιανουαρίου 2024, μόνο η έκδοση 3.3 του χώρου συγκέντρωσης Spark θα υποστηρίζεται κατά την αρχική δημιουργία της σύνδεσης.

Σημείωση

Η κατάσταση του Azure Synapse Link στο Power Apps (make.powerapps.com) αντικατοπτρίζει την κατάσταση μετατροπής της Delta Lake.

  • Το Count εμφανίζει τον αριθμό καρτελών στον πίνακα Delta Lake.
  • Η ημερομηνία/ώρα Last synchronized on αντιπροσωπεύει την τελευταία επιτυχημένη χρονική σήμανση μετατροπής.
  • Το Sync status εμφανίζεται ως ενεργό όταν ο συγχρονισμός δεδομένων και η μετατροπή Delta Lake ολοκληρωθούν, υποδεικνύοντας ότι τα δεδομένα είναι έτοιμα για επεξεργασία.

Τι είναι το Delta Lake;

Το Delta Lake είναι ένα έργο ανοιχτού κώδικα που επιτρέπει τη δημιουργία μιας αρχιτεκτονικής lakehouse πάνω από τα data lake. Το Delta Lake παρέχει συναλλαγές ACID(ατομικότητα, συνέπεια, απομόνωση και διάρκεια), μετα-δεδομένα με δυνατότητα κλιμάκωσης και ενοποιεί τη ροή και την επεξεργασία δεδομένων δέσμης πάνω από τα υπάρχοντα data lake. Το Azure Synapse Analytics είναι συμβατό με το Linux Foundation Delta Lake. Η τρέχουσα έκδοση του Delta Lake πυο περιλαμβάνεται στο Azure Synapse διαθέτει υποστήριξη γλώσσας για Scala, PySpark, και .NET. Περισσότερες πληροφορίες: Τι είναι το Delta Lake;. Επίσης, μπορείτε να μάθετε περισσότερα από το βίντεο "Εισαγωγή στους πίνακες Delta".

Το Apache Parquet είναι η μορφή γραμμής βάσης για το Delta Lake, που σας δίνει τη δυνατότητα να χρησιμοποιήσετε σχήματα αποτελεσματικής συμπίεσης και κωδικοποίησης που είναι εγγενή στη μορφή. Η μορφή αρχείου Parquet χρησιμοποιεί συμπίεση κατά στήλη. Είναι αποτελεσματικό και αποθηκεύει χώρο αποθήκευσης. Τα ερωτήματα που φέρνουν συγκεκριμένες τιμές στηλών δεν χρειάζεται να διαβάζουν ολόκληρα τα δεδομένα γραμμής βελτιώνοντας έτσι τις επιδόσεις. Επομένως, ο χώρος συγκέντρωσης SQL χωρίς διακομιστή χρειάζεται λιγότερο χρόνο και λιγότερο χώρο αποθήκευσης για την ανάγνωση των δεδομένων.

Γιατί να χρησιμοποιήσω το Delta Lake;

  • Δυνατότητα κλιμάκωσης: Το Delta Lake έχει δημιουργηθεί πάνω από την άδεια χρήσης Apache ανοιχτού κώδικα, η οποία έχει σχεδιαστεί για να ανταποκρίνεται στα πρότυπα του κλάδου για τον χειρισμό φόρτου εργασίας επεξεργασίας δεδομένων μεγάλης κλίμακας.
  • Αξιοπιστία: Το Delta Lake παρέχει συναλλαγές ACID, εξασφαλίζοντας συνέπεια και αξιοπιστία των δεδομένων ακόμη και μπροστά σε αποτυχίες ή ταυτόχρονη πρόσβαση.
  • Επιδόσεις: Το Delta Lake αξιοποιεί τη μορφή αποθήκευσης στηλών του Parquet, παρέχοντας καλύτερες τεχνικές συμπίεσης και κωδικοποίησης, οι οποίες μπορούν να οδηγήσουν σε βελτιωμένες επιδόσεις ερωτημάτων σε σχέση με τα αρχεία CSV ερωτημάτων.
  • Αποτελεσματικότητα ως προς το κόστος: Η μορφή αρχείου του Delta Lake είναι μια τεχνολογία αποθήκευσης δεδομένων συμπιεσμένη σε μεγάλο βαθμό, η οποία προσφέρει σημαντική πιθανή εξοικονόμηση χώρου αποθήκευσης για επιχειρήσεις. Αυτή η μορφή έχει σχεδιαστεί ειδικά για τη βελτιστοποίηση της επεξεργασίας δεδομένων και ενδέχεται να μειώσει τον συνολικό όγκο των δεδομένων που υπόκεινται σε επεξεργασία ή τον χρόνο που απαιτείται για τον υπολογισμό κατ' απαίτηση.
  • Συμμόρφωση με την προστασία δεδομένων: Η Λίμνη Δέλτα με Azure Synapse Link παρέχει εργαλεία και δυνατότητες όπως η προσωρινή διαγραφή και η οριστική διαγραφή για συμμόρφωση με διάφορους κανονισμούς προστασίας προσωπικών δεδομένων, συμπεριλαμβανομένου του Γενικού Κανονισμού για την Προστασία Δεδομένων (ΓΚΠΔ).

Κατά τη ρύθμιση ενός Azure Synapse Link for Dataverse μπορείτε να ενεργοποιήσετε τη δυνατότητα εξαγωγή στο Delta Lake και να συνδεθείτε με έναν χώρο εργασίας Synapse και έναν χώρο συγκέντρωσης πόρων Spark. Το Azure Synapse Link εξάγει τους επιλεγμένους πίνακες Dataverse σε μορφή CSV σε καθορισμένα χρονικά διαστήματα, με επεξεργασία τους μέσω μιας εργασίας Spark μετατροπής Λίμνης Δέλτα. Μόλις ολοκληρωθεί αυτή η διεργασία μετατροπής, γίνεται εκκαθάριση των δεδομένων CSV για αποθήκευση. Επιπλέον, έχει προγραμματιστεί η εκτέλεση μιας σειράς εργασιών συντήρησης σε καθημερινή βάση, με αυτόματη εκτέλεση διεργασιών συμπίεσης και ανάκτησης δεδομένων για συγχώνευση και εκκαθάριση των αρχείων δεδομένων για περαιτέρω βελτιστοποίηση του χώρου αποθήκευσης και βελτίωση των επιδόσεων των ερωτημάτων.

Προϋποθέσεις

  • Dataverse: Πρέπει να έχετε τον ρόλο ασφαλείας Διαχειριστής συστήματος Dataverse. Επιπλέον, οι πίνακες που θέλετε να εξαγάγετε μέσω Azure Synapse Link πρέπει να έχουν ενεργοποιημένη την ιδιότητα Παρακολούθηση αλλαγών. Περισσότερες πληροφορίες: Επιλογές για προχωρημένους
  • Azure Data Lake Storage Gen2: Πρέπει να διαθέτετε λογαριασμό Azure Data Lake Storage Gen2 και ρόλο πρόσβασης Κατόχου και Συμμετέχοντα δεδομένων αποθηκευτικού χώρου Blob. Ο λογαριασμός χώρου αποθήκευσης πρέπει να ενεργοποιήσει τον ιεραρχικό χώρο ονομάτων και την πρόσβαση δημόσιου δικτύου τόσο για την αρχική εγκατάσταση όσο και για τον συγχρονισμό δέλτα. Το Να επιτρέπεται η πρόσβαση κλειδιού λογαριασμού χώρου αποθήκευσης απαιτείται μόνο για την αρχική εγκατάσταση.
  • Χώρος εργασίας Synapse: Πρέπει να έχετε ένα χώρο εργασίας και ρόλο Κατόχου σε έλεγχο πρόσβασης (AM) και πρόσβαση ρόλου Διαχειριστής Synapse στο Synapse Studio. Ο χώρος εργασίας Synapse πρέπει να βρίσκεται στην ίδια περιοχή με το λογαριασμό Azure Data Lake Storage Gen2. Ο λογαριασμός αποθήκευσης πρέπει να προστεθεί ως συνδεδεμένη υπηρεσία στο Studio. Για να δημιουργήσετε έναν χώρο εργασίας μεταβείτε στο στοιχείο Δημιουργία χώρου εργασίας Synapse.
  • Ένας χώρος συγκέντρωσης Spark στον συνδεδεμένο Azure Synapse workspace με Apache Spark έκδοση 3.3 χρησιμοποιώντας αυτήν τη συνιστώμενη ρύθμιση παραμέτρων χώρου συγκέντρωσης Spark. Για πληροφορίες σχετικά με τον τρόπο δημιουργίας χώρου συγκέντρωσης Spark, μεταβείτε στο θέμα Δημιουργία νέου χώρου συγκέντρωσης Apache Spark.
  • Η απαίτηση ελάχιστης έκδοσης Microsoft Dynamics 365 για χρήση αυτής της δυνατότητας είναι 9.2.22082. Περισσότερες πληροφορίες: Συμμετοχή σε ενημερώσεις πρώιμης πρόσβασης

Αυτή η ρύθμιση παραμέτρων μπορεί να θεωρηθεί ως βήμα εκκίνησης για υποθέσεις μέσης χρήσης.

  • Μέγεθος κόμβου: μικρό (4 vCores / 32 GB)
  • Αυτόματη προσαρμογή: Ενεργοποιήθηκε
  • Αριθμός κόμβων: 5 έως 10
  • Αυτόματη διακοπή: Ενεργοποιήθηκε
  • Αριθμός λεπτών αδράνειας: 5
  • Apache Spark: 3.3
  • Δυναμική εκχώρηση εκτελεστών: Ενεργοποιημένο
  • Προεπιλεγμένος αριθμός εκτελεστών: 1 έως 9

Σύνδεση Dataverse σε χώρο εργασίας Synapse και εξαγωγή δεδομένων σε μορφή Delta Lake

  1. Συνδεθείτε στο Power Apps και επιλέξτε το περιβάλλον που θέλετε.

  2. Στο αριστερό τμήμα παραθύρου περιήγησης, επιλέξτε Azure Synapse Link. Εάν το στοιχείο δεν βρίσκεται στο πλαϊνό τμήμα του πίνακα, επιλέξτε ...Περισσότερα και, στη συνέχεια, επιλέξτε το στοιχείο που θέλετε.

  3. Στη γραμμή εντολών, επιλέξτε + Νέα σύνδεση

  4. Επιλέξτε Σύνδεση στο χώρο εργασίας σας Azure Synapse Analytics, και στη συνέχεια, επιλέξτε Συνδρομή, Ομάδα πόρων και Όνομα χώρου εργασίας.

  5. Επιλέξτε Χρήση χώρου συγκέντρωσης Spark για επεξεργασία και, στη συνέχεια, επιλέξτε το προδημιουργημένο χώρο συγκέντρωσης Spark και τον λογαριασμό χώρου αποθήκευσης. Ρύθμιση παραμέτρων Azure Synapse Link for Dataverse που περιλαμβάνει χώρο συγκέντρωσης πόρων.

  6. Επιλέξτε Επόμενο.

  7. Προσθέστε τους πίνακες που θέλετε να εξαγάγετε και, στη συνέχεια, επιλέξτε Σύνθετες ρυθμίσεις.

  8. Προαιρετικά, επιλέξτε Εμφάνιση σύνθετων ρυθμίσεων και εισαγάγετε το χρονικό διάστημα, σε λεπτά. για τη συχνότητα καταγραφής των τμηματικών ενημερώσεων.

  9. ΕπιλέξτεΑποθήκευση.

  1. Επιλέξτε το Azure Synapse Link που θέλετε και, έπειτα, επιλέξτε Μετάβαση στον χώρο εργασίας του Azure Synapse Analytics στη γραμμή εντολών.
  2. Επιλέξτε Παρακολούθηση > Εφαρμογές Apache Spark. Περισσότερες πληροφορίες: Χρησιμοποιήστε το Synapse Studio για να παρακολουθείτε τις εφαρμογές Apache Spark

Προβάλετε τα δεδομένα σας από τον χώρο εργασίας Synapse

  1. Επιλέξτε το Azure Synapse Link που θέλετε και, έπειτα, επιλέξτε Μετάβαση στον χώρο εργασίας του Azure Synapse Analytics στη γραμμή εντολών.
  2. Αναπτύξτε το Βάσεις δεδομένων λίμνης στο αριστερό τμήμα παραθύρου, επιλέξτε dataverse-environmentNameorganizationUniqueName και, στη συνέχεια, αναπτύξτε Πίνακες. Όλοι οι πίνακες Parquet παρατίθενται και είναι διαθέσιμοι για ανάλυση με τη σύμβαση ονομασίας DataverseTableName. (Non_partitioned Table).

Προβολή των δεδομένων σας από το Azure Data Lake Storage Gen2

  1. Επιλέξτε το επιθυμητό Azure Synapse Link και, στη συνέχεια, επιλέξτε Go to Azure data lake στη γραμμή εντολών.
  2. Επιλέξτε το Περιέκτες στο Χώρος αποθήκευσης δεδομένων.
  3. Επιλέξτε dataverse- environmentName-organizationUniqueName. Όλα τα αρχεία parquet αποθηκεύονται στον φάκελο deltalake.

Επιτόπια αναβάθμιση σε Apache Spark 3.3 με Delta Lake 2.2

Προϋποθέσεις

  1. Πρέπει να έχετε ένα υπάρχον προφίλ Delta Lake του Azure Synapse Link for Dataverse που εκτελείται με Synapse Spark έκδοση 3.1.
  2. Πρέπει να δημιουργήσετε έναν νέο χώρο συγκέντρωσης Synapse Spark με το Spark έκδοση 3.3, χρησιμοποιώντας την ίδια ή υψηλότερη διαμόρφωση υλικού κόμβων στον ίδιο χώρο εργασίας του Synapse. Για πληροφορίες σχετικά με τον τρόπο δημιουργίας χώρου συγκέντρωσης Spark, μεταβείτε στο θέμα Δημιουργία νέου χώρου συγκέντρωσης Apache Spark. Αυτός ο χώρος συγκέντρωσης Spark θα πρέπει να δημιουργηθεί ανεξάρτητα από τον τρέχοντα χώρο 3.1.

Επιτόπια αναβάθμιση σε Spark 3.3:

  1. Συνδεθείτε στο Power Apps και επιλέξτε το προτιμώμενο περιβάλλον.
  2. Στο αριστερό τμήμα παραθύρου περιήγησης, επιλέξτε Azure Synapse Link. Εάν το στοιχείο δεν βρίσκεται στο αριστερό τμήμα παραθύρου περιήγησης, επιλέξτε ...Περισσότερα και, στη συνέχεια, επιλέξτε το στοιχείο που θέλετε.
  3. Ανοίξτε το προφίλ Azure Synapse Link και, στη συνέχεια, επιλέξτε Αναβάθμιση σε Apache Spark 3.3 με Delta Lake 2.2.
  4. Επιλέξτε τον διαθέσιμο χώρο συγκέντρωσης Spark από τη λίστα και μετά επιλέξτε Ενημέρωση.

Σημείωση

Η αναβάθμιση του χώρου συγκέντρωσης Spark πραγματοποιείται μόνο όταν ενεργοποιηθεί μια νέα εργασία μετατροπής Spark Delta Lake. Βεβαιωθείτε ότι έχετε τουλάχιστον μία αλλαγή δεδομένων μετά την επιλογή Ενημέρωση.

Δείτε επίσης

Τι είναι το Azure Synapse Link for Dataverse;