Připojení Tableau do Azure Databricks

Tento článek ukazuje, jak připojit Azure Databricks k Tableau Desktopu a obsahuje informace o dalších edicích Tableau. Můžete se připojit prostřednictvím partnerského Připojení nebo se můžete připojit ručně.

Když použijete Azure Databricks jako zdroj dat s Tableau, můžete poskytovat výkonné interaktivní analýzy, které přinášejí příspěvky datových vědců a datových inženýrů do obchodních analytiků škálováním na masivní datové sady.

Další informace o tom, jak používat Tableau Desktop k vytváření sestav a vizualizací, najdete v kurzu Začínáme s Tableau Desktopem.

Požadavky

Připojení do Tableau Desktopu pomocí partnerského Připojení

Partner Připojení můžete použít k připojení clusteru nebo SQL Warehouse pomocí Tableau Desktopu během několika kliknutí.

  1. Ujistěte se, že váš účet, pracovní prostor a přihlášený uživatel Azure Databricks splňují všechny požadavky na partner Připojení.
  2. Na bočním panelu klikněte na Tlačítko Připojení partneraPartner Připojení.
  3. Klikněte na dlaždici Tableau .
  4. V dialogovém okně Připojení partnerovi zvolte pro Compute název výpočetního prostředku Azure Databricks, který chcete připojit.
  5. Zvolte Stáhnout soubor připojení.
  6. Otevřete stažený soubor připojení, který spustí Tableau Desktop.
  7. V Tableau Desktopu zadejte svoje ověřovací přihlašovací údaje a potom klikněte na Přihlásit se:
    • Pokud chcete použít token MICROSOFT Entra ID, zadejte token pro uživatelské jméno a token ID Microsoft Entra pro heslo.
    • Pokud chcete použít osobní přístupový token Azure Databricks, zadejte token pro uživatelské jméno a osobní přístupový token pro heslo.
    • Chcete-li použít přihlašovací údaje Microsoft Entra ID, klepněte na tlačítko Upravit Připojení ion, poklikejte na databázi na kartě Data a potom vyberte Microsoft Entra ID v seznamu Ověřování.
      • Pro Tableau Desktop 2021.1 a vyšší:

        1. Pokud nepoužíváte účet hosta B2B B2B microsoft Entra ID (dříve Azure Active Directory) nebo Azure Databricks ve službě Azure Government, můžete jednoduše zadat https://login.microsoftonline.com/common jako koncový bod OAuth.

        Konfigurace ověřování

        1. Pokud používáte účet hosta Microsoft Entra ID B2B nebo Azure Databricks ve službě Azure Government, obraťte se na správce a získejte vyhrazený sklad ID Microsoft Entra.

        Poznámka:

        Pokud nejste správce, zobrazí se chyba Schválení správcem . Požádejte globálního správce, správce cloudových aplikací nebo správce aplikací, aby vám udělil oprávnění pro připojení k Tableau a zkuste se znovu přihlásit.

        Pokud má váš účet Microsoft Entra ID povolený pracovní postup souhlasu správce, Tableau Desktop vás vyzve, abyste požádali o přístup k Tableau. Jakmile globální správce, správce cloudových aplikací nebo správce aplikací žádost schválí, zkuste se znovu přihlásit.

Po úspěšném připojení pomocí Desktopu Tableau můžete sem zastavit. Zbývající informace v tomto článku se týkají dalších informací o Tableau, jako je například ruční připojení k Tableau Desktopu, nastavení Tableau Serveru v Linuxu, používání Tableau Online, osvědčené postupy a řešení potíží s Tableau.

Připojení na Desktop Tableau ručně

Podle těchto pokynů se připojte ke clusteru nebo SQL Warehouse pomocí Tableau Desktopu.

Poznámka:

Pokud se chcete rychleji připojit pomocí Tableau Desktopu, použijte partner Připojení.

  1. Spusťte Tableau Desktop.

  2. Klepněte na tlačítko Nový soubor>.

  3. Na kartě Data klikněte na Připojení na Data.

  4. V seznamu konektorů klikněte na Databricks.

  5. Zadejte název hostitele serveru a cestu HTTP.

  6. V části Ověřování zvolte metodu ověřování, zadejte svoje ověřovací přihlašovací údaje a klikněte na Přihlásit se.

    • Pokud chcete použít token MICROSOFT Entra ID, vyberte osobní přístupový token a jako heslo zadejte token ID Microsoft Entra.

    • Pokud chcete použít osobní přístupový token Azure Databricks, vyberte osobní přístupový token a jako heslo zadejte svůj osobní přístupový token.

    • Pokud chcete použít přihlašovací údaje Microsoft Entra ID, vyberte Microsoft Entra ID.

      Pro Tableau Desktop 2021.1 a vyšší:

      • Pokud nepoužíváte účet hosta B2B B2B microsoft Entra ID (dříve Azure Active Directory) nebo Azure Databricks ve službě Azure Government, můžete jednoduše zadat https://login.microsoftonline.com/common jako koncový bod OAuth.

        Konfigurace ověřování

        • Pokud používáte účet hosta Microsoft Entra ID B2B nebo Azure Databricks ve službě Azure Government, obraťte se na správce a získejte vyhrazený sklad ID Microsoft Entra.

      Poznámka:

      Pokud nejste správce, zobrazí se chyba Schválení správcem . Požádejte globálního správce, správce cloudových aplikací nebo správce aplikací, aby vám udělil oprávnění pro připojení k Tableau a zkuste se znovu přihlásit.

      Pokud má váš účet Microsoft Entra ID povolený pracovní postup souhlasu správce, Tableau Desktop vás vyzve, abyste požádali o přístup k Tableau. Jakmile globální správce, správce cloudových aplikací nebo správce aplikací žádost schválí, zkuste se znovu přihlásit.

    Pokud je pro váš pracovní prostor povolený katalog Unity, nastavte také výchozí katalog. Na kartě Upřesnit přidejte vlastnostiCatalog=<catalog-name> Připojení ion . Chcete-li změnit výchozí katalog, na kartě Počáteční SQL zadejte USE CATALOG <catalog-name>.

Po úspěšném připojení pomocí Desktopu Tableau můžete sem zastavit. Zbývající informace v tomto článku se týkají dalších informací o Tableau, jako je nastavení Tableau Serveru v Linuxu, jak používat Tableau Online, a osvědčené postupy a řešení potíží s Tableau.

Tableau Server v Linuxu

Upravte /etc/odbcinst.ini následující položky:

[Simba Spark ODBC Driver 64-bit]
Description=Simba Spark ODBC Driver (64-bit)
Driver=/opt/simba/spark/lib/64/libsparkodbc_sb64.so

Poznámka:

Tableau Server v Linuxu doporučuje 64bitovou architekturu zpracování.

Publikování a aktualizace sešitu v Tableau Online

Tento článek ukazuje, jak publikovat sešit z Tableau Desktopu do Tableau Online a aktualizovat ho při změně zdroje dat. Potřebujete sešit v desktopové tabulce a účtu Tableau Online .

  1. Extrahujte data sešitu z Tableau Desktop: v desktopové tabulce se zobrazeným sešitem klikněte na <data-source-name>>> Data extrahovat data.
  2. V dialogovém okně Extrahovat data klepněte na tlačítko Extrahovat.
  3. Přejděte do umístění na místním počítači, kam chcete extrahovat data uložit, a potom klikněte na uložit.
  4. Publikujte zdroj dat sešitu do Tableau Online: v Desktopu Tableau klikněte na server > Publikovat zdroj ><data-source-name>dat .
  5. Pokud se zobrazí dialogové okno Přihlášení k serveru Tableau, klikněte na odkaz Tableau Online a podle pokynů na obrazovce se přihlaste k Tableau Online.
  6. V dialogovém okně Publikovat zdroj dat do Tableau Online vedle možnosti Aktualizovat není povoleno klikněte na odkaz Upravit .
  7. V zobrazeném rozevíracím rámečku pro ověřování změňte možnost Aktualizovat, aby povolte přístup k aktualizaci.
  8. Kliknutím na libovolné místo mimo tento kontext ho skryjete.
  9. Vyberte Aktualizovat sešit a použijte publikovaný zdroj dat.
  10. Klikněte na Publikovat. Zdroj dat se zobrazí v Tableau Online.
  11. V Tableau Online v dialogovém okně Dokončení publikování klikněte na Plán a postupujte podle pokynů na obrazovce.
  12. Publikujte sešit do Tableau Online: v Desktopu Tableau s sešitem, který chcete publikovat, klikněte na možnost Publikovat sešit serveru>.
  13. V dialogovém okně Publikovat sešit do Tableau Online klepněte na tlačítko Publikovat. Sešit se zobrazí v Tableau Online.

Tableau Online kontroluje změny ve zdroji dat podle nastaveného plánu a aktualizuje publikovaný sešit, pokud jsou zjištěny změny.

Další informace najdete na webu Tableau takto:

Osvědčené postupy a řešení problémů

Mezi dvě základní akce pro optimalizaci dotazů Tableau patří:

  • Snižte počet dotazovaných a vizualizovaných záznamů v jednom grafu nebo řídicím panelu.
  • Snižte počet dotazů odesílaných tabulkou v jednom grafu nebo řídicím panelu.

Rozhodnutí, které zkusit nejprve, závisí na řídicím panelu. Pokud máte několik různých grafů pro jednotlivé uživatele na stejném řídicím panelu, je pravděpodobné, že Tableau odesílá do Azure Databricks příliš mnoho dotazů. Pokud máte jenom několik grafů, ale jejich načtení trvá dlouho, pravděpodobně existuje příliš mnoho záznamů, které Azure Databricks vrací, aby se efektivně načetly.

Záznam výkonu Tableau, který je k dispozici na Desktopu Tableau i na Serveru Tableau, vám pomůže pochopit, kde jsou kritické body výkonu tím, že identifikuje procesy, které způsobují latenci při spuštění konkrétního pracovního postupu nebo řídicího panelu.

Povolení záznamu výkonu pro ladění jakéhokoli problému s Tableau

Pokud je například příčinou problému provádění dotazu, víte, že to souvisí s procesem datového stroje nebo zdrojem dat, který dotazujete. Pokud rozložení vizuálu funguje pomalu, víte, že se jedná o VizQL.

Pokud záznam výkonu říká, že latence probíhá v dotazu, je pravděpodobné, že Azure Databricks zabral příliš dlouhou dobu, než vrátí výsledky nebo rozhraní ODBC/Připojení or zpracovává data do SQL for VizQL. Když k tomu dojde, měli byste analyzovat to, co vracíte, a pokusit se změnit analytický vzor tak, aby měl řídicí panel pro každou skupinu, segment nebo článek, a nemuseli se pokoušet všechno zahltit do jednoho řídicího panelu a spoléhat se na rychlé filtry.

Pokud je nízký výkon způsoben řazením nebo rozložením vizuálu, může být příčinou problému počet značek, které se řídicí panel pokouší vrátit. Azure Databricks může rychle vrátit jeden milion záznamů, ale Tableau nemusí být schopen vypočítat rozložení a seřadit výsledky. Pokud se jedná o problém, agregujte dotaz a přejděte na nižší úrovně. Můžete také vyzkoušet větší počítač, protože Tableau je omezen pouze fyzickými prostředky na počítači, na kterém běží.

Podrobný kurz záznamu výkonu najdete v tématu Vytvoření záznamu výkonu.

Výkon na serveru Tableau versus Tableau Desktop

Obecně platí, že pracovní postup, který běží na Desktopu Tableau, není na Serveru Tableau rychlejší. Řídicí panel, který se nespustí na Desktopu Tableau, se na Serveru Tableau nespustí. To je důležité mít na paměti.

Práce na Desktopu je ve skutečnosti mnohem lepší technikou řešení potíží, protože Tableau Server má při řešení potíží více procesů, které je potřeba vzít v úvahu. A pokud to funguje na Desktopu Tableau, ale ne na Serveru Tableau, můžete problém bezpečně zúžit na procesy v Tableau Serveru, které nejsou v Tableau Desktopu.

Konfigurace

Ve výchozím nastavení přepíší parametry z adresy URL připojení v názvu DSN rozhraní SIMba ODBC. Konfigurace ODBC můžete přizpůsobit dvěma způsoby z Tableau:

  • .tds soubor pro jeden zdroj dat:

    1. Podle pokynů v části Uložit zdroje dat exportujte .tds soubor pro zdroj dat.
    2. Vyhledejte řádek odbc-connect-string-extras='' vlastnosti v .tds souboru a nastavte parametry. Chcete-li například povolit AutoReconnect a UseNativeQuery, můžete změnit řádek na odbc-connect-string-extras='AutoReconnect=1,UseNativeQuery=1'.
    3. Znovu načtěte .tds soubor opětovným připojením.

    Výpočetní prostředek je optimalizovaný tak, aby pro shromažďování velkých výsledků používal méně paměti haldy, takže může obsluhovat více řádků na každý blok načtení než výchozí simba ODBC. Připojte RowsFetchedPerBlock=100000' k hodnotě odbc-connect-string-extras vlastnosti.

  • .tdc soubor pro všechny zdroje dat:

    1. Pokud jste nikdy nevytvořili .tdc soubor, můžete do složky Document/My Tableau Repository/Datasourcespřidat TableauTdcExample.tdc .
    2. Přidejte soubor do všech instalací Tableau Desktopu všech vývojářů, aby fungoval při sdílení řídicích panelů.

Optimalizace grafů (listů)

Existuje řada taktických optimalizací grafů, které vám můžou pomoct zlepšit výkon listů Tableau.

U filtrů, které se často nemění a nejsou určené k interakci, použijte kontextové filtry, které urychlují dobu provádění. Dalším dobrým pravidlem je použití if/else příkazů místo case/when příkazů v dotazech.

Tableau může odesílat filtry do zdrojů dat, což může výrazně urychlit rychlost dotazů. Další informace o nabízených filtrech zdroje dat najdete v tématu Filtrování napříč více zdroji dat pomocí parametru a filtrování dat ve více zdrojích dat.

Nejlepší je vyhnout se výpočtům tabulek, pokud je to možné, protože potřebují prohledat celou datovou sadu. Další informace o výpočtech tabulek naleznete v tématu Transformace hodnot pomocí výpočtů tabulky.

Optimalizace řídicích panelů

Tady je řada tipů a cvičení pro řešení potíží, která můžete použít ke zlepšení výkonu řídicího panelu Tableau.

Běžným zdrojem problémů s řídicími panely Tableau připojenými k Azure Databricks je použití rychlých filtrů na jednotlivých řídicích panelech, které obsluhují řadu různých uživatelů, funkcí nebo segmentů. Globální rychlé filtry můžete připojit ke všem grafům na řídicím panelu. Je to skvělá funkce, ale ta, která může rychle způsobit problémy. Jeden globální rychlý filtr na řídicím panelu s pěti grafy způsobí odeslání minimálně 10 dotazů do Azure Databricks. To může vést k většímu počtu, protože se přidávají další filtry a můžou způsobit obrovské problémy s výkonem, protože Spark není sestavený tak, aby zpracovával mnoho souběžných dotazů, které začínají ve stejnou chvíli. Stává se to problematicjší, pokud cluster Azure Databricks nebo SQL Warehouse, který používáte, není dostatečně velký, aby zvládl velký objem dotazů.

Jako první krok doporučujeme použít záznam výkonu Tableau k řešení potíží s tím, co může být příčinou problému.

Pokud je nízký výkon způsoben řazením nebo rozložením vizuálu, může být příčinou problému počet značek, které se řídicí panel pokouší vrátit. Azure Databricks může rychle vrátit jeden milion záznamů, ale Tableau nemusí být schopen vypočítat rozložení a seřadit výsledky. Pokud se jedná o problém, agregujte dotaz a přejděte na nižší úrovně. Můžete také vyzkoušet větší počítač, protože Tableau je omezen pouze fyzickými prostředky na počítači, na kterém běží.

Informace o procházení k podrobnostem v Tableau najdete v části Přechod k podrobnostem.

Obecně platí, že zobrazení mnoha podrobných známek je často špatným analytickým vzorem, protože neposkytuje přehled. Procházení z vyšších úrovní agregace dává větší smysl a snižuje počet záznamů, které je potřeba zpracovat a vizualizovat.

Použití akcí k optimalizaci řídicích panelů

Pokud chcete přejít k podrobnostem ze skupiny do segmentu na článek, abyste získali stejnou analýzu a informace jako řídicí panel "oceán uvařený", můžete použít akce Tableau. Akce umožňují kliknout na značku (například stav na mapě) a odeslat se na jiný řídicí panel, který filtruje podle stavu, na který kliknete. Tím se snižuje potřeba mít mnoho filtrů na jednom řídicím panelu a snižuje počet záznamů, které je potřeba vygenerovat, protože můžete nastavit akci tak, aby negenerovala záznamy, dokud nezíská predikát, podle kterého se má filtrovat.

Další informace najdete v tématu Akce a 6 Tipy, aby byly řídicí panely výkonnější.

Ukládání do mezipaměti

Ukládání do mezipaměti data jsou dobrým způsobem, jak zlepšit výkon listů nebo řídicích panelů.

Ukládání do mezipaměti v Tableau

Tableau má čtyři vrstvy ukládání do mezipaměti, než se vrátí k datům, ať už jsou tato data v živém připojení, nebo v extrahování:

  • Dlaždice: Pokud někdo načítá stejný řídicí panel a nic se nezmění, pokusí se Tableau znovu použít stejné dlaždice pro grafy. Je to podobné dlaždicím Google Mapy.
  • Model: K vygenerování vizualizací se používají matematické výpočty v případě, že dlaždice nelze použít. Tableau Server se pokusí použít stejné modely.
  • Abstraktní: Agregované výsledky dotazů se také ukládají. Toto je třetí úroveň "obrany". Pokud dotaz vrátí Sum(Sales), Count(orders), Sum(Cost), v předchozím dotazu a budoucí dotaz chce jenom Sum(Sales), pak Tableau vezme tento výsledek a použije ho.
  • Nativní mezipaměť: Pokud je dotaz úplně stejný jako jiný, Tableau použije stejné výsledky. Toto je poslední úroveň ukládání do mezipaměti. Pokud se to nezdaří, tableau přejde na data.

frekvence Ukládání do mezipaměti v Tableau

Tableau má nastavení správy pro ukládání do mezipaměti více nebo méně často. Pokud je server nastavený na Aktualizovat méně často, Tableau uchovává data v mezipaměti po dobu až 12 hodin. Pokud je nastavená na aktualizovat častěji, Tableau se vrátí k datům na každé aktualizaci stránky.

Zákazníci, kteří mají stejný řídicí panel, který se znovu používá – například sestavy kanálu pondělí ráno – by měli být na serveru nastaveném na možnost Aktualizovat méně často, aby všechny řídicí panely používaly stejnou mezipaměť.

Oteplení mezipaměti v Tableau

V Tableau můžete mezipaměť zahřát nastavením předplatného řídicího panelu, které se má odeslat, než chcete řídicí panel zobrazit. Důvodem je to, že řídicí panel je potřeba vykreslit, aby se vygeneroval obrázek e-mailu předplatného. Viz Oteplení mezipaměti serveru Tableau pomocí předplatných.

Tableau Desktop: Zobrazí se chyba The drivers... are not properly installed

Problém: Při pokusu o připojení Tableau Desktop k Databricks zobrazí Tableau chybovou zprávu v dialogovém okně připojení s odkazem na stránku pro stažení ovladače, kde najdete odkazy na ovladače a pokyny k instalaci.

Příčina: Instalace Desktopu Tableau nemá podporovaný ovladač.

Řešení: Stáhněte si ovladač ODBC Databricks verze 2.6.15 nebo vyšší.

Viz také: Chyba "Ovladače... nejsou správně nainstalovány" na webu Tableau.

Další materiály