Rozpoznávání tváře a analýza mínění

Azure AI services
Azure Cosmos DB
Azure Cosmos DB
Azure HDInsight
Azure Synapse Analytics

Tento článek představuje řešení pro měření veřejného mínění v tweetech. Cílem je vytvořit transformační kanál, který vypíše clustery komentářů a populárních témat.

Apache®, Apache NiFi, Apache Hadoop, Apache Hive a Apache Airflow jsou registrované ochranné známky nebo ochranné známky Apache Software Foundation v USA nebo dalších zemích. Použití těchto značek nevyvozuje žádné doporučení ze strany The Apache Software Foundation.

Architektura

Diagram architektury kanálu Mezi komponenty patří služby pro příjem dat, transformaci dat, úložiště, analýzy, AI a prezentace dat.

Stáhněte si powerpointový soubor tohoto diagramu.

Kanál příjmu dat

Kanál pro příjem dat twitteru se skládá ze čtyř fází.

Shromažďování a ingestování dat

Následující komponenty ingestují tweety:

  • Systém souborů HDFS (Hadoop Distributed File System) (1)
  • Azure Synapse Analytics přes Azure Data Factory (4)
  • Azure Blob Storage (4)
  • Azure Cosmos DB (4)

Zpracování dat

Během zpracování dat:

  • Soubor JSON, který obsahuje data tweetu, se transformuje do formátu CSV (2).
  • Vytvoří se tabulky Apache Hivu a Azure Synapse Analytics (2).
  • Analýza mínění se spouští na tweetech (2).
  • Azure Cognitive Services zpracovává obrázky a identifikuje lidské tváře (2).

Ukládání dat

Následující komponenty ukládají data:

  • HDFS a Hive (3)
  • Azure Synapse Analytics (3)
  • Blob Storage (3)
  • Azure Cosmos DB (7)

Vizualizace dat

Řídicí panely Power BI zobrazují data z následujících zdrojů:

  • Hive (5)
  • Azure Synapse Analytics (6)
  • Azure Cosmos DB (8)

Tok dat

Diagram architektury znázorňující tok dat z Twitteru přes zpracování obrázků a analýzu mínění a do úložiště

Stáhněte si powerpointový soubor tohoto diagramu.

Tok dat řešení obsahuje tři hlavní části.

Příjem tweetů

Soubor s daty tweetu, který je ve formátu JSON, se transformuje do formátu CSV. Atributy se extrahují z dat JSON, aby se použily jako proměnné pro složení CSV.

Zpracování obrázků

Analýza mínění se spouští u tweetů, které obsahují obrázky. Po shromáždění obrázků se na obrázcích spustí procesy detekce tváře. Všechny lidské tváře, které jsou rozpoznány, jsou uloženy ve službě HDInsight.

Spuštění analýzy mínění

Na ingestované zprávy se spouští algoritmus sady nástrojů NLTK (Natural Language Toolkit). Analýza mínění se spouští na textu v tweetech. Výsledky se ukládají ve formátu CSV v tabulce Hive a data JSON se ukládají ve službě Azure Cosmos DB.

Komponenty

Diagram architektury znázorňující komponenty ve vrstvách ingestování, úložiště a zpracování řešení

Stáhněte si powerpointový soubor tohoto diagramu.

  • Data Factory poskytuje služby dávkové transformace pro různé zdroje a jímky. Služba Data Factory, která je klíčovou součástí zpracování velkých objemů dat, pomáhá zjednodušit úlohy extrakce,transformace a načítání (ETL). Data Factory také řeší složité a škálovací výzvy spojené s integrací velkých objemů dat.

  • NiFi automatizuje tok dat mezi softwarovými systémy. NiFi nabízí funkce zabezpečení, rozšiřitelné architektury a flexibilní model škálování. Zpracovává více zdrojů a více jímek s různými typy procesorů. Funkce NiFi zahrnují:

    • Spouštění transformací streamování
    • Propojení oddělených systémů v cloudu
    • Přesouvání dat do a ze služby Azure Storage a dalších úložišť dat
    • Integrace hraničních a cloudových aplikací a hybridních cloudových aplikací se službami Azure
    • Poskytuje robustní funkce původu dat.
  • HDInsight je platforma Hadoop pro data a analýzy pro místní prostředí. HDInsight může bezpečně ingestovat, ukládat a zpracovávat data v reálném čase a v dávkách. HDInsight je postaven na platformě Hortonworks Data Platform (HDP), opensourcové architektuře pro distribuované ukládání a zpracování velkých datových sad, které pocházejí z více zdrojů.

  • Azure Synapse Analytics je analytická služba pro datové sklady a systémy pro velké objemy dat. Centralizuje data v cloudu pro snadný přístup.

  • Azure Cosmos DB je plně spravovaná databáze NoSQL pro vývoj moderních aplikací. Díky poskytování jednociferné doby odezvy v milisekundách a automatické a okamžité škálovatelnosti zaručuje Azure Cosmos DB rychlost v libovolném měřítku. Dostupnost na úrovni smluv SLA a zabezpečení na podnikové úrovni zajišťují provozní kontinuitu.

  • Cognitive Services se skládá z cloudových služeb, které poskytují funkce AI. Rozhraní REST API a sady SDK klientské knihovny vám pomůžou zabudovat kognitivní inteligenci do aplikací i v případě, že nemáte dovednosti v oblasti AI nebo datových věd.

  • Power BI je služba obchodní analýzy, která je součástí platformy Microsoft Power Platform. Power BI poskytuje interaktivní vizualizace a funkce business intelligence. Jeho snadno použitelné rozhraní umožňuje uživatelům vytvářet vlastní sestavy a řídicí panely.

Alternativy

Většinu součástí řešení můžete nahradit alternativami. Příklad:

  • Místo clusteru HDInsight můžete použít cluster Cloudera.
  • Místo služby Data Factory můžete použít Azure Databricks. Azure Databricks může transformovat a ukládat data, ale můžete je také použít jako orchestrátor. Další alternativou je použít obě služby. Azure Databricks využívá také řada řešení, která používají Službu Data Factory.
  • Místo Nifi můžete použít Apache Airflow jako nástroj pracovního postupu, který spouští skripty ETL.
  • Pro hlavní úložiště souborů můžete místo Azure Cosmos DB použít Elasticsearch.
  • Pro služby řídicího panelu můžete místo Power BI použít Kibanu.

Podrobnosti scénáře

Branding je pro firmy důležitý, protože hodnota společnosti závisí na image této společnosti na trhu. S tím, jak se vaše společnost přesouvá k prediktivním rozhodnutím založeným na datech, nikoli k reaktivním rozhodnutím, musíte monitorovat a pochopit, co se děje v reálném čase. Chcete-li získat konkurenční výhodu, musíte použít analýzu sociálních médií k identifikaci a pochopení veřejného mínění. Spolu s identifikací mínění v tweetech můžete také rozpoznat tváře a obrázky.

Toto řešení měří veřejné mínění v tweetech. Transformační kanál vypíše clustery komentářů a populárních témat. Kanál přináší hodnotu díky bezproblémové integraci opensourcových řešení, jako jsou Apache NiFi a Azure HDInsight, se službami azure pro analýzu mínění a rozpoznávání tváří v Azure. Řešení se vztahuje na širokou škálu odvětví – monitorování sociálních sítí není omezené na jeden sektor.

Potenciální případy použití

Toto řešení je ideální pro všechny oblasti, které monitorují branding na sociálních sítích, včetně:

  • Marketing
  • Komunikace
  • Politika
  • Média a zábava
  • Nemovitosti a zařízení
  • Stravovací služby (cestování a pohostinství)
  • Fashion
  • Retail

Požadavky

Tyto aspekty implementují pilíře azure Well-Architected Framework, sady hlavních zásad, které můžete použít ke zlepšení kvality úlohy. Další informace najdete v tématu Microsoft Azure Well-Architected Framework.

V závislosti na nástrojích pro zpracování a počtu zdrojů, které používáte, můžete být schopni zjednodušit transformace a vizualizace řešení. Pokud je to možné, zvažte použití základního kanálu s jednou jímkou. Místo toho, abyste používali více zdrojů a více řídicích panelů, vysíláte tento kanál do jednoho řídicího panelu.

Tento příklad používá co nejvíce služeb. Díky tomuto přístupu můžete porovnat výkon a prostředí, které s Power BI máte, napříč různými zdroji a datovými typy.

Spolehlivost

Spolehlivost zajišťuje, aby vaše aplikace splňovala závazky, které jste vůči svým zákazníkům udělali. Další informace najdete v tématu Přehled pilíře spolehlivosti.

V produkčních prostředích vyhodnoťte časový cíl obnovení (RTO) a cíl bodu obnovení (RPO). Všechna rozhodnutí a scénáře zotavení po havárii závisí na těchto vyhodnoceních.

Ve většině případů potřebujete pro každý nástroj službu vysoké dostupnosti. Pro efektivní zotavení po havárii je důležité snížit rto. Pokud ale máte vysokou dostupnost, můžete se vyhnout scénářům havárie. Můžete například vytvořit služby v jiné oblasti.

Zabezpečení

Zabezpečení poskytuje záruku před úmyslnými útoky a zneužitím vašich cenných dat a systémů. Další informace najdete v tématu Přehled pilíře zabezpečení.

Zaměřte se na silný stav zabezpečení pomocí systému založeného na identitách a nativních nástrojů Azure. U externích komponent použijte nástroje pro externí ověřování, jako je Kerberos, abyste zajistili robustní a zabezpečené úlohy.

Optimalizace nákladů

Informace o vytvoření nákladově efektivní úlohy najdete v tématu Přehled pilíře optimalizace nákladů.

Efektivita provozu

Efektivita provozu zahrnuje provozní procesy, které nasazují aplikaci a udržují ji v provozu. Další informace najdete v tématu Přehled pilíře efektivity provozu.

Centralizace protokolů monitorování ze všech služeb Řešení používá externí nástroje a nástroje nativní pro Azure. Pokud chcete dosáhnout holistického pohledu na všechny systémy, integrujte data monitorování ze všech nástrojů.

Efektivita výkonu

Efektivita výkonu je schopnost úlohy škálovat se tak, aby efektivním způsobem splňovala požadavky, které na ni kladou uživatelé. Další informace najdete v tématu Přehled pilířů efektivity výkonu.

Vzhledem k tomu, že řešení používá více zdrojů, zvažte kompresi jako součást procesu. Zvažte také formáty souborů, které používáte. Nakonfigurujte Službu Azure Cosmos DB, abyste dosáhli kompromisu mezi latencí a úrovní konzistence. V průběhu procesu ale monitorujte a vyhodnocujte výkon služby Azure Cosmos DB, abyste zabránili tomu, že se tato komponenta stane kritickým bodem. Pokud chcete snížit latenci, zvažte rozdělení dat podle umístění nebo přesunutí zdrojů dat blízko místa, kde je používáte.

Přispěvatelé

Tento článek spravuje Microsoft. Původně ji napsali následující přispěvatelé.

Hlavní autoři:

Další kroky