Szerkesztés

Share via


Arcfelismerés és hangulatelemzés

Azure AI services
Azure Cosmos DB
Azure Cosmos DB
Azure HDInsight
Azure Synapse Analytics

Ez a cikk egy megoldást mutat be a közvélemény tweetekben való közzétételére. A cél egy olyan átalakítási folyamat létrehozása, amely megjegyzésfürtöket és trendi témákat ad ki.

Az Apache®, az Apache NiFi, az Apache Hadoop, az Apache Hive és az Apache Airflow az Apache Software Foundation bejegyzett védjegyei vagy védjegyei a Egyesült Államok és/vagy más országokban. Az Apache Software Foundation nem támogatja ezeket a jeleket.

Architektúra

Folyamat architektúradiagramja. Az összetevők közé tartoznak a betöltéshez, az adatátalakításhoz, a tároláshoz, az elemzéshez, az AI-hoz és az adatbemutatáshoz szükséges szolgáltatások.

Töltse le a diagram PowerPoint-fájlját .

Betöltési folyamat

A Twitter betöltési folyamata négy szakaszból áll.

Adatok gyűjtése és betöltése

A következő összetevők betöltik a tweeteket:

  • Hadoop elosztott fájlrendszer (HDFS) (1)
  • Azure Synapse Analytics Azure Data Factory használatával (4)
  • Azure Blob Storage (4)
  • Azure Cosmos DB (4)

Adatok feldolgozása

Adatfeldolgozás során:

  • A tweetadatokat tartalmazó JSON-fájl CSV formátumban (2) lesz átalakítva.
  • Apache Hive- és Azure Synapse Analytics-táblák jönnek létre (2).
  • A hangulatelemzés a tweeteken fut (2).
  • Az Azure Cognitive Services feldolgozza a képeket, és azonosítja az emberi arcokat (2).

Adattárolás

Az alábbi összetevők tárolják az adatokat:

  • HDFS és Hive (3)
  • Azure Synapse Analytics (3)
  • Blob Storage (3)
  • Azure Cosmos DB (7)

Adatok vizualizációja

A Power BI-irányítópultok az alábbi forrásokból származó adatokat jelenítik meg:

  • Hive (5)
  • Azure Synapse Analytics (6)
  • Azure Cosmos DB (8)

Adatfolyam

Architektúradiagram, amely a Twitterről, a képfeldolgozáson és a hangulatelemzésen keresztül, valamint a tárolóba történő adatáramlást mutatja be.

Töltse le a diagram PowerPoint-fájlját .

A megoldás adatfolyama három fő részből áll.

Tweetek betöltése

A JSON formátumú tweetadatokat tartalmazó fájl CSV formátumúvá alakul. Az attribútumok kinyerése a JSON-adatokból a CSV-összetétel változóiként való használatra.

Képek feldolgozása

A hangulatelemzés képeket tartalmazó tweeteken fut. A képek összegyűjtése után arcészlelési folyamatok futnak a képeken. A felismert emberi arcok a HDInsightban vannak tárolva.

Hangulatelemzés futtatása

Egy természetes nyelvi eszközkészlet (NLTK) algoritmus fut a betöltött üzeneteken. A hangulatelemzés a tweetekben lévő szövegen fut. Az eredmények CSV formátumban, Hive-táblában vannak tárolva, a JSON-adatok pedig az Azure Cosmos DB-ben vannak tárolva.

Összetevők

Architektúradiagram, amely a megoldás betöltési, tárolási és feldolgozási rétegeinek összetevőit mutatja be.

Töltse le a diagram PowerPoint-fájlját .

  • A Data Factory kötegelt átalakítási szolgáltatásokat nyújt a különböző forrásokhoz és fogadókhoz. A big data-feldolgozás kulcsfontosságú összetevőjeként a Data Factory segít leegyszerűsíteni a kinyerési-átalakítási-betöltési (ETL-) számítási feladatokat. A Data Factory a big data-integráció összetettségével és skálázható kihívásaival is foglalkozik.

  • A NiFi automatizálja az adatáramlást a szoftverrendszerek között. A NiFi biztonsági funkciókat, bővíthető architektúrát és rugalmas skálázási modellt kínál. Több forrást és több fogadót kezel különböző típusú processzorokkal. A NiFi funkciói a következőket tartalmazzák:

    • Streamelési átalakítások futtatása.
    • Leválasztott rendszerek csatlakoztatása a felhőben.
    • Adatok áthelyezése az Azure Storage-ból és más adattárakból.
    • Peremhálózati és hibridfelhős alkalmazások integrálása az Azure-szolgáltatásokkal.
    • Robusztus adatelőtűnési képességek biztosítása.
  • A HDInsight egy Hadoop-platform a helyszíni környezetek adat- és elemzési szolgáltatásához. A HDInsight biztonságosan betöltheti, tárolhatja és feldolgozhatja az adatokat valós időben és kötegekben. A HDInsight a Hortonworks Data Platformra (HDP) épül, amely nyílt forráskódú keretrendszer a több forrásból származó nagy adathalmazok elosztott tárolására és feldolgozására.

  • A Azure Synapse Analytics adatraktárak és big data-rendszerek elemzési szolgáltatása. Központosítja az adatokat a felhőben a könnyű hozzáférés érdekében.

  • Az Azure Cosmos DB egy teljes mértékben felügyelt NoSQL-adatbázis a modern alkalmazásfejlesztéshez. Az egy számjegyű ezredmásodpercnyi válaszidő és az automatikus és azonnali skálázhatóság révén az Azure Cosmos DB bármilyen léptékben garantálja a sebességet. Az SLA-alapú rendelkezésre állás és a nagyvállalati szintű biztonság biztosítja az üzletmenet folytonosságát.

  • A Cognitive Services felhőalapú szolgáltatásokból áll, amelyek AI-funkciókat biztosítanak. A REST API-k és az ügyfélkódtár-SDK-k segítségével akkor is fejleszthet kognitív intelligenciát alkalmazásokba, ha nem rendelkezik mesterséges intelligenciával vagy adatelemzési készségekkel.

  • A Power BI egy üzleti elemzési szolgáltatás, amely a Microsoft Power Platform része. A Power BI interaktív vizualizációkat és üzletiintelligencia-képességeket biztosít. A könnyen használható felület lehetővé teszi, hogy a felhasználók saját jelentéseket és irányítópultokat hozzanak létre.

Alternatív megoldások

A legtöbb megoldásösszetevő alternatíváit helyettesítheti. Például:

  • HDInsight-fürt helyett használhat Cloudera-fürtöt.
  • A Data Factory helyett használhatja az Azure Databrickset. Az Azure Databricks átalakíthatja és tárolhatja az adatokat, de vezénylőként is használhatja. Másik alternatíva mindkét szolgáltatás használata. A Data Factoryt használó számos megoldás az Azure Databrickset is használja.
  • A Nifi helyett az Apache Airflow-t használhatja ETL-szkripteket futtató munkafolyamat-eszközként.
  • A fő fájladattárhoz használhatja az Elasticsearch-et az Azure Cosmos DB helyett.
  • Irányítópult-szolgáltatások esetén a Power BI helyett a Kibana használható.

Forgatókönyv részletei

A márkaépítés fontos a vállalatok számára, mivel a vállalat értéke attól függ, hogy a piac milyen képet képvisel a vállalatról. Miközben a vállalata a reaktív döntések helyett prediktív, adatvezérelt döntéseket hoz, figyelnie kell és meg kell értenie, hogy mi történik valós időben. A versenyelőny eléréséhez közösségimédia-elemzéssel kell azonosítania és megértenie a közvéleményt. A tweetek hangulatának azonosítása mellett az arcok és képek felismerését is választhatja.

Ez a megoldás tweetekben méri a közvéleményt. Az átalakítási folyamat megjegyzésfürtöket és trendi témákat ad ki. A folyamat úgy biztosít értéket, hogy zökkenőmentesen integrálja az olyan nyílt forráskódú megoldásokat, mint az Apache NiFi és az Azure HDInsight az Azure hangulatelemzési és arcfelismerési szolgáltatásaival. A megoldás számos iparágra vonatkozik – a közösségi hálózatok monitorozása nem korlátozódik egyetlen ágazatra.

Lehetséges használati esetek

Ez a megoldás ideális minden olyan területhez, amely figyeli a védjegyzést a közösségi hálózatokon, beleértve a következőket:

  • Marketing
  • Kommunikáció
  • Politika
  • Média és szórakozás
  • Ingatlanok és létesítmények
  • Élelmiszer-szolgáltatás (utazás és vendéglátás)
  • Divat
  • Retail

Megfontolandó szempontok

Ezek a szempontok az Azure Well-Architected-keretrendszer alappilléreit valósítják meg, amelyek a számítási feladatok minőségének javításához használható alapvető szempontok. További információ: Microsoft Azure Well-Architected Framework.

A használt feldolgozási eszközöktől és források számától függően egyszerűsítheti a megoldás átalakításait és vizualizációit. Ha lehetséges, fontolja meg egy alapszintű folyamat használatát egy fogadóval. Ahelyett, hogy több forrást és több irányítópultot használ, ezt a folyamatot egyetlen irányítópultba kell becsatornázni.

Ez a példa a lehető legtöbb szolgáltatást használja. Ezzel a megközelítéssel összehasonlíthatja a Power BI-jal elérhető teljesítményt és élményt a különböző források és adattípusok között.

Megbízhatóság

A megbízhatóság biztosítja, hogy az alkalmazás megfeleljen az ügyfelek felé vállalt kötelezettségeknek. További információ: A megbízhatósági pillér áttekintése.

Éles környezetben értékelje ki a helyreállítási idő célkitűzését (RTO) és a helyreállítási időkorlátot (RPO). Minden vészhelyreállítási döntés és forgatókönyv ezektől az értékelésektől függ.

A legtöbb esetben minden eszközhöz magas rendelkezésre állású szolgáltatásra van szükség. A hatékony vészhelyreállítás érdekében fontos csökkenteni az RTO-t. Ha azonban magas rendelkezésre állása van, elkerülheti a vészhelyzeteket. Előfordulhat például, hogy egy másik régióban hoz létre szolgáltatásokat.

Biztonság

A biztonság biztosítékot nyújt a szándékos támadások és az értékes adatokkal és rendszerekkel való visszaélés ellen. További információ: A biztonsági pillér áttekintése.

Egy identitásalapú rendszer és natív Azure-eszközök használatával törekedje az erős biztonsági helyzetre. Külső összetevők esetén használjon külső hitelesítési eszközöket, például a Kerberost a robusztus és biztonságos számítási feladatok biztosításához.

Költségoptimalizálás

A költséghatékony számítási feladatok létrehozásával kapcsolatos információkért tekintse át a költségoptimalizálási pillér áttekintését.

Működésbeli kiválóság

A működési kiválóság magában foglalja azokat az üzemeltetési folyamatokat, amelyek üzembe helyeznek egy alkalmazást, és éles környezetben futtatják. További információ: Az operatív kiválósági pillér áttekintése.

Központosítsa a figyelési naplókat az összes szolgáltatásból. A megoldás az Azure-ban natív külső eszközöket és eszközöket használ. Az összes rendszer holisztikus nézetének eléréséhez integrálja az összes eszköz figyelési adatait.

Teljesítménybeli hatékonyság

A teljesítménybeli hatékonyság lehetővé teszi, hogy a számítási feladatok hatékonyan méretezhetők legyenek a felhasználók igényei szerint. További információ: Teljesítményhatékonysági pillér áttekintése.

Mivel a megoldás több forrást használ, fontolja meg a tömörítést a folyamat részeként. Vegye figyelembe a használt fájlformátumokat is. Konfigurálja az Azure Cosmos DB-t a késési és konzisztenciaszintek közötti kompromisszum eléréséhez. De figyelje és értékelje az Azure Cosmos DB teljesítményét a folyamat során, hogy megakadályozza, hogy ez az összetevő szűk keresztmetszetté váljon. A késés csökkentése érdekében fontolja meg az adatok hely szerinti particionálását, vagy az adatforrások áthelyezését a használt helyhez közel.

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerzők:

Következő lépések