Ez a cikk egy megoldást mutat be a közvélemény tweetekben való közzétételére. A cél egy olyan átalakítási folyamat létrehozása, amely megjegyzésfürtöket és trendi témákat ad ki.
Az Apache®, az Apache NiFi, az Apache Hadoop, az Apache Hive és az Apache Airflow az Apache Software Foundation bejegyzett védjegyei vagy védjegyei a Egyesült Államok és/vagy más országokban. Az Apache Software Foundation nem támogatja ezeket a jeleket.
Architektúra
Töltse le a diagram PowerPoint-fájlját .
Betöltési folyamat
A Twitter betöltési folyamata négy szakaszból áll.
Adatok gyűjtése és betöltése
A következő összetevők betöltik a tweeteket:
- Hadoop elosztott fájlrendszer (HDFS) (1)
- Azure Synapse Analytics Azure Data Factory használatával (4)
- Azure Blob Storage (4)
- Azure Cosmos DB (4)
Adatok feldolgozása
Adatfeldolgozás során:
- A tweetadatokat tartalmazó JSON-fájl CSV formátumban (2) lesz átalakítva.
- Apache Hive- és Azure Synapse Analytics-táblák jönnek létre (2).
- A hangulatelemzés a tweeteken fut (2).
- Az Azure Cognitive Services feldolgozza a képeket, és azonosítja az emberi arcokat (2).
Adattárolás
Az alábbi összetevők tárolják az adatokat:
- HDFS és Hive (3)
- Azure Synapse Analytics (3)
- Blob Storage (3)
- Azure Cosmos DB (7)
Adatok vizualizációja
A Power BI-irányítópultok az alábbi forrásokból származó adatokat jelenítik meg:
- Hive (5)
- Azure Synapse Analytics (6)
- Azure Cosmos DB (8)
Adatfolyam
Töltse le a diagram PowerPoint-fájlját .
A megoldás adatfolyama három fő részből áll.
Tweetek betöltése
A JSON formátumú tweetadatokat tartalmazó fájl CSV formátumúvá alakul. Az attribútumok kinyerése a JSON-adatokból a CSV-összetétel változóiként való használatra.
Képek feldolgozása
A hangulatelemzés képeket tartalmazó tweeteken fut. A képek összegyűjtése után arcészlelési folyamatok futnak a képeken. A felismert emberi arcok a HDInsightban vannak tárolva.
Hangulatelemzés futtatása
Egy természetes nyelvi eszközkészlet (NLTK) algoritmus fut a betöltött üzeneteken. A hangulatelemzés a tweetekben lévő szövegen fut. Az eredmények CSV formátumban, Hive-táblában vannak tárolva, a JSON-adatok pedig az Azure Cosmos DB-ben vannak tárolva.
Összetevők
Töltse le a diagram PowerPoint-fájlját .
A Data Factory kötegelt átalakítási szolgáltatásokat nyújt a különböző forrásokhoz és fogadókhoz. A big data-feldolgozás kulcsfontosságú összetevőjeként a Data Factory segít leegyszerűsíteni a kinyerési-átalakítási-betöltési (ETL-) számítási feladatokat. A Data Factory a big data-integráció összetettségével és skálázható kihívásaival is foglalkozik.
A NiFi automatizálja az adatáramlást a szoftverrendszerek között. A NiFi biztonsági funkciókat, bővíthető architektúrát és rugalmas skálázási modellt kínál. Több forrást és több fogadót kezel különböző típusú processzorokkal. A NiFi funkciói a következőket tartalmazzák:
- Streamelési átalakítások futtatása.
- Leválasztott rendszerek csatlakoztatása a felhőben.
- Adatok áthelyezése az Azure Storage-ból és más adattárakból.
- Peremhálózati és hibridfelhős alkalmazások integrálása az Azure-szolgáltatásokkal.
- Robusztus adatelőtűnési képességek biztosítása.
A HDInsight egy Hadoop-platform a helyszíni környezetek adat- és elemzési szolgáltatásához. A HDInsight biztonságosan betöltheti, tárolhatja és feldolgozhatja az adatokat valós időben és kötegekben. A HDInsight a Hortonworks Data Platformra (HDP) épül, amely nyílt forráskódú keretrendszer a több forrásból származó nagy adathalmazok elosztott tárolására és feldolgozására.
A Azure Synapse Analytics adatraktárak és big data-rendszerek elemzési szolgáltatása. Központosítja az adatokat a felhőben a könnyű hozzáférés érdekében.
Az Azure Cosmos DB egy teljes mértékben felügyelt NoSQL-adatbázis a modern alkalmazásfejlesztéshez. Az egy számjegyű ezredmásodpercnyi válaszidő és az automatikus és azonnali skálázhatóság révén az Azure Cosmos DB bármilyen léptékben garantálja a sebességet. Az SLA-alapú rendelkezésre állás és a nagyvállalati szintű biztonság biztosítja az üzletmenet folytonosságát.
A Cognitive Services felhőalapú szolgáltatásokból áll, amelyek AI-funkciókat biztosítanak. A REST API-k és az ügyfélkódtár-SDK-k segítségével akkor is fejleszthet kognitív intelligenciát alkalmazásokba, ha nem rendelkezik mesterséges intelligenciával vagy adatelemzési készségekkel.
A Power BI egy üzleti elemzési szolgáltatás, amely a Microsoft Power Platform része. A Power BI interaktív vizualizációkat és üzletiintelligencia-képességeket biztosít. A könnyen használható felület lehetővé teszi, hogy a felhasználók saját jelentéseket és irányítópultokat hozzanak létre.
Alternatív megoldások
A legtöbb megoldásösszetevő alternatíváit helyettesítheti. Például:
- HDInsight-fürt helyett használhat Cloudera-fürtöt.
- A Data Factory helyett használhatja az Azure Databrickset. Az Azure Databricks átalakíthatja és tárolhatja az adatokat, de vezénylőként is használhatja. Másik alternatíva mindkét szolgáltatás használata. A Data Factoryt használó számos megoldás az Azure Databrickset is használja.
- A Nifi helyett az Apache Airflow-t használhatja ETL-szkripteket futtató munkafolyamat-eszközként.
- A fő fájladattárhoz használhatja az Elasticsearch-et az Azure Cosmos DB helyett.
- Irányítópult-szolgáltatások esetén a Power BI helyett a Kibana használható.
Forgatókönyv részletei
A márkaépítés fontos a vállalatok számára, mivel a vállalat értéke attól függ, hogy a piac milyen képet képvisel a vállalatról. Miközben a vállalata a reaktív döntések helyett prediktív, adatvezérelt döntéseket hoz, figyelnie kell és meg kell értenie, hogy mi történik valós időben. A versenyelőny eléréséhez közösségimédia-elemzéssel kell azonosítania és megértenie a közvéleményt. A tweetek hangulatának azonosítása mellett az arcok és képek felismerését is választhatja.
Ez a megoldás tweetekben méri a közvéleményt. Az átalakítási folyamat megjegyzésfürtöket és trendi témákat ad ki. A folyamat úgy biztosít értéket, hogy zökkenőmentesen integrálja az olyan nyílt forráskódú megoldásokat, mint az Apache NiFi és az Azure HDInsight az Azure hangulatelemzési és arcfelismerési szolgáltatásaival. A megoldás számos iparágra vonatkozik – a közösségi hálózatok monitorozása nem korlátozódik egyetlen ágazatra.
Lehetséges használati esetek
Ez a megoldás ideális minden olyan területhez, amely figyeli a védjegyzést a közösségi hálózatokon, beleértve a következőket:
- Marketing
- Kommunikáció
- Politika
- Média és szórakozás
- Ingatlanok és létesítmények
- Élelmiszer-szolgáltatás (utazás és vendéglátás)
- Divat
- Retail
Megfontolandó szempontok
Ezek a szempontok az Azure Well-Architected-keretrendszer alappilléreit valósítják meg, amelyek a számítási feladatok minőségének javításához használható alapvető szempontok. További információ: Microsoft Azure Well-Architected Framework.
A használt feldolgozási eszközöktől és források számától függően egyszerűsítheti a megoldás átalakításait és vizualizációit. Ha lehetséges, fontolja meg egy alapszintű folyamat használatát egy fogadóval. Ahelyett, hogy több forrást és több irányítópultot használ, ezt a folyamatot egyetlen irányítópultba kell becsatornázni.
Ez a példa a lehető legtöbb szolgáltatást használja. Ezzel a megközelítéssel összehasonlíthatja a Power BI-jal elérhető teljesítményt és élményt a különböző források és adattípusok között.
Megbízhatóság
A megbízhatóság biztosítja, hogy az alkalmazás megfeleljen az ügyfelek felé vállalt kötelezettségeknek. További információ: A megbízhatósági pillér áttekintése.
Éles környezetben értékelje ki a helyreállítási idő célkitűzését (RTO) és a helyreállítási időkorlátot (RPO). Minden vészhelyreállítási döntés és forgatókönyv ezektől az értékelésektől függ.
A legtöbb esetben minden eszközhöz magas rendelkezésre állású szolgáltatásra van szükség. A hatékony vészhelyreállítás érdekében fontos csökkenteni az RTO-t. Ha azonban magas rendelkezésre állása van, elkerülheti a vészhelyzeteket. Előfordulhat például, hogy egy másik régióban hoz létre szolgáltatásokat.
Biztonság
A biztonság biztosítékot nyújt a szándékos támadások és az értékes adatokkal és rendszerekkel való visszaélés ellen. További információ: A biztonsági pillér áttekintése.
Egy identitásalapú rendszer és natív Azure-eszközök használatával törekedje az erős biztonsági helyzetre. Külső összetevők esetén használjon külső hitelesítési eszközöket, például a Kerberost a robusztus és biztonságos számítási feladatok biztosításához.
Költségoptimalizálás
A költséghatékony számítási feladatok létrehozásával kapcsolatos információkért tekintse át a költségoptimalizálási pillér áttekintését.
Működésbeli kiválóság
A működési kiválóság magában foglalja azokat az üzemeltetési folyamatokat, amelyek üzembe helyeznek egy alkalmazást, és éles környezetben futtatják. További információ: Az operatív kiválósági pillér áttekintése.
Központosítsa a figyelési naplókat az összes szolgáltatásból. A megoldás az Azure-ban natív külső eszközöket és eszközöket használ. Az összes rendszer holisztikus nézetének eléréséhez integrálja az összes eszköz figyelési adatait.
Teljesítménybeli hatékonyság
A teljesítménybeli hatékonyság lehetővé teszi, hogy a számítási feladatok hatékonyan méretezhetők legyenek a felhasználók igényei szerint. További információ: Teljesítményhatékonysági pillér áttekintése.
Mivel a megoldás több forrást használ, fontolja meg a tömörítést a folyamat részeként. Vegye figyelembe a használt fájlformátumokat is. Konfigurálja az Azure Cosmos DB-t a késési és konzisztenciaszintek közötti kompromisszum eléréséhez. De figyelje és értékelje az Azure Cosmos DB teljesítményét a folyamat során, hogy megakadályozza, hogy ez az összetevő szűk keresztmetszetté váljon. A késés csökkentése érdekében fontolja meg az adatok hely szerinti particionálását, vagy az adatforrások áthelyezését a használt helyhez közel.
Közreműködők
Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.
Fő szerzők:
- Jose Mendez | Vezető felhőmegoldás-tervező
- Katie Novotny | Vezető felhőmegoldás-tervező
Következő lépések
- Mi az a Azure Data Factory?
- Mi az az Azure HDInsight?
- Az Azure Blob Storage bemutatása
- Mi a dedikált SQL-készlet (korábban SQL DW) az Azure Synapse Analyticsben?
- Bevezetés az Azure Cosmos DB-e
- Miket foglal magában az Azure Cognitive Services?
- Mi az a Power BI?
- Cognitive Services létrehozása és felhasználása
- Szöveg elemzése a Language szolgáltatással
- Arcok észlelése és elemzése a Face szolgáltatással