Azure Cognitive Services för stordata
Med Azure Cognitive Services för stordata kan användare kanalkanala flera terabyte data via Cognitive Services med Apache Spark ™ . Med Cognitive Services för stordata är det enkelt att skapa storskaliga intelligenta program med val annat datalager.
Med Cognitive Services för stordata kan du bädda in ständigt förbättrade, intelligenta modeller direkt i Apache Spark ™ och SQL beräkningar. Dessa verktyg hjälper utvecklare från nätverksinformation på låg nivå så att de kan fokusera på att skapa smarta, distribuerade program.
Funktioner och fördelar
Cognitive Services för stordata kan använda tjänster från valfri region i världen, samt containeriserade Cognitive Services. Containrar stöder distributioner med låg eller ingen anslutning med svar med extremt låg latens. Containeriserad Cognitive Services kan köras lokalt, direkt på arbetsnoderna i ditt Spark-kluster eller på en extern initierare som Kubernetes.
Tjänster som stöds
Cognitive Services,som nås via API:er och SDK:er, hjälper utvecklare att skapa intelligenta program utan att ha AI- eller datavetenskapskunskaper. Med Cognitive Services kan du få dina program att se, höra, tala, förstå och orsak. Om du vill Cognitive Services måste programmet skicka data till tjänsten via nätverket. När den har tagits emot skickar tjänsten ett intelligent svar i utbyte. Följande tjänster är tillgängliga för arbetsbelastningar med stordata:
Visuellt innehåll
| Tjänstens namn | Beskrivning av tjänst |
|---|---|
| Visuellt innehåll | Tjänsten Visuellt innehåll ger dig tillgång till avancerade algoritmer för bearbetning av bilder och returnering av information. |
| Ansiktsigenkänning | Tjänsten Ansiktsigenkänning ger åtkomst till avancerade ansiktsalgoritmer, vilket möjliggör identifiering och igenkänning av ansiktsattribut. |
Speech
| Tjänstens namn | Beskrivning av tjänst |
|---|---|
| Speech Service | Taltjänsten ger åtkomst till funktioner som taligenkänning, talsyntes, talöversättning och talarverifiering och identifiering. |
Beslut
| Tjänstens namn | Beskrivning av tjänst |
|---|---|
| Avvikelseidentifiering | Med Avvikelseidentifiering (förhandsversion) kan du övervaka och identifiera avvikelser i dina tidsseriedata. |
Språk
| Tjänstens namn | Beskrivning av tjänst |
|---|---|
| Språktjänst | Language Service tillhandahåller bearbetning av naturligt språk i råtext för attitydanalys, extrahering av nyckelfraser och språkidentifiering. |
Sök
| Tjänstens namn | Beskrivning av tjänst |
|---|---|
| Bildsökning i Bing | Tjänsten Bing Bildsökning returnerar en visning av bilder som har fastställts vara relevanta för användarens fråga. |
Programmeringsspråk som stöds för Cognitive Services för stordata
Den Cognitive Services för stordata bygger på Apache Spark. Apache Spark är ett bibliotek för distribuerad databehandling som stöder Java, Scala, Python, R och många andra språk. Dessa språk stöds för närvarande.
Python
Vi tillhandahåller ett PySpark-API i mmlspark.cognitive namnområdet Microsoft ML för Apache Spark. Mer information finns i Python Developer API. Användningsexempel finns i Python-exempel.
Scala och Java
Vi tillhandahåller ett Scala- och Java-baserat Spark-API i com.microsoft.ml.spark.cognitive namnområdet för Microsoft ML för Apache Spark. Mer information finns i Scala Developer API. Användningsexempel finns i Scala-exempel.
Plattformar och anslutningsappar som stöds
För Cognitive Services för stordata krävs Apache Spark. Det finns flera Apache Spark plattformar som stöder Cognitive Services för stordata.
Azure Databricks
Azure Databricks är en Apache Spark-baserad analysplattform som är optimerad för Microsoft Azures plattform för molntjänster. Det ger konfiguration med ett klick, effektiva arbetsflöden och en interaktiv arbetsyta som stöder samarbete mellan dataforskare, datatekniker och affärsanalytiker.
Azure Synapse Analytics
Azure Synapse Analytics är som ett informationslager för företag som använder massiv parallell bearbetning. Med Synapse Analytics kan du snabbt köra komplexa frågor över petabyte med data. Azure Synapse Analytics tillhandahåller hanterade Spark-pooler för att köra Spark-jobb med ett intuitivt Jupyter Notebook gränssnitt.
Azure Kubernetes Service
Azure Kubernetes Service (AKS) orkestrering av Docker-containrar och distribuerade program i massiv skala. AKS är ett hanterat Kubernetes-erbjudande som förenklar användningen av Kubernetes i Azure. Kubernetes kan ge mer omfattande kontroll över Cognitive Service-skalning, svarstid och nätverk. Vi rekommenderar dock att Azure Databricks eller Azure Synapse Analytics om du inte är bekant med Apache Spark.
Datakopplingar
När du har ett Spark-kluster är nästa steg att ansluta till dina data. Apache Spark har en bred samling databasanslutningar. De här anslutningsapparna gör att program kan arbeta med stora datamängder oavsett var de lagras. Mer information om databaser och anslutningsappar som stöds finns i listan över datakällor som stöds för Azure Databricks.
Begrepp
Spark
Apache Spark ™ är en enhetlig analysmotor för storskalig databearbetning. Det parallella bearbetningsramverket ger bättre prestanda för stordata och analysprogram. Spark kan fungera som både ett batchbearbetningssystem och ett dataströmbearbetningssystem utan att ändra kärnprogramkoden.
Grunden för Spark är DataFrame: en tabellsamling med data som distribueras över Apache Spark arbetsnoder. En Spark DataFrame är som en tabell i en relationsdatabas eller en dataram i R/Python, men med obegränsad skala. DataFrames kan konstrueras från många källor, till exempel strukturerade datafiler, tabeller i Hive eller externa databaser. När dina data finns i en Spark DataFrame kan du:
- Gör SQL beräkningar, till exempel kopplings- och filtertabeller.
- Tillämpa funktioner på stora datamängder med parallellitet i MapReduce-format.
- Tillämpa distribuerade Machine Learning microsoft-Machine Learning för Apache Spark.
- Använd Cognitive Services för stordata för att utöka dina data med intelligenta tjänster som är färdiga att använda.
Microsoft Machine Learning for Apache Spark (MMLSpark)
Microsoft Machine Learning for Apache Spark (MMLSpark) är ett distribuerat maskininlärningsbibliotek (ML) med öppen källkod som bygger Apache Spark. Den Cognitive Services för stordata ingår i det här paketet. MMLSpark innehåller dessutom flera andra ML-verktyg för Apache Spark, till exempel LightGBM, Vowpal Wabbit, OpenCV, MP med flera. Med MMLSpark kan du skapa kraftfulla förutsägelse- och analysmodeller från valfri Spark-datakälla.
HTTP på Spark
Cognitive Services för stordata är ett exempel på hur vi kan integrera intelligenta webbtjänster med stordata. Webbtjänster driver många program över hela världen och de flesta tjänster kommunicerar via Hypertext Transfer Protocol (HTTP). För att arbeta med godtyckliga webbtjänster i stor skala tillhandahåller vi HTTP på Spark. Med HTTP på Spark kan du skicka flera terabyte data via valfri webbtjänst. Under huven använder vi den här tekniken för att driva Cognitive Services stordata.
Utvecklarexempel
Blogginlägg
- Läs mer om hur Cognitive Services fungerar på Apache Spark™
- Spara SnowSpars med Deep Learning och Visuellt innehåll på Spark
- Microsoft Research Podcast: MMLSpark, som ger AI for Good med Mark Hamilton
- Academic Whitepaper: Storskaliga intelligenta mikrotjänster
Webbseminor och videor
- Den Azure Cognitive Services i Spark: Kluster med Embedded Intelligent Services
- Spark Summit Keynote: Skalbar AI for Good
- Den Cognitive Services för stordata i Cosmos DB
- Lightning Talk på storskaliga intelligenta mikrotjänster