Azure Cognitive Services voor Big Data

Azure Cognitive Services voor Big Data

Met Azure Cognitive Services voor Big Data kunnen gebruikers terabytes aan gegevens doorvoeren via Cognitive Services met behulp van Apache Spark™. Met de Cognitive Services voor Big Data kunt u eenvoudig intelligente toepassingen op grote schaal maken met elke gegevensopslag.

Met Cognitive Services voor Big data kunt u intelligente modellen rechtstreeks in Apache Spark™ en SQL-berekeningen opnemen. Dankzij hulpprogramma's moeten ontwikkelaars zich niet meer bezighouden met netwerkdetails op laag niveau, zodat ze zich kunnen richten op het maken van slimme, gedistribueerde toepassingen.

Functies en -voordelen

Cognitive Services voor Big Data kunnen gebruikmaken van services uit elke regio in de wereld, alsook in een container geplaatste Cognitive Services. Containers ondersteunen weinig of geen connectiviteitsimplementaties met ultralage latentiereacties. In een container geplaatste Cognitive Services kunnen lokaal worden uitgevoerd, rechtstreeks op de werkknooppunten van uw Spark-cluster of op een externe orchestrator zoals Kubernetes.

Ondersteunde services

Cognitive Services, die toegankelijk zijn via API's en SDK's, helpen ontwikkelaars intelligente toepassingen bouwen zonder vaardigheden op het gebied van AI of gegevenswetenschap. Met Cognitie Services kunnen uw toepassingen zien, horen, spreken, begrijpen en nadenken. Om Cognitive Services te gebruiken moet uw toepassing gegevens versturen naar de service via het netwerk. Zodra deze ontvangen zijn, stuurt de service een intelligent antwoord terug. De volgende services zijn beschikbaar voor big data-workloads:

Vision

Servicenaam Beschrijving van de service
Computer Vision De Computer Vision-service geeft u toegang tot geavanceerde algoritmen voor het verwerken van afbeeldingen en het retourneren van informatie.
Face De Face-service biedt toegang tot geavanceerde gezichtsalgoritmen, waardoor detectie en herkenning van gezichtskenmerken mogelijk worden.

Speech

Servicenaam Beschrijving van de service
Speech Service De Speech-service biedt toegang tot functies zoals spraakherkenning, spraaksynthese, spraakomzetting en verificatie en identificatie van de spreker.

Besluit

Servicenaam Beschrijving van de service
Anomaliedetectie Met de anomaliedetectieservice (preview) kunt u afwijkingen in uw tijdreeksgegevens controleren en detecteren.

Taal

Servicenaam Beschrijving van de service
Taalservice De Language-service biedt verwerking van natuurlijke taal voor onbewerkte tekst voor sentimentanalyse, sleuteltermextractie en taaldetectie.
Servicenaam Beschrijving van de service
Bing Afbeeldingen zoeken De Bing Image Search-service retourneert een weergave van afbeeldingen die relevant zijn voor de query van de gebruiker.

Ondersteunde programmeertalen voor Cognitive Services voor Big Data

De Cognitive Services voor Big Data zijn gebaseerd op Apache Spark. Apache Spark is een gedistribueerde rekenbibliotheek die ondersteuning biedt voor Java, Scala, Python, R en vele andere talen. Deze talen worden momenteel ondersteund.

Python

We bieden een PySpark-API in de mmlspark.cognitive-naamruimte van Microsoft ML voor Apache Spark. Raadpleeg het Python Developer API voor meer informatie. Zie de Python-voorbeelden voor gebruiksvoorbeelden.

Scala en Java

We bieden een op Scala- en op Java-gebaseerde Spark-API in de com.microsoft.ml.spark.cognitive-naamruimte van Microsoft ML voor Apache Spark. Raadpleeg het Scala Developer API voor meer informatie. Zie de Scala-voorbeelden voor gebruiksvoorbeelden.

Ondersteunde platforms en connectors

De Cognitive Services voor Big Data vereisen Apache Spark. Er zijn verschillende Apache Spark-platforms die ondersteuning bieden voor de Cognitive Services voor Big Data.

Azure Databricks

Azure Databricks is een op Apache Spark gebaseerd analyseplatform, geoptimaliseerd voor het Microsoft Azure-platform voor cloudservices. Het biedt installatie met één klik, gestroomlijnde werkstromen en een interactieve werkruimte waarmee gegevenswetenschappers, gegevenstechnici en bedrijfsanalisten samen kunnen werken.

Azure Synapse Analytics

Azure Synapse Analytics is een zakelijke datawarehouse die parallelle verwerking op grote schaal gebruikt. Met Synapse Analytics kunt u snel complexe query's uitvoeren op petabytes aan gegevens. Azure Synapse Analytics biedt beheerde Spark Pools om Spark-taken uit te voeren met een intuïtieve Jupyter Notebook-interface.

Azure Kubernetes Service

Azure Kubernetes Service (AKS) organiseert Docker-containers en gedistribueerde toepassingen op grote schaal. AKS is een beheerde Kubernetes-aanbieding die het gebruik van Kubernetes in Azure vereenvoudigt. Met Kubernetes kunt u de schaal, latentie en netwerken van Cognitive Service nauwkeurig controleren. We raden u echter aan Azure Databricks of Azure Synapse Analytics te gebruiken als u niet bekend bent met Apache Spark.

Gegevensconnectors

Zodra u een Spark-cluster hebt, is de volgende stap om verbinding te maken met uw gegevens. Apache Spark heeft een brede verzameling database-connectors. Met deze connectors kunnen toepassingen werken met grote gegevenssets, ongeacht waar ze zijn opgeslagen. Zie de lijst met ondersteunde gegevensbronnen voor Azure Databricks voor meer informatie over ondersteunde databases en connectors.

Concepten

Spark

Apache Spark™ is een geïntegreerde analyse-engine voor gegevensverwerking op grote schaal. Het framework voor parallelle verwerking boost de prestaties van big data en analysetoepassingen. Spark kan worden gebruikt als een systeem voor batch-en stroomverwerking, zonder dat de basiscode van de toepassing veranderd moet worden.

Het DataFrame vormt de basis van Spark: een tabelverzameling van gegevens die zijn verdeeld over de Apache Spark-werkknooppunten. Een Spark DataFrame is zoals een tabel in een relationele database of aan een gegevensframe in R/Python, maar met onbegrensde schaal. DataFrames kunnen worden samengesteld uit verschillende bronnen, zoals: gestructureerde gegevensbestanden, tabellen in Hive of externe databases. Zodra uw gegevens zich in een Spark-dataframe bevinden, kunt u het volgende doen:

  • Berekeningen in SQL-stijl uitvoeren, zoals tabellen samenvoegen en filteren.
  • Functies toepassen op grote gegevenssets met een parallellisme in MapReduce-stijl.
  • Gedistribueerde machine learning toepassen met behulp van Microsoft Machine Learning voor Apache Spark.
  • Gebruik de Cognitive Services voor Big Data om uw gegevens te verrijken met kant-en-klare intelligente services.

Microsoft Machine Learning voor Apache Spark (MMLSpark)

Microsoft Machine Learning voor Apache Spark (MMLSpark) is een open-source, gedistribueerde machine learning-bibliotheek (ML) die gebouwd is op Apache Spark. De Cognitive Services voor Big Data maken deel uit van dit pakket. Daarnaast bevat MMLSpark verschillende andere ML-hulpprogramma's voor Apache Spark zoals LightGBM, Vowpal Wabbit, OpenCV, LIME en meer. Met MMLSpark kunt u krachtige voorspellende en analytische modellen bouwen vanuit elke Spark-gegevensbron.

HTTP op Spark

Cognitive Services voor Big Data is een voorbeeld van hoe we intelligente webservices kunnen integreren met big data. Webservices ondersteunen tal van toepassingen wereldwijd, en de meeste services communiceren via het Hypertext Transfer Protocol (HTTP). Als u wilt werken met willekeurige webservices op grote schaal, dan bieden we HTTP op Spark. Met HTTP op Spark kunt u terabytes aan gegevens doorgeven via elke webservice. Achter de schermen gebruiken we deze technologie om Cognitive Services voor Big Data te ondersteunen.

Voorbeelden voor ontwikkelaars

Blogberichten

Webinars en video's

Volgende stappen