Azure Cognitive Services para macrodatos

Azure Cognitive Services para macrodatos

Azure Cognitive Services para macrodatos permite a los usuarios canalizar terabytes de datos mediante Cognitive Services con Apache Spark™. Con Cognitive Services para macrodatos, es fácil crear aplicaciones inteligentes a gran escala con cualquier almacén de datos.

Con Cognitive Services para macrodatos, puede integrar los modelos inteligentes de mejora continua directamente en cálculos de Apache Spark y SQL. Estas herramientas liberan a los desarrolladores de las tareas de red de bajo nivel, de modo que puedan centrarse en la creación de aplicaciones distribuidas inteligentes.

Características y ventajas

Cognitive Services para macrodatos puede usar servicios de cualquier región del mundo, así como Cognitive Services en contenedores. Los contenedores admiten implementaciones de conectividad baja o sin conectividad con respuestas de latencia muy baja. Cognitive Services en contenedores se puede ejecutar de forma local, bien directamente en los nodos de trabajo del clúster de Spark o en un orquestador externo, como Kubernetes.

Servicios admitidos

Cognitive Services, con acceso a través de las API y los SDK, ayuda a los desarrolladores a crear aplicaciones inteligentes sin tener conocimientos de inteligencia artificial o de ciencia de datos. Con Cognitive Services puede hacer que las aplicaciones vean, escuchen, hablen, comprendan y razonen. Para usar Cognitive Services, la aplicación debe enviar datos al servicio a través de la red. Una vez recibidos, el servicio envía a cambio una respuesta inteligente. Los siguientes servicios están disponibles para las cargas de trabajo de macrodatos:

Visión

Nombre de servicio Descripción del servicio
Computer Vision El servicio Computer Vision proporciona acceso a algoritmos avanzados para procesar imágenes y devolver información.
Face El servicio Face proporciona acceso a algoritmos faciales avanzados, lo que permite la detección y el reconocimiento de atributos faciales.

Voz

Nombre de servicio Descripción del servicio
Servicio Voz El servicio de voz proporciona acceso a características como reconocimiento de voz, síntesis de voz, traducción de voz y comprobación e identificación del hablante.

Decisión

Nombre de servicio Descripción del servicio
Anomaly Detector El servicio Anomaly Detector (versión preliminar) permite supervisar y detectar anomalías en los datos de serie temporal.

Idioma

Nombre de servicio Descripción del servicio
Servicio de lenguaje El servicio Language ofrece procesamiento de lenguaje natural en texto sin formato para el análisis de opiniones, la extracción de frases clave y la detección del idioma.
Nombre de servicio Descripción del servicio
Bing Image Search El servicio Bing Image Search devuelve una lista de imágenes cuya relevancia se ha determinado para la consulta del usuario.

Lenguajes de programación admitidos en Cognitive Services para macrodatos

Cognitive Services para macrodatos se basa en Apache Spark. Apache Spark es una biblioteca de computación distribuida que admite Java, Scala, Python, R y muchos otros lenguajes. Actualmente se admiten estos lenguajes.

Python

Se proporciona una API de PySpark en el espacio de nombres mmlspark.cognitive de Microsoft ML para Apache Spark. Para más información, consulte la API para desarrolladores de Python. Para ver cómo se usa, consulte los ejemplos de Python.

Scala y Java

Se proporciona una API de Spark basada en Scala y Java en el espacio de nombres com.microsoft.ml.spark.cognitive de Microsoft ML para Apache Spark. Para más información, consulte la API para desarrolladores de Scala. Para ver cómo se usa, consulte los ejemplos de Scala.

Plataformas y conectores compatibles

Cognitive Services para macrodatos requiere Apache Spark. Hay varias plataformas Apache Spark que admiten Cognitive Services para macrodatos.

Azure Databricks

Azure Databricks es una plataforma de análisis basada en Apache Spark optimizada para la plataforma de servicios en la nube de Microsoft Azure. Proporciona una configuración de un solo clic, flujos de trabajo optimizados y un área de trabajo interactiva que permite la colaboración entre científicos de datos, ingenieros de datos y analistas de negocios.

Azure Synapse Analytics

Azure Synapse Analytics es el almacenamiento de datos empresarial que utiliza procesamiento paralelo masivo. Con Synapse Analytics, puede ejecutar rápidamente consultas complejas en petabytes de datos. Azure Synapse Analytics proporciona grupos de Spark administrados para ejecutar trabajos de Spark con una interfaz de Jupyter Notebook intuitiva.

Azure Kubernetes Service

Azure Kubernetes Service (AKS) organiza los contenedores de Docker y las aplicaciones distribuidas a escalas masivas. AKS es una oferta de Kubernetes administrada que simplifica el uso de Kubernetes en Azure. Kubernetes puede permitir el control pormenorizado de la escala, la latencia y la red de Cognitive Services. Sin embargo, se recomienda usar Azure Databricks o Azure Synapse Analytics si no está familiarizado con Apache Spark.

Conectores de datos

Una vez que tenga un clúster de Spark, el paso siguiente es conectarse a los datos. Apache Spark cuenta con una amplia colección de conectores de base de datos. Estos conectores permiten que las aplicaciones trabajen con grandes conjuntos de datos, con independencia de dónde estén almacenados. Para más información sobre las bases de datos y los conectores admitidos, consulte la lista de orígenes de datos admitidos para Azure Databricks.

Conceptos

Spark

Apache Spark™ es un motor de análisis unificado para el procesamiento de datos a gran escala. Su marco de procesamiento paralelo aumenta el rendimiento de las aplicaciones de macrodatos y análisis. Spark puede funcionar como un sistema de procesamiento por lotes y por secuencias, sin cambiar el código de aplicación principal.

La base de Spark es la trama de datos: una colección tabular de datos distribuidos entre los nodos de trabajo de Apache Spark. Una trama de datos de Spark es como una tabla de una base de datos relacional o una trama de datos en R o Python, pero con una escala ilimitada. Las tramas de datos se pueden construir a partir de muchos orígenes, por ejemplo, archivos de datos estructurados, tablas de Hive o bases de datos externas. Una vez que los datos están en una trama de datos de Spark, puede:

  • Realizar cálculos de tipo SQL, como tablas de combinación y filtro.
  • Aplicar funciones a grandes conjuntos de datos mediante el paralelismo de estilo de MapReduce.
  • Aplicar Machine Learning distribuido con Machine Learning de Microsoft para Apache Spark.
  • Usar Cognitive Services para macrodatos con el fin de enriquecer los datos con servicios inteligentes listos para su uso.

Microsoft Machine Learning para Apache Spark (MMLSpark)

Microsoft Machine Learning para Apache Spark (MMLSpark) es una biblioteca de aprendizaje automático (ML) distribuida y de código abierto que se basa en Apache Spark. En este paquete se incluye Cognitive Services para macrodatos. Además, MMLSpark contiene otras diversas herramientas de aprendizaje automático para Apache Spark, como LightGBM, Vowpal Wabbit, OpenCV, LIME, etc. Con MMLSpark, puede crear modelos analíticos y predictivos eficaces desde cualquier origen de datos de Spark.

HTTP en Spark

Cognitive Services para macrodatos es un ejemplo de integración de servicios web inteligentes con macrodatos. Los servicios web impulsan muchas aplicaciones de todo el mundo, y la mayoría de los servicios se comunican a través del Protocolo de transferencia de hipertexto (HTTP). Para trabajar con servicios web arbitrarios a gran escala, se proporciona HTTP en Spark. Con HTTP en Spark, puede pasar terabytes de datos a través de cualquier servicio web. Esta tecnología se usa en segundo plano para impulsar Cognitive Services para macrodatos.

Ejemplos para desarrolladores

Publicaciones de blog

Seminarios web y vídeos

Pasos siguientes