Aprendizagem automática em HDInsight

O HDInsight permite a aprendizagem automática com big data, proporcionando a capacidade de obter informações valiosas a partir de grandes quantidades (petabytes, ou mesmo exabytes) de dados estruturados, não estruturados e em movimento rápido. Existem várias opções de machine learning em HDInsight: SparkML e Apache Spark MLlib, R, Apache Hive e o Microsoft Cognitive Toolkit.

SparkML e MLlib

HDInsight Spark é uma oferta azure-hospedada de Apache Spark, uma estrutura unificada e aberta de processamento de dados que suporta o processamento na memória para impulsionar a análise de big data. O motor de processamento de faíscas é construído para velocidade, facilidade de utilização e análise sofisticada. As capacidades de computação distribuídas na memória da Spark fazem com que seja uma boa escolha para os algoritmos iterativos usados na aprendizagem automática e computações de gráficos. Existem duas bibliotecas de machine learning escaláveis que trazem capacidades de modelação algorítmica para este ambiente distribuído: MLlib e SparkML. MLlib contém a API original construída em cima de RDDs. SparkML é um pacote mais recente que fornece uma API de nível superior construída em cima de DataFrames para a construção de oleodutos ML. A SparkML ainda não suporta todas as funcionalidades da MLlib, mas está a substituir a MLlib como a biblioteca padrão de machine learning da Spark.

A biblioteca microsoft machine learning para Apache Spark é MMLSpark. Esta biblioteca é projetada para tornar os cientistas de dados mais produtivos em Spark, aumentar a taxa de experimentação, e alavancar técnicas de aprendizagem automática de ponta, incluindo aprendizagem profunda, em conjuntos de dados muito grandes. O MMLSpark fornece uma camada em cima das APIs de baixo nível da SparkML ao construir modelos ML escaláveis, tais como cadeias de indexação, coagir dados em um layout esperado por algoritmos de aprendizagem automática, e montagem de vetores de recursos. A biblioteca MMLSpark simplifica estas e outras tarefas comuns para a construção de modelos em PySpark.

R

R é atualmente a linguagem de programação estatística mais popular do mundo. É uma ferramenta de visualização de dados de código aberto com uma comunidade de mais de 2,5 milhões de utilizadores e crescendo. Com a sua próspera base de utilizadores, e mais de 8.000 pacotes contribuídos, R é uma escolha provável para muitas empresas que precisam de aprendizagem automática. Pode criar um cluster HDInsight com serviços ML prontos para serem usados com conjuntos de dados e modelos maciços. Esta capacidade fornece aos cientistas de dados e estatísticos uma interface R familiar que pode escalar a pedido através do HDInsight, sem a sobrecarga de configuração e manutenção do cluster.

Treino para previsão com servidor R

O nó de borda de um cluster fornece um lugar conveniente para se conectar ao cluster e executar os seus scripts R. Também pode executar scripts R através dos nós do cluster, utilizando os contextos de cálculo do Mapa hadoop da ScaleR ou do spark.

Com serviços ML em HDInsight com Spark, você pode paralelizar a formação através dos nós de um cluster usando um contexto de computação Spark. Pode executar scripts R diretamente no nó de borda, usando todos os núcleos disponíveis em paralelo, conforme necessário. Alternadamente, pode executar o seu código a partir do nó de borda para iniciar o processamento que é distribuído por todos os nós do cluster. Os serviços ML em HDInsight com Spark também permitem paralelizar funções a partir de pacotes R de código aberto, se desejar.

Azure Machine Learning e Apache Hive

O Azure Machine Learning fornece ferramentas para modelar análises preditivas e um serviço totalmente gerido que pode usar para implementar os seus modelos preditivos como serviços web prontos a consumir. A Azure Machine Learning é uma solução de análise preditiva completa na nuvem que pode usar para criar, testar, operacionalizar e gerir modelos preditivos. Selecione de uma grande biblioteca de algoritmos, use um estúdio baseado na web para construir modelos e implemente facilmente o seu modelo como um serviço web.

Visão geral da aprendizagem da máquina do Microsoft Azure

Crie funcionalidades para dados num cluster hdInsight Hadoop utilizando consultas de Hive. A engenharia de recursos tenta aumentar o poder preditivo dos algoritmos de aprendizagem criando funcionalidades a partir de dados brutos que facilitam o processo de aprendizagem. Você pode executar consultas de HiveQL a partir do Azure Machine Learning Studio (clássico), e aceder a dados processados na Colmeia e armazenados em armazenamento de bolhas, utilizando o módulo de Dados de Importação.

Microsoft Cognitive Toolkit

Deep learning é um ramo de aprendizagem automática que usa redes neurais, inspiradas nos processos biológicos do cérebro humano. Muitos investigadores vêem a aprendizagem profunda como uma abordagem promissora para melhorar a inteligência artificial. Exemplos de aprendizagem profunda são tradutores de língua falada, sistemas de reconhecimento de imagem e raciocínio de máquinas.

Para ajudar a progredir no seu próprio trabalho em deep learning, a Microsoft desenvolveu o kit de ferramentas cognitivasde código aberto gratuito e fácil de usar. Este conjunto de ferramentas está a ser utilizado por uma grande variedade de produtos da Microsoft, por empresas de todo o mundo com a necessidade de implementar aprendizagem profunda em escala, e por estudantes interessados nos mais recentes algoritmos e técnicas.

Ver também

Cenários

Recursos de aprendizagem profunda