Che cos'è Azure HDInsight?What is Azure HDInsight?

Azure HDInsight è un servizio di analisi open source, gestito e ad ampio spettro nel cloud per le aziende.Azure HDInsight is a managed, full-spectrum, open-source analytics service in the cloud for enterprises. È possibile usare framework open source, ad esempio Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R e altri.You can use open-source frameworks such as Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, and more.

Informazioni su Azure HDInsight e sullo stack di tecnologie HadoopWhat is HDInsight and the Hadoop technology stack?

Azure HDInsight è una distribuzione cloud dei componenti di Hadoop.Azure HDInsight is a cloud distribution of Hadoop components. Azure HDInsight rende semplice, rapida ed economicamente conveniente l'elaborazione di grandi quantità di dati.Azure HDInsight makes it easy, fast, and cost-effective to process massive amounts of data. È possibile usare i framework open source più diffusi, ad esempio Hadoop, Spark, Hive, LLAP, Kafka, Storm, R e altri.You can use the most popular open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, R, and more. Questi framework consentono di abilitare una vasta gamma di scenari, ad esempio l'estrazione, la trasformazione e il caricamento, il data warehousing, Machine Learning e Internet delle cose.With these frameworks, you can enable a broad range of scenarios such as extract, transform, and load (ETL), data warehousing, machine learning, and IoT.

Per i componenti dello stack di tecnologie Hadoop disponibili in HDInsight, vedere Componenti e versioni disponibili con HDInsight.To see available Hadoop technology stack components on HDInsight, see Components and versions available with HDInsight. Per altre informazioni su Hadoop in HDInsight, vedere la pagina delle funzionalità di Azure per HDInsight.To read more about Hadoop in HDInsight, see the Azure features page for HDInsight.

Informazioni sui Big DataWhat is big data?

I Big Data vengono raccolti in volumi sempre più elevati, a velocità crescenti e nella gamma di formati più ampia mai resa disponibile.Big data is collected in escalating volumes, at higher velocities, and in a greater variety of formats than ever before. I Big Data possono essere cronologici (dati archiviati) oppure in tempo reale (trasmessi dall'origine).It can be historical (meaning stored) or real time (meaning streamed from the source). Per altre informazioni sui caso d'uso più comuni per i Big Data, vedere Scenari per l'uso di HDInsight.See Scenarios for using HDInsight to learn about the most common use cases for big data.

Perché usare Azure HDInsight?Why should I use Azure HDInsight?

Questa sezione elenca le funzionalità di Azure HDInsight.This section lists the capabilities of Azure HDInsight.

FunzionalitàCapability DescrizioneDescription
Cloud nativoCloud native Azure HDInsight permette di creare cluster ottimizzati per Hadoop, Spark,  Interactive Query (LLAP), Kafka, Storm, HBase e Machine Learning Services in Azure.Azure HDInsight enables you to create optimized clusters for Hadoop, Spark, Interactive query (LLAP), Kafka, Storm, HBase, and ML Services on Azure. HDInsight fornisce anche un contratto di servizio end-to-end per tutti i carichi di lavoro di produzione.HDInsight also provides an end-to-end SLA on all your production workloads.
Costi contenuti e scalabilitàLow-cost and scalable HDInsight consente di aumentare o ridurre i carichi di lavoro.HDInsight enables you to scale workloads up or down. È possibile ridurre i costi creando cluster su richiesta e pagando solo in base al consumo. You can reduce costs by creating clusters on demand and paying only for what you use. È anche possibile compilare pipeline di dati per rendere operativi i processi.You can also build data pipelines to operationalize your jobs. Calcolo e archiviazione disaccoppiati offrono migliori prestazioni e flessibilità.Decoupled compute and storage provide better performance and flexibility.
Sicurezza e conformitàSecure and compliant HDInsight consente di proteggere i dati aziendali usando Rete virtuale di Azure, la crittografia e l'integrazione con Azure Active Directory.HDInsight enables you to protect your enterprise data assets with Azure Virtual Network, encryption, and integration with Azure Active Directory. HDInsight soddisfa anche i più diffusi standard di conformità del settore e governativi.HDInsight also meets the most popular industry and government compliance standards.
MonitoraggioMonitoring Azure HDInsight si integra con i log di Monitoraggio di Azure per fornire una singola interfaccia che consente di monitorare tutti i cluster.Azure HDInsight integrates with Azure Monitor logs to provide a single interface with which you can monitor all your clusters.
Disponibilità globaleGlobal availability HDInsight è disponibile in un maggior numero di aree rispetto a qualsiasi altra offerta di analisi di Big Data.HDInsight is available in more regions than any other big data analytics offering. Azure HDInsight è anche disponibile in Azure per enti pubblici, Cina e Germania per soddisfare le esigenze aziendali nelle principali aree sovrane.Azure HDInsight is also available in Azure Government, China, and Germany, which allows you to meet your enterprise needs in key sovereign areas.
ProduttivitàProductivity Azure HDInsight consente di usare strumenti di produttività avanzati per Hadoop e Spark con gli ambienti di sviluppo più diffusi.Azure HDInsight enables you to use rich productive tools for Hadoop and Spark with your preferred development environments. Questi ambienti di sviluppo includono Visual Studio, VSCode, Eclipse e IntelliJ per supportare Scala, Python, R, Java e .NET.These development environments include Visual Studio, VSCode, Eclipse, and IntelliJ for Scala, Python, R, Java, and .NET support. I data scientist possono anche collaborare usando notebook diffusi, ad esempio Jupyter e Zeppelin.Data scientists can also collaborate using popular notebooks such as Jupyter and Zeppelin.
EstendibilitàExtensibility È possibile estendere i cluster HDInsight con componenti installati (Hue, Presto e così via) con azioni script, l'aggiunta di nodi perimetrali o l'integrazione con altre applicazioni Big Data certificate.You can extend the HDInsight clusters with installed components (Hue, Presto, and so on) by using script actions, by adding edge nodes, or by integrating with other big data certified applications. HDInsight consente un'integrazione senza problemi con le più diffuse soluzioni Big Data tramite una distribuzione con un clic.HDInsight enables seamless integration with the most popular big data solutions with a one-click deployment.

Scenari per l'uso di HDInsightScenarios for using HDInsight

Azure HDInsight può essere usato per un'ampia gamma di scenari per l'elaborazione di Big Data.Azure HDInsight can be used for a variety of scenarios in big data processing. Possono essere dati cronologici (dati già raccolti e archiviati) o dati in tempo reale (dati trasmessi direttamente dall'origine).It can be historical data (data that's already collected and stored) or real-time data (data that's directly streamed from the source). Gli scenari per l'elaborazione di tali dati possono essere riepilogati nelle categorie seguenti:The scenarios for processing such data can be summarized in the following categories:

Elaborazione batch (ETL)Batch processing (ETL)

L'estrazione, trasformazione e caricamento (ETL) è un processo in cui dati strutturati o non strutturati vengono estratti da origini dati eterogenei.Extract, transform, and load (ETL) is a process where unstructured or structured data is extracted from heterogeneous data sources. I dati vengono quindi trasformati in un formato strutturato e caricati in un archivio dati.It's then transformed into a structured format and loaded into a data store. È possibile usare i dati trasformati per data science o data warehousing.You can use the transformed data for data science or data warehousing.

Data warehousingData warehousing

È possibile usare HDInsight per eseguire query interattive nell'ordine di grandezza di petabyte su dati strutturati o non strutturati in qualsiasi formato.You can use HDInsight to perform interactive queries at petabyte scales over structured or unstructured data in any format. È anche possibile compilare modelli che le connettono a strumenti di business intelligence.You can also build models connecting them to BI tools.

Architettura di HDInsight: data warehouseHDInsight architecture: Data warehousing

Internet delle coseInternet of Things (IoT)

È possibile usare HDInsight per elaborare dati di streaming ricevuti in tempo reale da diversi tipi di dispositivi.You can use HDInsight to process streaming data that's received in real time from different kinds of devices. Per altre informazioni, leggere questo post di blog di Azure che annuncia l'anteprima pubblica di Apache Kafka su HDInsight con Azure Managed Disks.For more information, read this blog post from Azure that announces the public preview of Apache Kafka on HDInsight with Azure Managed disks.

Architettura di HDInsight: Internet delle coseHDInsight architecture: Internet of Things

Data scienceData science

HDInsight consente di compilare applicazioni che estraggono informazioni critiche dai dati.You can use HDInsight to build applications that extract critical insights from data. È anche possibile usare Azure Machine Learning per prevedere le tendenze future per l'azienda.You can also use Azure Machine Learning on top of that to predict future trends for your business. Per altre informazioni, vedere la storia di questo cliente.For more information, read this customer story.

Architettura di HDInsight: data scienceHDInsight architecture: Data science

IbridoHybrid

È possibile usare HDInsight per estendere l'infrastruttura per Big Data locale esistente ad Azure per sfruttare le funzionalità di analisi avanzata del cloud.You can use HDInsight to extend your existing on-premises big data infrastructure to Azure to leverage the advanced analytics capabilities of the cloud.

Architettura di HDInsight: ibridaHDInsight architecture: Hybrid

Tipi di cluster in HDInsightCluster types in HDInsight

HDInsight include tipi di cluster specifici e funzionalità di personalizzazione dei cluster, ad esempio la possibilità di aggiungere componenti, utilità e linguaggi.HDInsight includes specific cluster types and cluster customization capabilities, such as the capability to add components, utilities, and languages. HDInsight offre i seguenti tipi di cluster:HDInsight offers the following cluster types:

Tipo di clusterCluster Type DescrizioneDescription
Apache HadoopApache Hadoop un framework che usa HDFS, la gestione risorse YARN e un semplice modello di programmazione MapReduce per elaborare e analizzare i dati batch in parallelo.A framework that uses HDFS, YARN resource management, and a simple MapReduce programming model to process and analyze batch data in parallel.
Apache SparkApache Spark è un framework open source di elaborazione parallela che supporta l'elaborazione in memoria per migliorare le prestazioni di applicazioni analitiche di Big Data.An open-source, parallel-processing framework that supports in-memory processing to boost the performance of big-data analysis applications. Vedere Informazioni su Apache Spark in HDInsight.See What is Apache Spark in HDInsight?.
Apache HBaseApache HBase un database NoSQL basato su Hadoop che fornisce accesso casuale e coerenza assoluta per quantità elevate di dati non strutturati e semistrutturati. Può gestire potenzialmente milioni di righe e colonne.A NoSQL database built on Hadoop that provides random access and strong consistency for large amounts of unstructured and semi-structured data--potentially billions of rows times millions of columns. Vedere Informazioni su HBase in HDInsightSee What is HBase on HDInsight?
ML ServicesML Services un server che ospita e gestisce processi R paralleli e distribuiti.A server for hosting and managing parallel, distributed R processes. Offre ai data scientist, agli statistici e ai programmatori R l'accesso su richiesta a metodi di analisi scalabili e distribuiti su HDInsight.It provides data scientists, statisticians, and R programmers with on-demand access to scalable, distributed methods of analytics on HDInsight. Vedere Panoramica di ML Services su HDInsight.See Overview of ML Services on HDInsight.
Apache StormApache Storm un sistema di calcolo distribuito e in tempo reale per l'elaborazione rapida di grandi flussi di dati.A distributed, real-time computation system for processing large streams of data fast. Storm viene offerto come cluster gestito in HDInsight.Storm is offered as a managed cluster in HDInsight. Vedere Analizzare i dati del sensore in tempo reale con Storm e Hadoop.See Analyze real-time sensor data using Storm and Hadoop.
Apache Interactive QueryApache Interactive Query Caching in memoria per query Hive interattive e più rapide.In-memory caching for interactive and faster Hive queries. Vedere Usare Interactive Query in HDInsight.See Use Interactive Query in HDInsight.
Apache KafkaApache Kafka una piattaforma open source usata per creare applicazioni e pipeline di dati di streaming.An open-source platform that's used for building streaming data pipelines and applications. Kafka fornisce inoltre funzionalità di code di messaggi che consentono di pubblicare e sottoscrivere i flussi di dati.Kafka also provides message-queue functionality that allows you to publish and subscribe to data streams. Vedere Introduction to Apache Kafka on HDInsight (Introduzione ad Apache Kafka in HDInsight).See Introduction to Apache Kafka on HDInsight.

Componenti open source in HDInsightOpen-source components in HDInsight

Azure HDInsight consente di creare cluster con framework open source come Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase e R. Per impostazione predefinita, questi cluster vengono forniti con altri componenti open source inclusi nel cluster, ad esempio Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2 e Apache ZooKeeper5.Azure HDInsight enables you to create clusters with open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase, and R. These clusters, by default, come with other open-source components that are included on the cluster such as Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2, and Apache ZooKeeper5.

Linguaggi di programmazione in HDInsightProgramming languages in HDInsight

I cluster di HDInsight, tra cui Spark, HBase, Kafka, Hadoop e altri, supportano molti linguaggi di programmazione.HDInsight clusters, including Spark, HBase, Kafka, Hadoop, and others, support many programming languages. Alcuni linguaggi di programmazione non sono installati per impostazione predefinita.Some programming languages aren't installed by default. Per le librerie, i moduli o i pacchetti non installati per impostazione predefinita, usare un'azione script per installarli.For libraries, modules, or packages that aren't installed by default, use a script action to install the component.

Linguaggio di programmazioneProgramming language InformazioniInformation
Supporto per i linguaggi di programmazione predefinitiDefault programming language support Per impostazione predefinita, i cluster HDInsight supportano:By default, HDInsight clusters support:
  • JavaJava
  • PythonPython
  • .NET.NET
  • GoGo
Linguaggi per macchine virtuali JavaJava virtual machine (JVM) languages Molti linguaggi diversi da Java possono essere eseguiti in una macchina virtuale Java.Many languages other than Java can run on a Java virtual machine (JVM). Se tuttavia si eseguono alcuni di questi linguaggi, potrebbe essere necessario installare componenti aggiuntivi sui cluster.However, if you run some of these languages, you might have to install additional components on the cluster. I linguaggi seguenti basati su JVM sono supportati nei cluster HDInsight:The following JVM-based languages are supported on HDInsight clusters:
  • ClojureClojure
  • Jython (Python per Java)Jython (Python for Java)
  • ScalaScala
Linguaggi specifici di HadoopHadoop-specific languages I cluster HDInsight supportano i linguaggi seguenti, specifici dello stack di tecnologie Hadoop:HDInsight clusters support the following languages that are specific to the Hadoop technology stack:
  • Pig Latin per processi PigPig Latin for Pig jobs
  • HiveQL per processi Hive e SparkSQLHiveQL for Hive jobs and SparkSQL

Strumenti di sviluppo per HDInsightDevelopment tools for HDInsight

È possibile usare gli strumenti di sviluppo di HDInsight, inclusi IntelliJ, Eclipse, Visual Studio Code e Visual Studio, per creare e inviare processi e query sui dati di HDInsight con una semplice integrazione con Azure.You can use HDInsight development tools, including IntelliJ, Eclipse, Visual Studio Code, and Visual Studio, to author and submit HDInsight data query and job with seamless integration with Azure.

  • Azure Toolkit for IntelliJ10Azure toolkit for IntelliJ10
  • Azure Toolkit for Eclipse6Azure toolkit for Eclipse6
  • Strumenti di Azure HDInsight per Visual Studio Code 13Azure HDInsight tools for VS Code13
  • Strumenti di Azure Data Lake per Visual Studio 9Azure data lake tools for Visual Studio9

Business intelligence in HDInsightBusiness intelligence on HDInsight

Gli strumenti di business intelligence (BI) noti consentono di recuperare, analizzare e creare report di dati integrati con HDInsight usando il componente aggiuntivo Power Query o Microsoft Hive ODBC Driver:Familiar business intelligence (BI) tools retrieve, analyze, and report data that is integrated with HDInsight by using either the Power Query add-in or the Microsoft Hive ODBC Driver:

Residenza dei dati nell'area geograficaIn-region data residency

Spark, Hadoop, LLAP, Storm e MLService non archiviano i dati dei clienti, quindi questi servizi soddisfano automaticamente i requisiti di residenza dei dati nell'area geografica, inclusi quelli specificati in Centro protezione.Spark, Hadoop, LLAP, Storm, and MLService do not store customer data, so these services automatically satisfy in-region data residency requirements including those specified in the Trust Center.

Kafka e HBase non archiviano i dati dei clienti.Kafka and HBase do store customer data. Questi dati vengono archiviati automaticamente da Kafka e HBase in una singola area geografica, quindi questo servizio soddisfa i requisiti di residenza dei dati nell'area geografica, inclusi quelli specificati in Centro protezione.This data is automatically stored by Kafka and HBase in a single region, so this service satisfies in-region data residency requirements including those specified in the Trust Center.

Gli strumenti di business intelligence (BI) noti consentono di recuperare, analizzare e creare report di dati integrati con HDInsight usando il componente aggiuntivo Power Query o Microsoft Hive ODBC Driver.Familiar business intelligence (BI) tools retrieve, analyze, and report data that is integrated with HDInsight by using either the Power Query add-in or the Microsoft Hive ODBC Driver.

Passaggi successiviNext steps