Mi az Azure HDInsight az Apache Hadoop?What is Apache Hadoop in Azure HDInsight?

Ebben a cikkben megismerkedhet az Azure HDInsight-alapú Apache Hadooppal.This article provides an introduction to Apache Hadoop on Azure HDInsight. Az Azure HDInsight egy teljes körűen felügyelt, teljes körű, nyílt forráskódú analitikai szolgáltatás nagyvállalatok számára a felhőben.Azure HDInsight is a fully managed, full-spectrum, open-source analytics service in the cloud for enterprises. Nyílt forráskódú keretrendszereket, mint a Hadoop-, Apache Spark, az Apache Hive, LLAP, Apache Kafka, Apache Storm, R, és további is használhatja.You can use open-source frameworks such as Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, and more.

Mi a HDInsight, és mik azok a Hadoop-technológiák?What is HDInsight and the Hadoop technology stack?

Az Apache Hadoop volt a big data jellegű adatkészletek fürtökön végzett elosztott feldolgozásának, tárolásának és elemzésének eredeti nyílt forráskódú keretrendszere.Apache Hadoop was the original open-source framework for distributed processing and analysis of big data sets on clusters. A Hadoop-technológiák tartalmaz a kapcsolódó szofverek és segédprogramok, többek között az Apache Hive, az Apache HBase, Spark, Kafka és sok más.The Hadoop technology stack includes related software and utilities, including Apache Hive, Apache HBase, Spark, Kafka, and many others.

Az Azure HDInsight Hadoop-összetevők felhőalapú terjesztett.Azure HDInsight is a cloud distribution of Hadoop components. Az Azure HDInsight segítségével könnyen, gyorsan és költséghatékonyan dolgozható fel nagy mennyiségű adat.Azure HDInsight makes it easy, fast, and cost-effective to process massive amounts of data. Használhat olyan népszerű, nyílt forráskódú keretrendszereket, mint a Hadoop, a Spark, a Hive, az LLAP, a Kafka, a Storm, az R stb.You can use the most popular open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, R, and more. Ezekkel a keretrendszerekkel a forgatókönyvek széles körét alkalmazhatja, köztük kinyerési, átalakítási és betöltési (ETL) feladatokat, adatraktározást, gépi tanulást és az IoT-t.With these frameworks, you can enable a broad range of scenarios such as extract, transform, and load (ETL), data warehousing, machine learning, and IoT.

A HDInsight elérhető Hadoop-technológiák összetevőinek megtekintéséhez lásd: elérhető HDInsight-összetevők és verziók.To see available Hadoop technology stack components on HDInsight, see Components and versions available with HDInsight. További tudnivalók a HDInsightban használt Hadoopról az Azure-szolgáltatások HDInsightra vonatkozó oldalán olvashatók.To read more about Hadoop in HDInsight, see the Azure features page for HDInsight.

Mik azok a big data típusú adatok?What is big data?

A big data gyűjtése egyre nagyobb mennyiségben és sebességgel, minden korábbinál többféle formátumban történik.Big data is collected in escalating volumes, at higher velocities, and in a greater variety of formats than ever before. Ezek lehetnek előzményadatok (azaz tárolt) vagy valós idejű adatok (vagyis a forrásból streamelt adatok).It can be historical (meaning stored) or real time (meaning streamed from the source). A big data leggyakoribb alkalmazási helyzetei: A HDInsight használatára vonatkozó forgatókönyvek.See Scenarios for using HDInsight to learn about the most common use cases for big data.

Miért érdemes használni a HDInsight-alapú Hadoopot?Why should I use Hadoop on HDInsight?

Ez a szakasz felsorolja az Azure HDInsight képességeit.This section lists the capabilities of Azure HDInsight.

KépességCapability LeírásDescription
Natív felhőalapúCloud native Az Azure HDInsight segítségével optimalizált fürtöket hozhat létre az Azure-ban a következőkhöz: Hadoop, Spark, Interaktív lekérdezés (LLAP), Kafka, Storm, HBase és  ML-szolgáltatások.Azure HDInsight enables you to create optimized clusters for Hadoop, Spark, Interactive query (LLAP), Kafka, Storm, HBase, and ML Services on Azure. A HDInsight egy végpontok közötti SLA-t is biztosít az összes éles környezetben futó számítási feladathoz.HDInsight also provides an end-to-end SLA on all your production workloads.
Alacsony költségű és méretezhetőLow-cost and scalable A HDInsight segítségével a számítási feladatok vertikális skálázását  felfelé vagy lefelé is elvégezheti.HDInsight enables you to scale workloads up or down. Csökkentheti a költségeket  a fürtök igény szerinti létrehozása és a használatalapú fizetés révén. You can reduce costs by creating clusters on demand and paying only for what you use. A feladatokat adatfolyamatok létrehozásával is működtetheti.You can also build data pipelines to operationalize your jobs. A leválasztott számítás és tárolás jobb teljesítményt és rugalmasságot biztosít.Decoupled compute and storage provide better performance and flexibility.
Biztonságos és megfelelőSecure and compliant Az Azure Virtual Network, a titkosítás és az Azure Active Directoryval való integráció segítségével a HDInsight lehetővé teszi a vállalati adategységek védelmét.HDInsight enables you to protect your enterprise data assets with Azure Virtual Network, encryption, and integration with Azure Active Directory. A HDInsight továbbá megfelel a legnépszerűbb iparági és kormányzati megfelelőségi szabványoknak.HDInsight also meets the most popular industry and government compliance standards.
FigyelésMonitoring Az Azure HDInsight integrálható naplózza az Azure Monitor , amellyel követheti az összes fürt egységes felületet biztosít.Azure HDInsight integrates with Azure Monitor logs to provide a single interface with which you can monitor all your clusters.
Globális rendelkezésre állásGlobal availability A HDInsight több  régióban  érhető el, mint bármelyik másik big data-elemzési ajánlat.HDInsight is available in more regions than any other big data analytics offering. Az Azure HDInsight elérhető az Azure Governmentben, Kínában, és Németországban is, így megfelelhet a vállalati igényeknek a főbb szuverén területeken.Azure HDInsight is also available in Azure Government, China, and Germany, which allows you to meet your enterprise needs in key sovereign areas.
TermelékenységProductivity Az Azure HDInsight számos hatékony eszközt biztosít a Hadoop és a Spark használatához a választott fejlesztési környezetben.Azure HDInsight enables you to use rich productive tools for Hadoop and Spark with your preferred development environments. Ez a fejlesztési környezet lehet a Visual Studio, a VSCode, az Eclipse vagy az IntelliJ a Scala, a Python, az R, a Java és a .NET támogatásához.These development environments include Visual Studio, VSCode, Eclipse, and IntelliJ for Scala, Python, R, Java, and .NET support. Az adatelemzők is együttműködhetnek olyan népszerű notebookok használatával, mint a Jupyter vagy a Zeppelin.Data scientists can also collaborate using popular notebooks such as Jupyter and Zeppelin.
BővíthetőségExtensibility A HDInsight-fürtöket bővítheti telepített összetevőkkel (Hue, Presto stb.) szkriptműveletek használatával, élcsomópontok felvételével vagy más big data minősítéssel rendelkező alkalmazások integrálásával.You can extend the HDInsight clusters with installed components (Hue, Presto, and so on) by using script actions, by adding edge nodes, or by integrating with other big data certified applications. A HDInsight egykattintásos üzembe helyezéssel biztosít zökkenőmentes integrációt a legnépszerűbb big data-megoldásokkal.HDInsight enables seamless integration with the most popular big data solutions with a one-click deployment.

A HDInsight használatára vonatkozó forgatókönyvekScenarios for using HDInsight

Az Azure HDInsight számos, a big data koncepción alapuló adatfeldolgozási forgatókönyvben alkalmazható.Azure HDInsight can be used for a variety of scenarios in big data processing. Ezek lehetnek előzményadatok (már összegyűjtött és tárolt adatok) vagy valós idejű adatok (közvetlenül a forrásból streamelt adatok).It can be historical data (data that's already collected and stored) or real-time data (data that's directly streamed from the source). Az ilyen adatok feldolgozásának forgatókönyveit a következő kategóriákban lehet összegezni:The scenarios for processing such data can be summarized in the following categories:

Kötegelt feldolgozás (ETL)Batch processing (ETL)

A kinyerési, átalakítási és betöltési (ETL) folyamat során a rendszer strukturálatlan és strukturált adatokat nyer ki heterogén adatforrásokból.Extract, transform, and load (ETL) is a process where unstructured or structured data is extracted from heterogeneous data sources. Ezután strukturált formátumúvá alakítja azokat, majd betölti egy adattárba.It's then transformed into a structured format and loaded into a data store. Az átalakított adatok adatelemzéshez vagy adatraktározáshoz használhatók.You can use the transformed data for data science or data warehousing.

AdatraktározásData warehousing

A HDInsight segítségével petabájtos nagyságrendű interaktív lekérdezéseket végezhet strukturált vagy strukturálatlan adatokon.You can use HDInsight to perform interactive queries at petabyte scales over structured or unstructured data in any format. Modelleket is létrehozhat BI-eszközökhöz való csatlakoztatással.You can also build models connecting them to BI tools. További információkért olvassa el ezt az ügyféltörténetet.For more information, read this customer story.

HDInsight-architektúra: Az adattárházakHDInsight architecture: Data warehousing

Eszközök internetes hálózata (IoT)Internet of Things (IoT)

A HDInsight segítségével számos eszközről fogadott streamelési adatok dolgozhatók fel valós időben.You can use HDInsight to process streaming data that's received in real time from a variety of devices. További információkért olvassa el ezt az Azure-blogbejegyzést, amely az Azure Managed Disksben HDInsight alatt futó Apache Kafka nyilvános előzetes verzióját jelenti be.For more information, read this blog post from Azure that announces the public preview of Apache Kafka on HDInsight with Azure Managed disks.

HDInsight-architektúra: Az eszközök internetes hálózatátHDInsight architecture: Internet of Things

AdatelemzésData science

A HDInsight segítségével olyan alkalmazásokat hozhat létre, amelyek kritikus fontosságú elemzéseket nyernek ki az adatokból.You can use HDInsight to build applications that extract critical insights from data. Az Azure Machine Learning segítségével ezen felül a vállalata várható trendjeiről is kaphat előrejelzéseket.You can also use Azure Machine Learning on top of that to predict future trends for your business. További információkért olvassa el ezt az ügyféltörténetet.For more information, read this customer story.

HDInsight-architektúra: Az adatelemzésHDInsight architecture: Data science

HibridHybrid

A HDInsight segítségével kiterjesztheti a meglévő helyszíni big data-infrastruktúráját az Azure-ba, hogy kihasználhassa a felhő fejlett elemzési képességeit.You can use HDInsight to extend your existing on-premises big data infrastructure to Azure to leverage the advanced analytics capabilities of the cloud.

HDInsight-architektúra: HibridHDInsight architecture: Hybrid

Fürttípusok a HDInsightbanCluster types in HDInsight

A HDInsight adott fürttípusokat és fürttestreszabási képességeket is tartalmaz, például lehetővé teszi összetevők, segédprogramok és nyelvek hozzáadását.HDInsight includes specific cluster types and cluster customization capabilities, such as the capability to add components, utilities, and languages. A HDInsight a következő fürttípusokat kínálja:HDInsight offers the following cluster types:

Fürt típusaCluster Type LeírásDescription
Az Apache HadoopApache Hadoop Egy keretrendszer, amelyben HDFS, a YARN erőforrás-kezelés és a egy egyszerű MapReduce programozási modell a batch-adatok párhuzamos feldolgozásához és elemzéséhez.A framework that uses HDFS, YARN resource management, and a simple MapReduce programming model to process and analyze batch data in parallel.
Apache SparkApache Spark Egy nyílt forráskódú, párhuzamos feldolgozást végző keretrendszer, amely támogatja a memórián belüli feldolgozást a big data elemző alkalmazások teljesítményének növelése érdekében.An open-source, parallel-processing framework that supports in-memory processing to boost the performance of big-data analysis applications. Lásd: Mi a HDInsight-alapú Apache Spark?.See What is Apache Spark in HDInsight?.
Apache HBaseApache HBase A Hadoop, amely véletlenszerű hozzáférést és erős konzisztenciát biztosít a nagy mennyiségű strukturálatlan és félig strukturált adatot – sorok potenciálisan több milliárd épülő NoSQL-adatbázis túllépi az oszlopok millió.A NoSQL database built on Hadoop that provides random access and strong consistency for large amounts of unstructured and semi-structured data--potentially billions of rows times millions of columns. Lásd: Mi a HDInsight-alapú HBase?See What is HBase on HDInsight?
Machine Learning-szolgáltatásokML Services A kiszolgáló és párhuzamos, elosztott R-folyamatok kezelésére szolgál.A server for hosting and managing parallel, distributed R processes. Skálázható, elosztott elemzési módszereket kínál az adatszakértők, statisztikusok és R-programozók számára a HDInsightban.It provides data scientists, statisticians, and R programmers with on-demand access to scalable, distributed methods of analytics on HDInsight. Tekintse meg az ML-szolgáltatások használatának áttekintését a HDInsighton.See Overview of ML Services on HDInsight.
Apache StormApache Storm Egy elosztott, valós idejű számítási rendszer a nagy méretű adatfolyamok gyors feldolgozására.A distributed, real-time computation system for processing large streams of data fast. A Storm a HDInsightban felügyelt fürtként érhető el.Storm is offered as a managed cluster in HDInsight. Lásd: Analyze real-time sensor data using Storm and Hadoop (Valós idejű érzékelőadatok elemzése a Storm és a Hadoop segítségével).See Analyze real-time sensor data using Storm and Hadoop.
Apache interaktív lekérdezésApache Interactive Query Memóriában történő gyorsítótárazás az interaktív és gyorsabb Hive-lekérdezésekhez.In-memory caching for interactive and faster Hive queries. Lásd: Az interaktív lekérdezés használata a HDInsightban.See Use Interactive Query in HDInsight.
Apache KafkaApache Kafka Egy nyílt forráskódú platform streamelt adatfolyamatok és alkalmazások létrehozásához használt.An open-source platform that's used for building streaming data pipelines and applications. A Kafka egy Üzenetsor funkciót is biztosít, amelynek segítségével közzétehet adatstreameket vagy feliratkozhat rájuk.Kafka also provides message-queue functionality that allows you to publish and subscribe to data streams. Lásd: A HDInsight alatt futó Apache Kafka bemutatása.See Introduction to Apache Kafka on HDInsight.

Nyílt forráskódú összetevők a HDInsightbanOpen-source components in HDInsight

Az Azure HDInsight lehetővé teszi, hogy a nyílt forráskódú keretrendszereket, mint a Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase és r-fürtök létrehozása Ezek a fürtök alapértelmezés szerint származnak, más nyílt forráskódú összetevőkkel, mint például a fürtön képező Apache Ambari, Avro, Apache Hive, HCatalog, Apache Mahout, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie, Apache ZooKeeper.Azure HDInsight enables you to create clusters with open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase, and R. These clusters, by default, come with other open-source components that are included on the cluster such as Apache Ambari, Avro, Apache Hive, HCatalog, Apache Mahout, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie, Apache ZooKeeper.

Programozási nyelvek a HDInsightbanProgramming languages in HDInsight

A HDInsight-fürtök, például többek közt a Spark, a HBase, a Kafka, és a Hadoop, számos programozási nyelvet támogatnak.HDInsight clusters, including Spark, HBase, Kafka, Hadoop, and others, support many programming languages. Egyes programozási nyelvek nincsenek alapértelmezés szerint telepítve.Some programming languages aren't installed by default. Alapértelmezés szerint nem telepített könyvtárak, modulok vagy csomagok esetén használjon szkriptműveletet az összetevő telepítéséhez.For libraries, modules, or packages that are not installed by default, use a script action to install the component.

Programozási nyelvProgramming language InformációInformation
Alapértelmezés szerint támogatott programozási nyelvekDefault programming language support Alapértelmezés szerint a HDInsight-fürtök a következőket támogatják:By default, HDInsight clusters support:
  • JavaJava
  • PythonPython
  • .NET.NET
  • IndításGo
JVM (Java virtuális gép) nyelvekJava virtual machine (JVM) languages A Java-alapú virtuális gépeken (JVM) a Javán kívül számos más nyelv is futtatható.Many languages other than Java can run on a Java virtual machine (JVM). Előfordulhat azonban, hogy egyes nyelvek futtatásához további összetevőket is telepítenie kell a fürtön.However, if you run some of these languages, you might have to install additional components on the cluster. A HDInsight-fürtök az alábbi JVM-alapú nyelveket támogatják:The following JVM-based languages are supported on HDInsight clusters:
  • ClojureClojure
  • Jython (Python a Javához)Jython (Python for Java)
  • ScalaScala
Hadoop-specifikus nyelvekHadoop-specific languages A HDInsight-fürtök az alábbi, a Hadoop-technológiákra jellemző nyelveket támogatják:HDInsight clusters support the following languages that are specific to the Hadoop technology stack:
  • Pig Latin a Pig-feladatokhozPig Latin for Pig jobs
  • HiveQL a Hive-feladatokhoz és a SparkSQL-hezHiveQL for Hive jobs and SparkSQL

A HDInsight fejlesztői eszközeiDevelopment tools for HDInsight

A HDInsight fejlesztői eszközei (köztük az IntelliJ, az Eclipse, a Visual Studio Code és a Visual Studio) használatával HDInsight-adatlekérdezéseket és feladatokat szerkeszthet és küldhet be Azure-ral zökkenőmentesen együttműködve.You can use HDInsight development tools, including IntelliJ, Eclipse, Visual Studio Code, and Visual Studio, to author and submit HDInsight data query and job with seamless integration with Azure.

Üzleti intelligencia a HDInsightonBusiness intelligence on HDInsight

A jól ismert üzletiintelligencia- (BI-) eszközök a Power Query beépülő modul vagy a Microsoft Hive ODBC-illesztő segítségével kérik le, elemzik és jelentik a HDInsight rendszerébe integrált adatokat:Familiar business intelligence (BI) tools retrieve, analyze, and report data that is integrated with HDInsight by using either the Power Query add-in or the Microsoft Hive ODBC Driver:

További lépésekNext steps