Сведения об Azure HDInsight

Azure HDInsight — это управляемая комплексная облачная служба аналитики с открытым кодом, предназначенная для предприятий. С HDInsight вы можете использовать в вашей среде Azure такие платформы с открытым кодом, как Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R и др.

Что такое HDInsight и технологическая платформа Hadoop?

Azure HDInsight является облачным дистрибутивом компонентов Hadoop. Azure HDInsight обеспечивает простую, быструю и экономичную обработку больших объемов данных в настраиваемой среде. Вы можете использовать такие популярные платформы с открытым кодом, как Hadoop, Spark, Hive, LLAP, Kafka, Storm, R и другие. С помощью этих платформ можно реализовать различные сценарии, такие как извлечение, преобразование и загрузка, хранение данных, машинное обучение и Интернет вещей.

Просмотреть доступные компоненты стека технологии Hadoop в HDInsight можно в статье Что представляют собой компоненты и версии Hadoop, доступные в HDInsight? Дополнительные сведения о Hadoop в HDInsight см. на странице возможностей HDInsight в Azure.

Почему следует использовать Azure HDInsight

Функция Описание
Собственные решения в облаке Azure HDInsight позволяет создавать оптимизированные кластеры для Hadoop, Spark, интерактивного запроса (LLAP), Kafka,, HBase в Azure. HDInsight также предоставляет полное соглашение об уровне обслуживания для всех рабочих нагрузок.
Экономия и масштабируемость HDInsight позволяет масштабировать рабочие нагрузки. Вы можете сократить затраты, создав кластеры по требованию и обращаясь только к тем, что вы используете. Вы также можете создавать конвейеры данных, чтобы реализовать задания. Разделенные вычислительные ресурсы и хранилище позволяют повысить производительность и эластичность.
Безопасность и соответствие требованиям HDInsight позволяет защитить ресурсы данных в организации с помощью виртуальной сети Azure, шифрования, а также интеграции с Azure Active Directory. HDInsight также соответствует наиболее распространенным отраслевым и государственным стандартам.
Наблюдение Azure HDInsight интегрируется с журналами Azure Monitor и предоставляет единый интерфейс для мониторинга всех кластеров.
Глобальная доступность HDInsight предоставляется в большем количестве регионов, чем любое другое предложение аналитики больших данных . Служба Azure HDInsight также доступна в Azure для государственных организаций, Китая и Германии, что позволяет обеспечить соответствие требованиям организации в основных независимых регионах.
Производительность Azure HDInsight предоставляет многофункциональные наборы инструментов, которые повышают эффективность работы, для Hadoop и Spark в предпочитаемой среде разработки. эти среды разработки включают Visual Studio, VSCode, Eclipse и IntelliJ для поддержки Scala, Python, R, Java и .net. Специалисты по обработке и анализу данных также могут взаимодействовать, используя популярные записные книжки, например Jupyter и Zeppelin.
Расширяемость Чтобы расширить кластеры HDInsight, вы можете устанавливать компоненты (Hue, Presto и т. д.) с помощью действий скриптов, добавлять граничные узлы или выполнять интеграцию с другими сертифицированными приложениями для обработки больших данных. HDInsight обеспечивает прозрачную интеграцию с наиболее распространенными решениями для больших данных с помощью развертывания одним щелчком.

Что такое данные большого объема?

Большие данные в различных форматах объединяются в крупные тома с большей скоростью обработки, чем когда-либо. Они могут быть историческими (т. е. сохраненными за прошлый период) или данными в реальном времени (т. е. транслируемыми из источника). Наиболее распространенные варианты использования больших данных см. в разделе о Сценарии использования HDInsight.

Типы кластеров в HDInsight

HDInsight включает определенные типы кластеров и возможности их настройки, такие как добавление компонентов, служебных программ и языков. HDInsight предлагает следующие типы кластеров.

Тип кластера Описание Начало работы
Apache Hadoop Платформа, в которой используется управление ресурсами HDFS и YARN, а также простая модель программирования MapReduce для параллельной обработки и анализа пакетных данных. Создание кластера Apache Hadoop
Apache Spark Платформа параллельной обработки с открытым кодом, которая поддерживает обработку в памяти, чтобы повысить производительность приложений для анализа больших данных. Дополнительные сведения см. в обзоре по Apache Spark в HDInsight. Создание кластера Apache Spark
Apache HBase База данных NoSQL, созданная на основе Hadoop и обеспечивающая прямой доступ и строгую согласованность для больших объемов неструктурированных и частично структурированных данных (с потенциальным размером таблиц в миллиарды строк и миллионы столбцов). Дополнительные сведения см. в статье Что такое HBase в HDInsight: база данных NoSQL, которая предоставляет возможности, схожие BigTable, для Hadoop. Создание кластера Apache HBase
Apache Storm Распределенная система для вычислений в реальном времени, позволяющая быстро обрабатывать потоки данных большого размера. Storm предлагается в качестве управляемого кластера в HDInsight. См. статью об анализе данных, передаваемых датчиками в реальном времени, с помощью Storm и Hadoop. Создание топологии Apache Storm
Apache Interactive Query Кэширование в памяти для обеспечения интерактивных и ускоренных запросов Hive. См. инструкции по использованию Interactive Query в HDInsight. Создание кластера Interactive Query
Apache Kafka Платформа с открытым исходным кодом, которая используется для создания конвейеров и приложений потоковой передачи данных. Kafka также предоставляет функциональные возможности очереди сообщений, с помощью которых можно публиковать потоки данных и подписываться на них. См. статью Введение в Apache Kafka в HDInsight (предварительная версия). Создание кластера Apache Kafka

Сценарии использования HDInsight

Azure HDInsight можно применять в различных сценариях обработки больших данных. Это могут быть исторические данные (т. е. собранные и сохраненные) или данные в реальном времени (потоковые данные, передаваемые прямо из источника). Сценарии обработки таких данных можно представить в указанных ниже категориях.

Пакетная обработка (ETL)

Извлечение, преобразование и загрузка — это процесс, при котором неструктурированные или структурированные данные извлекаются из разнородных источников данных. Затем они структурируются и загружаются в хранилище данных. Преобразованные данные могут применяться для обработки и анализа или в хранилище данных.

Хранение данных

При помощи HDInsight вы можете выполнять интерактивные запросы структурированных и неструктурированных данных в любом формате и объемом в несколько петабайт. Также можно создавать модели и подключать их к средствам бизнес-аналитики.

HDInsight architecture: Data warehousing

Интернет вещей.

HDInsight можно использовать для обработки потоковых данных, получаемых в режиме реального времени с устройств разных типов. Чтобы узнать больше, прочтите эту запись блога Azure, представляющую собой объявление о выходе общедоступной предварительной версии Apache Kafka в HDInsight с управляемыми дисками Azure.

HDInsight architecture: Internet of Things

Обработка и анализ данных

При помощи HDInsight можно создавать приложения для извлечения из данных критически важной информации. Кроме этого, вы можете использовать службу "Машинное обучение Azure", чтобы прогнозировать тенденции для бизнеса. Дополнительные сведения см. в этой истории клиента.

HDInsight architecture: Data science

Гибридная среда

При помощи HDInsight вы можете расширить локальную инфраструктуру для работы с большими данными в Azure и использовать возможности расширенной аналитики, доступные в облаке.

HDInsight architecture: Hybrid

Компоненты HDInsight с открытым кодом

Azure HDInsight позволяет создавать кластеры с такими платформами с открытым кодом, как Hadoop, Spark, Hive, LLAP, Kafka, г., HBase и R. Эти кластеры по умолчанию входят в состав других компонентов с открытым кодом, включенных в кластер, таких как Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2 и Apache ZooKeeper5.

Языки программирования, поддерживаемые в HDInsight

Кластеры HDInsight, в том числе Spark, HBase, Kafka, Hadoop и другие, поддерживают несколько языков программирования. Не все языки программирования устанавливаются по умолчанию. Для установки библиотек, модулей или пакетов, которые не установлены по умолчанию, используйте действие скрипта.

Язык программирования Сведения
Поддержка языков программирования по умолчанию По умолчанию кластеры HDInsight поддерживают следующие языки:
  • Java
  • Python
  • .NET
  • Go
Языки виртуальных машин Java На виртуальной машине Java могут работать многие другие языки. Однако при запуске некоторых из этих языков вам может потребоваться установить дополнительные компоненты в кластере. В кластерах HDInsight поддерживаются следующие языки, работающие на виртуальных машинах Java:
  • Clojure
  • Jython (Python для Java)
  • Scala
Языки для Hadoop Кластеры HDInsight поддерживают следующие языки, характерные для технологической платформы Hadoop:
  • Pig Latin для заданий Pig
  • HiveQL для заданий Hive и SparkSQL

Средства разработки для HDInsight

Вы можете создавать и отправлять запросы данных HDInsight и задания с помощью таких средств разработки HDInsight, как IntelliJ, Eclipse, Visual Studio Code и Visual Studio, просто интегрировав их с Azure.

  • Azure Toolkit for IntelliJ10
  • Azure Toolkit for Eclipse6
  • Средства Azure HDInsight для VS Code13
  • Средства Azure Data Lake для Visual Studio9

Бизнес-аналитика в HDInsight

Знакомые инструменты бизнес-аналитики позволяют получать и анализировать данные, а также составлять на их основе отчеты в тесной интеграции с HDInsight с помощью надстройки Power Query или драйвера Microsoft Hive ODBC.

Место расположения данных в регионе

В Spark, Hadoop, LLAP и службе "Машинное обучение" не хранятся данные клиентов. Поэтому эти службы автоматически обеспечивают соответствие требованиям к месту расположения данных в регионе, включая требования, указанные в центре управления безопасностью.

В Kafka и HBase хранятся данные клиентов. Эти данные автоматически сохраняются в Kafka и HBase в одном регионе. Поэтому эти службы обеспечивают соответствие требованиям к месту расположения данных в регионе, включая требования, указанные в центре управления безопасностью.

Привычные инструменты бизнес-аналитики позволяют получать и анализировать данные, а также составлять на их основе отчеты в тесной интеграции с HDInsight с помощью надстройки Power Query или Microsoft Hive ODBC Driver.

Дальнейшие действия