Сведения об Azure HDInsight
Azure HDInsight — это управляемая комплексная облачная служба аналитики с открытым кодом, предназначенная для предприятий. С HDInsight вы можете использовать в вашей среде Azure такие платформы с открытым кодом, как Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, и другие.
Что такое HDInsight и технологическая платформа Hadoop?
Azure HDInsight является облачным дистрибутивом компонентов Hadoop. Azure HDInsight обеспечивает простую, быструю и экономичную обработку больших объемов данных в настраиваемой среде. Вы можете использовать такие популярные платформы с открытым кодом, как Hadoop, Spark, Hive, LLAP, Kafka, Storm, и другие. С помощью этих платформ можно реализовать различные сценарии, такие как извлечение, преобразование и загрузка, хранение данных, машинное обучение и Интернет вещей.
Просмотреть доступные компоненты стека технологии Hadoop в HDInsight можно в статье Что представляют собой компоненты и версии Hadoop, доступные в HDInsight? Дополнительные сведения о Hadoop в HDInsight см. на странице возможностей HDInsight в Azure.
Почему следует использовать Azure HDInsight
| Функция | Описание |
|---|---|
| Собственные решения в облаке | Azure HDInsight позволяет создавать кластеры, оптимизированные для Hadoop, Spark,Interactive Query (LLAP), Kafka, Storm и HBase в Azure. HDInsight также предоставляет полное соглашение об уровне обслуживания для всех рабочих нагрузок. |
| Экономия и масштабируемость | HDInsight позволяет увеличивать и уменьшать масштаб рабочих нагрузок. Чтобы сократить затраты, создавайте кластеры по требованию и платите только за те ресурсы, которые используете. Вы также можете создавать конвейеры данных, чтобы реализовать задания. Разделенные вычислительные ресурсы и хранилище позволяют повысить производительность и эластичность. |
| Безопасность и соответствие требованиям | HDInsight позволяет защитить ресурсы данных в организации с помощью виртуальной сети Azure, шифрования, а также интеграции с Azure Active Directory. HDInsight также соответствует наиболее распространенным отраслевым и государственным стандартам. |
| Наблюдение | Azure HDInsight интегрируется с журналами Azure Monitor и предоставляет единый интерфейс для мониторинга всех кластеров. |
| Глобальная доступность | Служба HDInsight доступна в большем числе регионов, чем любое другое предложение аналитики больших данных. Служба Azure HDInsight также доступна в Azure для государственных организаций, Китая и Германии, что позволяет обеспечить соответствие требованиям организации в основных независимых регионах. |
| Производительность | Azure HDInsight предоставляет многофункциональные наборы инструментов, которые повышают эффективность работы, для Hadoop и Spark в предпочитаемой среде разработки. Это такие среды, как Visual Studio, VS Code, Eclipse и IntelliJ с поддержкой Scala, Python, Java и .NET. Специалисты по обработке и анализу данных также могут взаимодействовать, используя популярные записные книжки, например Jupyter и Zeppelin. |
| Расширяемость | Чтобы расширить кластеры HDInsight, вы можете устанавливать компоненты (Hue, Presto и т. д.) с помощью действий скриптов, добавлять граничные узлы или выполнять интеграцию с другими сертифицированными приложениями для обработки больших данных. HDInsight обеспечивает прозрачную интеграцию с наиболее распространенными решениями для больших данных с помощью развертывания одним щелчком. |
Что такое данные большого объема?
Большие данные в различных форматах объединяются в крупные тома с большей скоростью обработки, чем когда-либо. Они могут быть историческими (т. е. сохраненными за прошлый период) или данными в реальном времени (т. е. транслируемыми из источника). Наиболее распространенные варианты использования больших данных см. в разделе о Сценарии использования HDInsight.
Типы кластеров в HDInsight
HDInsight включает определенные типы кластеров и возможности их настройки, такие как добавление компонентов, служебных программ и языков. HDInsight предлагает следующие типы кластеров.
| Тип кластера | Описание | Начало работы |
|---|---|---|
| Apache Hadoop | Платформа, в которой используется управление ресурсами HDFS и YARN, а также простая модель программирования MapReduce для параллельной обработки и анализа пакетных данных. | Создание кластера Apache Hadoop |
| Apache Spark | Платформа параллельной обработки с открытым кодом, которая поддерживает обработку в памяти, чтобы повысить производительность приложений для анализа больших данных. Дополнительные сведения см. в обзоре по Apache Spark в HDInsight. | Создание кластера Apache Spark |
| Apache HBase | База данных NoSQL, созданная на основе Hadoop и обеспечивающая прямой доступ и строгую согласованность для больших объемов неструктурированных и частично структурированных данных (с потенциальным размером таблиц в миллиарды строк и миллионы столбцов). Дополнительные сведения см. в статье Что такое HBase в HDInsight: база данных NoSQL, которая предоставляет возможности, схожие BigTable, для Hadoop. | Создание кластера Apache HBase |
| Apache Storm | Распределенная система для вычислений в реальном времени, позволяющая быстро обрабатывать потоки данных большого размера. Storm предлагается в качестве управляемого кластера в HDInsight. См. статью об анализе данных, передаваемых датчиками в реальном времени, с помощью Storm и Hadoop. | Создание топологии Apache Storm |
| Apache Interactive Query | Кэширование в памяти для обеспечения интерактивных и ускоренных запросов Hive. См. инструкции по использованию Interactive Query в HDInsight. | Создание кластера Interactive Query |
| Apache Kafka | Платформа с открытым исходным кодом, которая используется для создания конвейеров и приложений потоковой передачи данных. Kafka также предоставляет функциональные возможности очереди сообщений, с помощью которых можно публиковать потоки данных и подписываться на них. См. статью Введение в Apache Kafka в HDInsight (предварительная версия). | Создание кластера Apache Kafka |
Сценарии использования HDInsight
Azure HDInsight можно применять в различных сценариях обработки больших данных. Это могут быть исторические данные (т. е. собранные и сохраненные) или данные в реальном времени (потоковые данные, передаваемые прямо из источника). Сценарии обработки таких данных можно представить в указанных ниже категориях.
Пакетная обработка (ETL)
Извлечение, преобразование и загрузка — это процесс, при котором неструктурированные или структурированные данные извлекаются из разнородных источников данных. Затем они структурируются и загружаются в хранилище данных. Преобразованные данные могут применяться для обработки и анализа или в хранилище данных.
Хранение данных
При помощи HDInsight вы можете выполнять интерактивные запросы структурированных и неструктурированных данных в любом формате и объемом в несколько петабайт. Также можно создавать модели и подключать их к средствам бизнес-аналитики.
Интернет вещей.
HDInsight можно использовать для обработки потоковых данных, получаемых в режиме реального времени с устройств разных типов. Чтобы узнать больше, прочтите эту запись блога Azure, представляющую собой объявление о выходе общедоступной предварительной версии Apache Kafka в HDInsight с управляемыми дисками Azure.
Обработка и анализ данных
При помощи HDInsight можно создавать приложения для извлечения из данных критически важной информации. Кроме этого, вы можете использовать службу "Машинное обучение Azure", чтобы прогнозировать тенденции для бизнеса. Дополнительные сведения см. в этой истории клиента.
Гибридная среда
С помощью HDInsight вы можете расширить локальную инфраструктуру для работы с большими данными в Azure и применять возможности расширенной аналитики, доступные в облаке.
Компоненты HDInsight с открытым кодом
Azure HDInsight позволяет создавать кластеры на платформах с открытым кодом, например Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase и R. Такие кластеры по умолчанию поставляются с другими компонентами с открытым кодом, такими как Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2 и Apache ZooKeeper5.
Языки программирования, поддерживаемые в HDInsight
Кластеры HDInsight, в том числе Spark, HBase, Kafka, Hadoop и другие, поддерживают несколько языков программирования. Не все языки программирования устанавливаются по умолчанию. Для установки библиотек, модулей или пакетов, которые не установлены по умолчанию, используйте действие скрипта.
| Язык программирования | Сведения |
|---|---|
| Поддержка языков программирования по умолчанию | По умолчанию кластеры HDInsight поддерживают следующие языки:
|
| Языки виртуальных машин Java | На виртуальной машине Java могут работать многие другие языки. Однако при запуске некоторых из этих языков вам может потребоваться установить дополнительные компоненты в кластере. В кластерах HDInsight поддерживаются следующие языки, работающие на виртуальных машинах Java:
|
| Языки для Hadoop | Кластеры HDInsight поддерживают следующие языки, характерные для технологической платформы Hadoop:
|
Средства разработки для HDInsight
Вы можете создавать и отправлять запросы данных HDInsight и задания с помощью таких средств разработки HDInsight, как IntelliJ, Eclipse, Visual Studio Code и Visual Studio, просто интегрировав их с Azure.
- Azure Toolkit for IntelliJ10
- Azure Toolkit for Eclipse6
- Средства Azure HDInsight для VS Code13
- Средства Azure Data Lake для Visual Studio9
Бизнес-аналитика в HDInsight
Знакомые инструменты бизнес-аналитики позволяют получать и анализировать данные, а также составлять на их основе отчеты в тесной интеграции с HDInsight с помощью надстройки Power Query или драйвера Microsoft Hive ODBC.
Использование средств визуализации данных с помощью Apache Spark BI в Azure HDInsight.
Визуализация данных Apache Hive с Microsoft Power BI с использованием ODBC в Azure HDInsight
Visualize Interactive Query Hive data with Microsoft Power BI using DirectQuery in Azure HDInsight (Визуализация данных Hive из кластера Interactive Query с помощью Microsoft Power BI и DirectQuery в Azure HDInsight)
Подключение Excel к Apache Hadoop с помощью Power Query (требуется Windows)
Подключение Excel к Apache Hadoop с помощью Microsoft Hive ODBC Driver (требуется Windows)
Место расположения данных в регионе
В Spark, Hadoop, LLAP и Storm не хранятся данные клиентов. Поэтому эти службы автоматически обеспечивают соответствие требованиям к месту расположения данных в регионе, включая требования, указанные в центре управления безопасностью.
В Kafka и HBase хранятся данные клиентов. Эти данные автоматически сохраняются в Kafka и HBase в одном регионе. Поэтому эти службы обеспечивают соответствие требованиям к месту расположения данных в регионе, включая требования, указанные в центре управления безопасностью.
Привычные инструменты бизнес-аналитики позволяют получать и анализировать данные, а также составлять на их основе отчеты в тесной интеграции с HDInsight с помощью надстройки Power Query или Microsoft Hive ODBC Driver.
Дальнейшие действия
- Создание кластера Apache Hadoop в HDInsight
- Создание кластера Apache Spark — портал
- Общие сведения о корпоративной безопасности в Azure HDInsight