Vysokovýkonné výpočetní prostředí (HPC) v AzureHigh Performance Computing (HPC) on Azure

Seznámení s prostředím HPCIntroduction to HPC

Vysokovýkonné výpočetní prostředí (HPC), nazývané také „Big Compute“, používá velké množství počítačů založených na CPU nebo GPU k řešení složitých matematických úloh.High Performance Computing (HPC), also called "Big Compute", uses a large number of CPU or GPU-based computers to solve complex mathematical tasks.

Řada odvětví pomocí prostředí HPC řeší některé ze svých nejobtížnějších problémů.Many industries use HPC to solve some of their most difficult problems. Mezi řešené úlohy patří:These include workloads such as:

  • GenomicsGenomics
  • Simulace v petrochemiiOil and gas simulations
  • FinanceFinance
  • Návrh polovodičůSemiconductor design
  • InženýrstvíEngineering
  • Modelování počasíWeather modeling

Jak se prostředí HPC liší v cloudu?How is HPC different on the cloud?

Jednou z hlavních rozdílů mezi místním systémem HPC a jedním v cloudu je schopnost dynamicky přidávat a odebírat prostředky, jak jsou potřeba.One of the primary differences between an on-premises HPC system and one in the cloud is the ability for resources to dynamically be added and removed as they're needed. Pomocí dynamického škálování není výpočetní kapacita kritickým místem a zákazníci mohou naopak přizpůsobit velikost infrastruktury požadavkům svých úloh.Dynamic scaling removes compute capacity as a bottleneck and instead allow customers to right size their infrastructure for the requirements of their jobs.

Následující články poskytují o této funkci dynamického škálování další podrobnosti.The following articles provide more detail about this dynamic scaling capability.

Kontrolní seznam pro implementaciImplementation checklist

Pokud se chystáte implementovat vlastní řešení HPC v Azure, zkontrolujte, že jste si přečetli následující témata:As you're looking to implement your own HPC solution on Azure, ensure you're reviewed the following topics:

  • Volba odpovídající architektury na základě vašich požadavkůChoose the appropriate architecture based on your requirements
  • Znalost nejvhodnější výpočetní možnosti pro vaše úlohyKnow which compute options is right for your workload
  • Identifikace správného řešení úložiště vyhovujícího vašim potřebámIdentify the right storage solution that meets your needs
  • Rozhodnutí o způsobu správy všech vašich prostředkůDecide how you're going to manage all your resources
  • Optimalizace vaší aplikace pro cloudOptimize your application for the cloud
  • Zabezpečení vaší infrastrukturySecure your Infrastructure

InfrastrukturaInfrastructure

Existuje několik součástí infrastruktury potřebných k sestavení systému HPC.There are a number of infrastructure components necessary to build an HPC system. Bez ohledu na to, jak budete chtít spravovat úlohy prostředí HPC, Compute, Storage a Sítě poskytují základní komponenty.Compute, Storage, and Networking provide the underlying components, no matter how you choose to manage your HPC workloads.

Příklady architektur HPCExample HPC architectures

Existuje mnoho různých způsobů, jak navrhovat a implementovat architekturu HPC v Azure.There are a number of different ways to design and implement your HPC architecture on Azure. Aplikace prostředí HPC se mohou škálovat na tisíce výpočetních jader, rozšiřovat místní clustery nebo se spouštět ve formě řešení, které je 100% nativní pro cloud.HPC applications can scale to thousands of compute cores, extend on-premises clusters, or run as a 100% cloud-native solution.

Následující scénáře popisují několik z běžných způsobů, jak se řešení HPC sestavují.The following scenarios outline a few of the common ways HPC solutions are built.

  • Diagram shows example HPC architecture for computer-aided engineering services on Azure.

    Služby CAE (Computer-Aided Engineering) v AzureComputer-aided engineering services on Azure

    Poskytněte platformu softwaru jako služby (SaaS) pro CAE (Computer-Aided Engineering ) v Azure.Provide a software-as-a-service (SaaS) platform for computer-aided engineering (CAE) on Azure.

  • Diagram shows example HPC architecture for computational fluid dynamics simulations on Azure.

    Simulace CDF (Computational Fluid Dynamics) v AzureComputational fluid dynamics (CFD) simulations on Azure

    Využijte možnost spouštět simulace CDF (Computational Fluid Dynamics) v Azure.Execute computational fluid dynamics (CFD) simulations on Azure.

  • Diagram shows example HPC architecture for 3D video rendering on Azure.

    Vykreslování 3D videa v Azure3D video rendering on Azure

    Spouštění nativních úloh HPC v Azure s využitím služby Azure BatchRun native HPC workloads in Azure using the Azure Batch service

ComputeCompute

Azure nabízí širokou škálu velikostí, které jsou optimalizované pro úlohy náročné na CPU a GPU.Azure offers a range of sizes that are optimized for both CPU & GPU intensive workloads.

Virtuální počítače založené na CPUCPU-based virtual machines

Virtuální počítače s podporou GPUGPU-enabled virtual machines

Virtuální počítače řady N jsou vybavené grafickými procesory NVIDIA pro aplikace náročné na výpočetní nebo grafický výkon, včetně vizualizací a učení umělé inteligence (AI).N-series VMs feature NVIDIA GPUs designed for compute-intensive or graphics-intensive applications including artificial intelligence (AI) learning and visualization.

StorageStorage

Úlohy Batch a HPC ve velkém měřítku mají požadavky na úložiště dat a přístup, které přesahují možnosti tradičních cloudových systémů souborů.Large-scale Batch and HPC workloads have demands for data storage and access that exceed the capabilities of traditional cloud file systems. Existuje několik řešení, které zvládnou požadavky na rychlost a kapacitu aplikací HPC v Azure.There are a number of solutions to manage both the speed and capacity needs of HPC applications on Azure

Další informace o porovnání Lustre, GlusterFS a BeeGFS v Azure najdete v systémech Parallel Files v elektronické knize Azure a na blogu Lustre on Azure .For more information comparing Lustre, GlusterFS, and BeeGFS on Azure, review the Parallel Files Systems on Azure e-book and the Lustre on Azure blog.

SítěNetworking

Virtuální počítače H16r, H16mr, A8 a A9 se můžou připojit k back-endové síti RDMA s vysokou propustností.H16r, H16mr, A8, and A9 VMs can connect to a high throughput back-end RDMA network. Tato síť může zvýšit výkon úzce párovaných paralelních aplikací běžících v rámci Microsoft MPI nebo Intel MPI.This network can improve the performance of tightly coupled parallel applications running under Microsoft MPI or Intel MPI.

SprávaManagement

Udělej si sámDo-it-yourself

Sestavení systému HPC v Azure od začátku nabízí významné množství flexibility, ale je často velmi náročné na údržbu.Building an HPC system from scratch on Azure offers a significant amount of flexibility, but is often very maintenance intensive.

  1. Vytvořte si vlastní prostředí clusteru ve virtuálních počítačích Azure nebo škálovacích sadách virtuálních počítačů.Set up your own cluster environment in Azure virtual machines or virtual machine scale sets.
  2. Použijte šablony Azure Resource Manageru k nasazení špičkových správců úloh, infrastruktury a aplikací.Use Azure Resource Manager templates to deploy leading workload managers, infrastructure, and applications.
  3. Zvolte velikosti virtuálních počítačů HPC a GPU, které zahrnují specializovaný hardware a síťová připojení pro úlohy MPI nebo GPU.Choose HPC and GPU VM sizes that include specialized hardware and network connections for MPI or GPU workloads.
  4. Přidejte vysokovýkonné úložiště pro úlohy náročné na vstupně-výstupní operace.Add high performance storage for I/O-intensive workloads.

Hybridní a cloudové shlukováníHybrid and cloud Bursting

Pokud máte existující místní systém HPC, který byste chtěli připojit k Azure, máte k dispozici řadu prostředků, které vám pomůžou začít.If you have an existing on-premises HPC system that you'd like to connect to Azure, there are a number of resources to help get you started.

Nejprve si přečtěte článek o možnostech pro připojení místní sítě k Azure v dokumentaci.First, review the Options for connecting an on-premises network to Azure article in the documentation. Odtud můžete chtít informace o těchto možnostech připojení:From there, you may want information on these connectivity options:

Jakmile se bezpečně naváže připojení k síti, můžete začít používat cloudové výpočetní prostředky na vyžádání s funkcemi shlukování vašeho existujícího správce úloh.Once network connectivity is securely established, you can start using cloud compute resources on-demand with the bursting capabilities of your existing workload manager.

Řešení na MarketplaceMarketplace solutions

Existuje mnoho správců úloh nabízených na Azure Marketplace.There are a number of workload managers offered in the Azure Marketplace.

Azure BatchAzure Batch

Azure Batch je služba platformy pro efektivní spouštění rozsáhlých paralelních aplikací a aplikací vysoce výkonného výpočetního prostředí (HPC) v cloudu.Azure Batch is a platform service for running large-scale parallel and high-performance computing (HPC) applications efficiently in the cloud. Azure Batch plánuje spouštění výpočetně náročných úloh ve spravovaném fondu virtuálních počítačů a dokáže automaticky škálovat výpočetní prostředky tak, aby splňovaly potřeby vašich úloh.Azure Batch schedules compute-intensive work to run on a managed pool of virtual machines, and can automatically scale compute resources to meet the needs of your jobs.

Poskytovatelé nebo vývojáři SaaS můžou použít nástroje a sady Batch SDK k integraci aplikací HPC nebo úloh kontejneru s Azure, připravit data pro Azure a sestavit kanály spouštění úloh.SaaS providers or developers can use the Batch SDKs and tools to integrate HPC applications or container workloads with Azure, stage data to Azure, and build job execution pipelines.

Azure CycleCloudAzure CycleCloud

Azure CycleCloud poskytuje nejjednodušší způsob správy úloh HPC s využitím libovolného plánovače (jako je Slurm, Grid Engine, HPC Pack, HTCondor, LSF, PBS Pro nebo Symphony) v Azure:Azure CycleCloud Provides the simplest way to manage HPC workloads using any scheduler (like Slurm, Grid Engine, HPC Pack, HTCondor, LSF, PBS Pro, or Symphony), on Azure

CycleCloud umožňuje následující:CycleCloud allows you to:

  • Nasazení kompletních clusterů a dalších prostředků, včetně plánovače, výpočetních virtuálních počítačů, úložiště, sítí a mezipamětiDeploy full clusters and other resources, including scheduler, compute VMs, storage, networking, and cache
  • Orchestrace pracovních postupů pro úlohy, data i cloudOrchestrate job, data, and cloud workflows
  • Zajištění plné kontroly správců nad tím, kteří uživatelé mohou spouštět úlohy a také kde a s jakými nákladyGive admins full control over which users can run jobs, as well as where and at what cost
  • Přizpůsobení a optimalizace clusterů prostřednictvím rozšířených zásad a zásad správného řízení, včetně kontroly nákladů, monitorování, vytváření sestav a integrace Active DirectoryCustomize and optimize clusters through advanced policy and governance features, including cost controls, Active Directory integration, monitoring, and reporting
  • Možnost využití aktuálního plánovače úloh a aplikací bez nutnosti změnUse your current job scheduler and applications without modification
  • Využití výhod integrace automatického škálování a prověřených referenčních architektur pro širokou škálu oborů a úloh HPCTake advantage of built-in autoscaling and battle-tested reference architectures for a wide range of HPC workloads and industries

Správci úlohWorkload managers

Následují příklady správců clusteru a úloh, které můžou běžet v infrastruktuře Azure.The following are examples of cluster and workload managers that can run in Azure infrastructure. Vytvořte samostatné clustery ve virtuálních počítačích Azure nebo proveďte rozšíření na virtuální počítače Azure z místního clusteru.Create stand-alone clusters in Azure VMs or burst to Azure VMs from an on-premises cluster.

KontejneryContainers

Containers můžete také použít ke správě některých úloh prostředí HPC.Containers can also be used to manage some HPC workloads. Služby jako Azure Kubernetes Service (AKS) usnadňuje nasazení spravovaného clusteru Kubernetes v Azure.Services like the Azure Kubernetes Service (AKS) makes it simple to deploy a managed Kubernetes cluster in Azure.

Správa nákladůCost management

Správu nákladů prostředí HPC v Azure můžete udělat několika různými způsoby.Managing your HPC cost on Azure can be done through a few different ways. Ujistěte se, že jste si přečetli možnosti nákupu Azure, abyste našli nejvhodnější metodu pro vaši organizaci.Ensure you've reviewed the Azure purchasing options to find the method that works best for your organization.

ZabezpečeníSecurity

Přehled osvědčených postupů zabezpečení v Azure najdete v dokumentaci k zabezpečení Azure.For an overview of security best practices on Azure, review the Azure Security Documentation.

Kromě konfigurací sítě, které jsou k dispozici v části Shlukování cloudu, můžete chtít implementovat konfiguraci centra s paprsky, abyste izolovali výpočetní prostředky:In addition to the network configurations available in the Cloud Bursting section, you may want to implement a hub/spoke configuration to isolate your compute resources:

Aplikace prostředí HPCHPC applications

Spouštějte vlastní nebo obchodní aplikace HPC v Azure.Run custom or commercial HPC applications in Azure. Některé příklady v této části jsou testované, aby se efektivně škálovaly s dalšími virtuálními počítači nebo výpočetními jádry.Several examples in this section are benchmarked to scale efficiently with additional VMs or compute cores. Přejděte na Azure Marketplace, kde jsou řešení připravená k nasazení.Visit the Azure Marketplace for ready-to-deploy solutions.

Poznámka

S dodavateli komerčních aplikací se vždy poraďte ohledně licencování a dalších omezení při spouštění v cloudu.Check with the vendor of any commercial application for licensing or other restrictions for running in the cloud. Ne všichni dodavatelé nabízejí licencování formou průběžných plateb.Not all vendors offer pay-as-you-go licensing. Možná pro své řešení budete potřebovat licenční server v cloudu nebo se připojit k místnímu licenčnímu serveru.You might need a licensing server in the cloud for your solution, or connect to an on-premises license server.

Technické aplikaceEngineering applications

Grafika a vykreslováníGraphics and rendering

AI a hluboké učeníAI and deep learning

Poskytovatelé MPIMPI Providers

Vzdálená vizualizaceRemote visualization

Srovnávací testy výkonuPerformance Benchmarks

Příběhy zákazníkůCustomer stories

Existuje mnoho zákazníků, kteří použitím Azure pro své úlohy HPC dosáhli skvělých úspěchů.There are a number of customers who have seen great success by using Azure for their HPC workloads. Několik z těchto případových studií zákazníků můžete najít níže:You can find a few of these customer case studies below:

Další důležité informaceOther important information

  • Před pokusem o spouštění velkoobjemových úloh zkontrolujte, že vaše kvóta virtuálních procesorů se zvýšila.Ensure your vCPU quota has been increased before attempting to run large-scale workloads.

Další krokyNext steps

Nejnovější oznámení najdete tady:For the latest announcements, see:

Příklady pro Microsoft BatchMicrosoft Batch Examples

Tyto kurzy vám poskytnou podrobné informace o provozování aplikací ve službě Microsoft Batch.These tutorials will provide you with details on running applications on Microsoft Batch