Automatyzowanie planowania i wysyłania dla produkcji półprzewodników

Azure Kubernetes Service (AKS)
Azure Virtual Network
Azure Files
Azure Container Registry

W tym artykule przedstawiono automatyzację planowania fab i wysyłania obciążeń produkcyjnych półprzewodników na platformie Azure. Rozwiązanie korzysta ze środowiska obliczeń o wysokiej wydajności (HPC) do wykonywania uczenia wzmacniania (RL) na dużą skalę. Architektura opiera się na minds.ai Polski, zestawie produktów do produkcji półprzewodników.

Architektura

Diagram przedstawiający architekturę automatyzowania planowania i wysyłania fab.

Pobierz plik programu PowerPoint tej architektury.

Przepływ pracy

Ten przepływ pracy zawiera ogólne omówienie architektury używanej do trenowania biblioteki RL.

  1. Użytkownicy końcowi wchodzą w interakcję z systememzarządzaniaym Firmy za pośrednictwem interfejsu API REST działającego w usłudze Azure Kubernetes Service (AKS). Mogą oni wchodzić w interakcje z systemem na różne sposoby:

    • Interfejs API języka Python
    • Internetowy interfejs użytkownika
    • Klient wiersza polecenia
  2. Usługa Dyrygent planuje zadania trenowania w klastrze Kubernetes.

  3. Usługa Polski wywołuje platformę Kubernetes w celu przypisania zasobników do odpowiednich pul węzłów. Usługa AKS skaluje pule węzłów w górę lub w dół zgodnie z potrzebami. Użytkownik przypisuje zasobniki do określonych pul węzłów na podstawie konfiguracji określonej przez użytkownika. Użytkownik może wybrać:

    • Węzły zwykłe lub typu spot.
    • Procesor CPU lub węzły procesora GPU.
  4. Platforma Kubernetes ściąga obraz kontenera z usługi Azure Container Registry na podstawie konfiguracji zdefiniowanej przez Firmę Oraz inicjuje zasobniki.

  5. Podczas trenowania wyniki są przechowywane w usłudze Azure Files i w systemie śledzenia metryk, który jest częścią zasobników zarządzania FirmySparta (i wspierany przez dodatkowe urządzenie magazynujące). Użytkownik monitoruje postęp zadania przy użyciu pulpitu nawigacyjnego Użytkownika.

  6. Po zakończeniu trenowania agent listy RL jest wypychany do systemu wdrażania, w którym można wykonywać zapytania dotyczące akcji. Opcjonalnie serwer wdrażania może zgłaszać statystyki monitorowania na platformie Polski w celu dalszej optymalizacji agenta za pośrednictwem usługi Azure Files.

Składniki

  • Usługa AKS to zarządzana usługa orkiestracji kontenerów oparta na systemie Kubernetes typu open source. Za pomocą usługi AKS można obsługiwać krytyczne funkcje, takie jak wdrażanie, skalowanie i zarządzanie kontenerami platformy Docker oraz aplikacjami opartymi na kontenerach.
  • Aparata (nazwa kodu DeepSim) rozszerza istniejące przepływy pracy fab i poprawia wskaźniki KPI fab półprzewodników dzięki ulepszonym wysyłaniu i planowania sztucznej inteligencji.
  • Usługa Azure Spot Virtual Machines aprowizuje nieużywaną pojemność obliczeniową platformy Azure z znaczącym rabatem. Maszyny wirtualne typu spot oferują te same typy maszyn, opcje i wydajność co zwykłe wystąpienia obliczeniowe.
  • Konta usługi Azure Storage są używane w tej architekturze do przechowywania wyników trenowania, danych wejściowych i danych konfiguracji.
  • Dyski zarządzane platformy Azure to wysokowydajne, trwałe urządzenia magazynujące blokowe przeznaczone do użycia z usługami Azure Virtual Machines i Azure VMware Solution.
  • Usługa Azure Virtual Network umożliwia zasobom platformy Azure, takich jak maszyny wirtualne, komunikowanie się ze sobą, internetem i sieciami lokalnymi za pośrednictwem rozszerzonego połączenia zabezpieczeń.
  • Usługa Azure Files udostępnia w pełni zarządzane udziały plików w chmurze, które są dostępne za pośrednictwem standardowych w branży protokołów SMB i NFS.
  • Usługa Azure Container Registry może pomóc w tworzeniu, przechowywaniu, skanowaniu, replikowaniu i zarządzaniu obrazami i artefaktami kontenerów przy użyciu w pełni zarządzanego wystąpienia replikacji geograficznej dystrybucji OCI.

Szczegóły scenariusza

Skuteczne modelowanie narzędzi i skuteczne i wydajne metody planowania i wysyłania mają kluczowe znaczenie dla producentów.

Aby korzystać z nowoczesnych rozwiązań sztucznej inteligencji i uczenia maszynowego, przedsiębiorstwa potrzebują skalowalnej i ekonomicznej infrastruktury HPC. Wykonywanie wysoce złożonych obciążeń może potrwać kilka dni w przypadku infrastruktur lokalnych. Systemy lokalne są zwykle mniej wydajne energetycznie niż rozwiązania platformy Azure.

Partner firmy Microsoft minds.ai stworzył rozwiązanie do planowania i wysyłania Firmy produkujące półprzewodniki, aby pomóc firmom produkującym półprzewodniki optymalizować kluczowe wskaźniki wydajności produkcjiferów.

To rozwiązanie używa usługi AKS do wdrażania i skalowania aplikacji opartych na kontenerach oraz zarządzania nimi w środowisku klastra. Interfejs API REST służy do udostępniania przyjaznego dla użytkownika interfejsu usługi AKS. Za pomocą usługi Container Registry można tworzyć, przechowywać i zarządzać obrazami kontenerów, takimi jak DeepSim. Kontenery mają wysoką przenośność i zwiększają elastyczność przepływów pracy na żądanie.

Architektura rozwiązania opisana w tym artykule ma zastosowanie do następujących scenariuszy.

Lista RL na potrzeby planowania fab

To rozwiązanie może pomóc inżynierom kontroli linii poprawić czas cyklu produktu, przepływność i wykorzystanie oraz zwolnić przepustowość zasobów dzięki automatyzacji i rozszerzaniu bieżących przepływów pracy. Rozwiązanie może rozszerzyć przepływ pracy za pomocą agentów sztucznej inteligencji, którzy są przeszkoleni za pośrednictwem biblioteki RL, aby zapewnić inżynierom fab więcej szczegółowych informacji i opcji poprawy wskaźników KPI.

Rozwiązanie używa biblioteki RL do trenowania modeli. Wdrożone rozwiązania są trenowane w symulacjach, aby szybko reagować na dynamiczne stany fab. Przepływ pracy automatycznie generuje zalecenia dotyczące harmonogramu.

W rzeczywistym scenariuszu wynikowe harmonogramy zaoszczędziły przedsiębiorstwo dziesiątki milionów dolarów rocznie przez:

  • Zwiększenie przepływności o 1–2%.
  • Zmniejszanie krytycznych naruszeń czasu kolejki o 1–2%.
  • Zmniejszanie czasu cyklu nowego produktu o 2–7%.
  • Zwiększanie wykorzystania wąskich gardeł grup narzędzi.
  • Zmniejszenie kosztów na wafer.

Uczenie nadzorowane na potrzeby modelowania narzędzi fab

Uzyskanie dokładnych informacji o narzędziach i sprzęcie jest kolejnym krytycznym aspektem planowania i działania fab. Wymagania biznesowe często obejmują modele do mierzenia niezawodności i przewidywalności narzędzi, w tym indeksu kondycji sprzętu (EHI) i pozostałego okresu eksploatacji (RUL).

Usługa Ponadto zawiera aplikacje do trenowania modeli EHI i RUL. Dane historyczne, które są częścią systemu rejestrowania fab, są używane do trenowania modeli. Sprzęt procesora GPU platformy Azure przyspiesza ten proces. Wynikowe modele są używane do planowania świadomego ryzyka, aby zoptymalizować produktywność, wydajność i konserwację zapobiegawczą oraz znacznie poprawić EHI.

Potencjalne przypadki użycia

Ta architektura dotyczy również następujących branż, w których są zwykle używane zaawansowane rozwiązania do kontroli i planowania:

  • Branża 4.0
  • Podróże i transport (opracowywanie aplikacji)
  • Farma i opieka zdrowotna
  • Kontrola energii odnawialnej i wielowariancja projektu lokacji

Kwestie wymagające rozważenia

Te zagadnienia implementują filary platformy Azure Well-Architected Framework, która jest zestawem wytycznych, których można użyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.

Niezawodność

Niezawodność gwarantuje, że aplikacja może spełnić zobowiązania wobec klientów. Aby uzyskać więcej informacji, zobacz Omówienie filaru niezawodności.

minds.ai rozwiązania są wdrażane w jednym z najbardziej złożonych na świecie, krytycznych procesów produkcji mikroukładów i energii, dlatego niezawodność jest niezbędna. Na platformie Azure możesz zachować stabilność działających środowisk przy użyciu stref dostępności, zestawów dostępności, magazynu geograficznie nadmiarowego i usługi Azure Site Recovery. Jeśli zostaną wykryte problemy, system automatycznie ponownie uruchomi część środowiska obliczeniowego i ponownie uruchomi proces trenowania. Ta funkcja pomaga zapewnić, że w oczekiwanym przedziale czasu uzyskasz wytrenowanego agenta lub modelu sieci neuronowej.

Ten system rozszerza istniejące rozwiązania, dzięki czemu zawsze można wrócić do tych rozwiązań.

Zabezpieczenia

Zabezpieczenia zapewniają ochronę przed celowymi atakami i nadużyciami cennych danych i systemów. Aby uzyskać więcej informacji, zobacz Omówienie filaru zabezpieczeń.

To rozwiązanie jest wdrażane jako rozwiązanie z jedną dzierżawą. Pozostaje ci tylko kontrola nad oprogramowaniem, danymi i symulacjami procesowymi.

Usługa AKS zapewnia kontrolę dostępu opartą na rolach (RBAC), która pomaga zapewnić inżynierom dostęp tylko do informacji potrzebnych im do wykonywania zadań.

Aby uzyskać więcej informacji na temat opcji zabezpieczeń sieci, zobacz Zabezpieczanie ruchu między zasobnikami przy użyciu zasad sieciowych w usłudze AKS.

Optymalizacja kosztów

Optymalizacja kosztów polega na zmniejszeniu niepotrzebnych wydatków i poprawie wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Omówienie filaru optymalizacji kosztów.

Przebiegi treningowe w Usłudze Polski mogą działać w sposób przerywany, co umożliwia korzystanie z dwóch opcji:

  • Maszyny wirtualne typu spot zmniejszają koszty, ale zwiększają szanse na zakończenie zadań z powodu przerw w działaniu.
  • Wystąpienia zarezerwowane zwiększają koszty, ale używają dedykowanych zasobów obliczeniowych, które powodują przewidywalne środowiska uruchomieniowe.

Maszyny wirtualne typu spot umożliwiają korzystanie z nieużywanej pojemności platformy Azure przy znaczących oszczędnościach kosztów. Jeśli platforma Azure potrzebuje pojemności z powrotem, eksmituje maszyny wirtualne typu spot, a oprogramowanie minds.ai automatycznie uruchamia nowe wystąpienia i wznawia proces trenowania.

Nie ma kosztów związanych z wdrażaniem, zarządzaniem i operacjami klastra Kubernetes w usłudze AKS. Płacisz tylko za wystąpienia maszyn wirtualnych, magazyn i zasoby sieciowe używane przez klaster Kubernetes. Usługa Azure Files jest używana do długoterminowego przechowywania danych. Ponieważ wszystkie dane pozostają w chmurze, opłaty za przepustowość transferu danych są mniejsze.

Poniżej przedstawiono kilka szczegółów dotyczących przypadków użycia procesora CPU i procesora GPU.

  • Przypadek użycia procesora CPU: 10 agentów RL uruchomionych przez miesiąc na 20 węzłach, z 120 rdzeniami procesora CPU na węzeł, są używane z czasem obliczeniowym 360 godzin (2400 rdzeni procesora CPU).

    Aby zaoszczędzić aż 83% kosztów, użyj maszyn wirtualnych typu spot platformy Azure.

    Kategoria usługi Typ usługi opis
    Compute Maszyny wirtualne Jedna maszyna wirtualna Standard_HB120rs_v3 (120 rdzeni, 448 GiB pamięci RAM)
    Compute Maszyny wirtualne Jedna maszyna wirtualna Standard_B8ms (8 rdzeni, 32 GiB pamięci RAM)
    Storage Konta magazynu Magazyn plików, warstwa wydajności Premium
    Storage Konta magazynu Dyski zarządzane, SSD w warstwie Premium, typ dysku P4, jeden dysk
    Kontenery Container Registry Jeden rejestr
    Compute Maszyny wirtualne 20 Standard_HB120rs_v3 maszyn wirtualnych (120 rdzeni, 448 GiB pamięci RAM)
  • Przypadek użycia procesora GPU: Nadzorowane uczenie 10 zadań trenowania sieci neuronowych działających przez miesiąc na 16 węzłach, z jednym procesorem GPU na węzeł, są używane z czasem obliczeniowym 360 godzin (16 procesorów GPU).

    Aby zaoszczędzić aż 52% kosztów, użyj maszyn wirtualnych typu spot platformy Azure.

    Kategoria usługi Typ usługi opis
    Compute Maszyny wirtualne Jedna maszyna wirtualna Standard_HB120_rs w wersji 3 (120 rdzeni, 448 GiB pamięci RAM)
    Compute Maszyny wirtualne Jedna maszyna wirtualna Standard_B8ms (8 rdzeni, 32 GiB pamięci RAM)
    Storage Konta magazynu Magazyn plików, warstwa wydajności Premium
    Storage Konta magazynu Dyski zarządzane, SSD w warstwie Premium, typ dysku P4, jeden dysk
    Kontenery Container Registry Jeden rejestr
    Compute Maszyny wirtualne 16 maszyn wirtualnych Standard_NC6s_v3 (6 procesorów wirtualnych, 112 GiB pamięci RAM)

Aby oszacować koszty organizacji, użyj kalkulatora cen platformy Azure.

Efektywność wydajności

Wydajność to możliwość skalowania obciążenia w celu spełnienia wymagań, które są na nim umieszczane w wydajny sposób. Aby uzyskać więcej informacji, zobacz Omówienie filaru wydajności.

Ta architektura używa maszyn wirtualnych serii HBv3 z procesorami AMD do uczenia wzmacniania i maszyn wirtualnych serii NCv3 z procesorami GPU firmy NVIDIA na potrzeby uczenia nadzorowanych.

Maszyny wirtualne serii HBv3 mają procesory intensywnie korzystające z mocy obliczeniowej i pamięć o wysokiej przepustowości, które są dobrze odpowiednie do uczenia wzmacniania. Można ich używać w konfiguracjach klastra z wieloma węzłami, aby uzyskać skalowalną wydajność.

Maszyny wirtualne serii NCv3 mają procesory przyspieszane przez procesory GPU intensywnie korzystające z obliczeń, które są odpowiednie dla wymagań uczenia nadzorowanego. Umożliwiają one korzystanie z funkcji z wieloma procesorami GPU w celu uzyskania skalowalnej wydajności.

Aby uzyskać więcej informacji, zobacz Opcje skalowania aplikacji w usłudze AKS.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Autorzy zabezpieczeń:

Inni współautorzy:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki