半導体製造のスケジュールとディスパッチを自動化する

Azure Kubernetes Service (AKS)
Azure Virtual Network
Azure Files
Azure Container Registry

この記事では、Azure での半導体製造ワークロードのファブ スケジュールとディスパッチの自動化について説明します。 このソリューションでは、ハイ パフォーマンス コンピューティング (HPC) 環境を使用して、大規模な強化学習 (RL) を実行します。 このアーキテクチャは、半導体製造製品スイートの minds.ai Maestro に基づいています。

アーキテクチャ

ファブ スケジュールとディスパッチ自動化のアーキテクチャを示すダイアグラム。

このアーキテクチャの PowerPoint ファイルをダウンロードします。

ワークフロー

このワークフローでは、強化学習トレーニングに使用されるアーキテクチャの大まかな概要を説明します。

  1. エンド ユーザーは、Azure Kubernetes Service (AKS) で実行される REST API を介して Maestro 管理システムとやり取りします。 システムとやり取りできる方法はさまざまです。

    • Python API
    • Web ベースのユーザー インターフェイス
    • コマンドライン クライアント
  2. Maestro は、Kubernetes クラスターでトレーニング ジョブをスケジュールします。

  3. Maestro は、Kubernetes を起動して、関連するノード プールにポッドを割り当てます。 AKS は、必要に応じてノード プールをスケール アップまたはスケール ダウンします。 Maestro は、ユーザーが指定した構成に基づいて、ポッドを特定のノード プールに割り当てます。 次の選択肢から選べます。

    • 標準ノードかスポット ノード。
    • CPU ノードか GPU ノード。
  4. Kubernetes は、Maestro によって定義された構成に基づいて Azure Container Registry からコンテナー イメージをプルし、ポッドを初期化します。

  5. トレーニング中、結果は Azure Files と、Maestro 管理ポッドの一部である (および追加のストレージ デバイスでサポートされている) メトリック追跡システムに格納されます。 ユーザーは、Maestro ダッシュボードを使用してジョブの進行状況を監視します。

  6. トレーニングが完了すると、強化学習エージェントはデプロイ システムにプッシュされ、エージェントにアクションのクエリを実行できます。 オプションで、デプロイ サーバーは監視統計を Maestro プラットフォームに報告し、Azure Files を介してエージェントをさらに最適化できます。

コンポーネント

  • AKS: オープンソースの Kubernetes システムに基づいた、マネージド コンテナー オーケストレーション サービスです。 AKS を使用して、Docker コンテナーとコンテナーベース アプリケーションのデプロイ、スケーリング、管理などの重要な機能を処理できます。
  • Maestro エンジン (コード名 DeepSim): 既存のファブ ワークフローを拡張し、AI で強化されたディスパッチとスケジュールのレコメンデーションを使用して、半導体ファブ KPI を改善します。
  • Azure Spot Virtual Machines: 未使用の Azure コンピューティング容量が、大幅な割引でプロビジョニングされます。 スポット VM は、標準のコンピューティング インスタンスと同じマシンの種類、オプション、パフォーマンスを提供します。
  • Azure ストレージ アカウント: このアーキテクチャでは、トレーニング結果、入力、構成データを格納するために使用されます。
  • Azure Managed Disks: Azure Virtual Machines と Azure VMware Solution で使用するために設計された、高パフォーマンスで耐久性のあるブロック ストレージ デバイスです。
  • Azure Virtual Network: VM などの Azure リソースが、セキュリティの強化された接続を介して、相互通信、インターネット通信、オンプレミス ネットワーク通信をすることができます。
  • Azure Files: 業界標準の SMB や NFS プロトコルを介してアクセスできる、クラウドのフル マネージド ファイル共有を提供します。
  • Azure Container Registry: Geo レプリケートされたフル マネージドの OCI ディストリビューション インスタンスを使用して、コンテナー イメージと成果物をビルド、格納、スキャン、レプリケート、管理することができます。

シナリオの詳細

効果的なツール モデリングと、効果的かつ効率的なスケジュールとディスパッチ方法は、製造元にとって重要です。

最先端の AI と機械学習ソリューションを活用するには、スケーラブルでコスト効率の高い HPC インフラストラクチャが必要です。 オンプレミスのインフラストラクチャを使用すると、高度に複雑なワークロードの実行は、完了までに数日かかる場合があります。 また、オンプレミス システムは通常、Azure ソリューションよりもエネルギー効率が低くなります。

Microsoft のパートナーである minds.ai は、半導体製造会社がウェハー製造 KPI を最適化できるように、Maestro スケジュール アンド ディスパッチ ソリューションを作成しました。

このソリューションは AKS を使用して、コンテナー ベースのアプリケーションをクラスター環境にデプロイ、管理、スケーリングします。 使いやすいインターフェイスを AKS に提供するために、REST API が使用されています。 Container Registry を使用して、DeepSim などのコンテナー イメージをビルド、格納、管理できます。 コンテナーは移植性が高く、オンデマンド ワークフローの機敏性が向上します。

この記事で説明するソリューション アーキテクチャは、次のシナリオに適用されます。

ファブ スケジュールの強化学習

ライン制御エンジニアは、このソリューションで現在のワークフローを自動化および拡張することにより、製品サイクル時間、スループット、使用率を向上し、リソース帯域幅を解放できます。 このソリューションでは、強化学習によってトレーニングされた AI エージェントを使用してワークフローを拡張し、KPI を改善するためにより多くの分析情報とオプションをファブ エンジニアに提供できます。

このソリューションでは、モデルのトレーニングに強化学習が使用されています。 デプロイされたソリューションは、動的なファブ状態に迅速に対応するために、シミュレーションでトレーニングされます。 ワークフローによって、スケジュールのレコメンデーションが自動的に生成されます。

実際のシナリオでは、結果から得たスケジュールによって次のような成果がもたらされ、ある企業は年間数千万ドルを節約しました。

  • 1 から 2% のスループット向上。
  • 1 から 2% の重大な待ち時間違反削減。
  • 2 から 7% の新製品サイクル時間短縮。
  • ボトルネックのあったツール グループの使用率向上。
  • ウェハーあたりのコストを削減。

ファブ ツール モデリングの教師あり学習

ツールと機器に関する正確な情報を得ることは、ファブの計画と運用における、もう 1 つの重要な側面です。 ビジネス要件には多くの場合、機器正常性指数 (EHI) や残存耐用年数 (RUL) など、ツールの信頼性と予測可能性を測定するモデルが含まれます。

Maestro には、EHI モデルと RUL モデルをトレーニングするアプリケーションが含まれています。 ファブのログ システムの一部である履歴データは、モデルのトレーニングに使用されます。 Azure GPU ハードウェアにより、このプロセスは高速化されます。 結果から得たモデルは、生産性、歩留まり、予防メンテナンスを最適化し、EHI を大幅に改善するための、リスクを考慮したスケジュール設定に使用されます。

考えられるユース ケース

このアーキテクチャは、高度な制御やスケジュール ソリューションが通常使用される、次の業界にも適用されます。

  • Industry 4.0
  • 旅行と輸送 (アプリケーション開発)
  • 製薬と医療
  • 再生可能エネルギー制御と多変量敷地設計

考慮事項

これらの考慮事項は、ワークロードの品質向上に使用できる一連の基本原則である Azure Well-Architected Framework の要素を組み込んでいます。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

[信頼性]

信頼性により、顧客に確約したことをアプリケーションで確実に満たせるようにします。 詳細については、「信頼性の重要な要素の概要」を参照してください。

minds.ai ソリューションは、チップとエネルギー生産において、世界で最も複雑で重大なプロセスの一部にデプロイされているため、信頼性が不可欠です。 Azure プラットフォームでは、可用性ゾーン、可用性セット、Geo 冗長ストレージ、Azure Site Recovery を使用して、実行中の環境を安定させることができます。 イシューが検出された場合、システムはコンピューティング環境の一部を自動的に再起動し、トレーニング プロセスを再起動します。 この機能は、トレーニング済みのエージェントまたはニューラル ネットワーク モデルを、予定期間内に確実に得るために役立ちます。

このシステムは既存のソリューションを拡張するものであり、いつでも元のソリューションに戻せます。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。 詳細については、「セキュリティの重要な要素の概要」を参照してください。

このソリューションは、シングルテナント ソリューションとしてデプロイされます。 ソフトウェア、データ、インプロセス シミュレーションは、ユーザーのみが制御できます。

AKS はロールベースのアクセス制御 (RBAC) を提供し、エンジニアが自分の業務に必要な情報にのみアクセスできるようにします。

ネットワーク セキュリティ オプションについて詳しくは、「AKS のネットワーク ポリシーを使用したポッド間のトラフィックの保護」をご覧ください。

コスト最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させることです。 詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

Maestro のトレーニング実行は、割り込みありの方法で操作できます。これにより、次の 2 つのオプションが考えられます。

  • スポット VM でコストを削減します。ただし、割り込みによりジョブ完了までの時間がさらにかかる可能性が高くなります。
  • 予約インスタンスはコストがかかりますが、実行時間を予測できる専用のコンピューティング リソースを使用します。

Spot Virtual Machines を使うと、未使用の Azure 容量を活用して、コストを大幅に削減できます。 Azure でその容量を取り戻す必要が生じた場合、スポット仮想マシンは強制削除されます。それから新しいインスタンスが minds.ai ソフトウェアによって自動的に開始され、トレーニング プロセスが再開されます。

AKS のデプロイ、管理、Kubernetes クラスターの運用に関連するコストはありません。 Kubernetes クラスターによって使用される仮想マシン インスタンス、ストレージ、ネットワーク リソースに対してのみお支払いいただきます。 Azure Files は、長期のデータ保存に使用されます。 すべてのデータがクラウドに留まるため、データ転送帯域幅の料金が削減されます。

CPU と GPU のユース ケースについて、次に詳しく示します。

  • CPU ユース ケース: 20 ノードで 1 か月間実行されている 10 強化学習エージェント (ノードあたり 120 CPU コア) が、コンピューティング時間 360 時間 (2,400 CPU コア) で使用されます。

    コストを 83% 節約するために、Azure Spot Virtual Machines を使用します。

    サービス カテゴリ サービスの種類 説明
    Compute 仮想マシン 1 Standard_HB120rs_v3 VM (120 コア、448 GiB RAM)
    Compute 仮想マシン 1 Standard_B8ms VM (8 コア、32 GiB RAM)
    ストレージ ストレージ アカウント File Storage、Premium パフォーマンス レベル
    ストレージ ストレージ アカウント Managed Disks、Premium SSD、P4 ディスク種類、1 ディスク
    Containers Container Registry 1 つのレジストリ
    Compute 仮想マシン 20 Standard_HB120rs_v3 VM (120 コア、448 GiB RAM)
  • GPU ユース ケース: 16 ノードで 1 か月間実行されている 10 ニューラル ネットワーク トレーニング ジョブの教師あり学習 (ノードあたり 1 GPU) が、コンピューティング時間 360 時間 (16 GPU) で使用されます。

    コストを 52% 節約するために、Azure Spot Virtual Machines を使用します。

    サービス カテゴリ サービスの種類 説明
    Compute 仮想マシン 1 Standard_HB120_rs v3 VM (120 コア、448 GiB RAM)
    Compute 仮想マシン 1 Standard_B8ms VM (8 コア、32 GiB RAM)
    ストレージ ストレージ アカウント File Storage、Premium パフォーマンス レベル
    ストレージ ストレージ アカウント Managed Disks、Premium SSD、P4 ディスク種類、1 ディスク
    Containers Container Registry 1 つのレジストリ
    Compute 仮想マシン 16 Standard_NC6s_v3 VM (6 vCPU、112 GiB RAM)

コストを見積もるには、Azure 料金計算ツールを使用します。

パフォーマンス効率

パフォーマンス効率とは、需要に合わせて効率的な方法でワークロードをスケーリングできることです。 詳細については、「パフォーマンス効率の柱の概要」を参照してください。

このアーキテクチャでは、強化学習に AMD CPU を搭載した HBv3 シリーズ VM、教師あり学習に NVIDIA GPU を搭載した NCv3 シリーズ VM を使用します。

HBv3 シリーズ VM には、コンピューティング集中型プロセッサと高帯域幅メモリが備わっており、強化学習に適しています。 それらをマルチノード クラスター構成で使用して、スケーラブルなパフォーマンスを実現できます。

NCv3 シリーズ VM には、コンピューティング集中型 GPU アクセラレータ プロセッサが備わっており、教師あり学習の要求に適しています。 マルチ GPU 機能を使用して、スケーラブルなパフォーマンスを実現できます。

詳しくは、「AKS でのアプリケーションのスケーリング オプション」をご覧ください。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパルの作成者:

その他の共同作成者:

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次の手順