半導体製造のスケジュールとディスパッチを自動化する

Azure Kubernetes Service (AKS)

Azure Virtual Network

Azure Files

Azure Container Registry

この記事では、Azure での半導体製造ワークロードのファブスケジュールとディスパッチの自動化について説明します。このソリューションでは、ハイパフォーマンスコンピューティング (HPC) 環境を使用して、大規模な強化学習 (RL) を実行します。このアーキテクチャは、半導体製造製品スイートの minds.ai Maestro に基づいています。

アーキテクチャ

このアーキテクチャの PowerPoint ファイルをダウンロードします。

ワークフロー

このワークフローでは、強化学習トレーニングに使用されるアーキテクチャの大まかな概要を説明します。

エンドユーザーは、Azure Kubernetes Service (AKS) で実行される REST API を介して Maestro 管理システムとやり取りします。システムとやり取りできる方法はさまざまです。
- Python API
- Web ベースのユーザーインターフェイス
- コマンドラインクライアント
Maestro は、Kubernetes クラスターでトレーニングジョブをスケジュールします。
Maestro は、Kubernetes を起動して、関連するノードプールにポッドを割り当てます。 AKS は、必要に応じてノードプールをスケールアップまたはスケールダウンします。 Maestro は、ユーザーが指定した構成に基づいて、ポッドを特定のノードプールに割り当てます。次の選択肢から選べます。
- 標準ノードかスポットノード。
- CPU ノードか GPU ノード。
Kubernetes は、Maestro によって定義された構成に基づいて Azure Container Registry からコンテナーイメージをプルし、ポッドを初期化します。
トレーニング中、結果は Azure Files と、Maestro 管理ポッドの一部である (および追加のストレージデバイスでサポートされている) メトリック追跡システムに格納されます。ユーザーは、Maestro ダッシュボードを使用してジョブの進行状況を監視します。
トレーニングが完了すると、強化学習エージェントはデプロイシステムにプッシュされ、エージェントにアクションのクエリを実行できます。オプションで、デプロイサーバーは監視統計を Maestro プラットフォームに報告し、Azure Files を介してエージェントをさらに最適化できます。

コンポーネント

AKS: オープンソースの Kubernetes システムに基づいた、マネージドコンテナーオーケストレーションサービスです。 AKS を使用して、Docker コンテナーとコンテナーベースアプリケーションのデプロイ、スケーリング、管理などの重要な機能を処理できます。
Maestro エンジン (コード名 DeepSim): 既存のファブワークフローを拡張し、AI で強化されたディスパッチとスケジュールのレコメンデーションを使用して、半導体ファブ KPI を改善します。
Azure Spot Virtual Machines: 未使用の Azure コンピューティング容量が、大幅な割引でプロビジョニングされます。スポット VM は、標準のコンピューティングインスタンスと同じマシンの種類、オプション、パフォーマンスを提供します。
Azure ストレージアカウント: このアーキテクチャでは、トレーニング結果、入力、構成データを格納するために使用されます。
Azure Managed Disks: Azure Virtual Machines と Azure VMware Solution で使用するために設計された、高パフォーマンスで耐久性のあるブロックストレージデバイスです。
Azure Virtual Network: VM などの Azure リソースが、セキュリティの強化された接続を介して、相互通信、インターネット通信、オンプレミスネットワーク通信をすることができます。
Azure Files: 業界標準の SMB や NFS プロトコルを介してアクセスできる、クラウドのフルマネージドファイル共有を提供します。
Azure Container Registry: Geo レプリケートされたフルマネージドの OCI ディストリビューションインスタンスを使用して、コンテナーイメージと成果物をビルド、格納、スキャン、レプリケート、管理することができます。

シナリオの詳細

効果的なツールモデリングと、効果的かつ効率的なスケジュールとディスパッチ方法は、製造元にとって重要です。

最先端の AI と機械学習ソリューションを活用するには、スケーラブルでコスト効率の高い HPC インフラストラクチャが必要です。オンプレミスのインフラストラクチャを使用すると、高度に複雑なワークロードの実行は、完了までに数日かかる場合があります。また、オンプレミスシステムは通常、Azure ソリューションよりもエネルギー効率が低くなります。

Microsoft のパートナーである minds.ai は、半導体製造会社がウェハー製造 KPI を最適化できるように、Maestro スケジュールアンドディスパッチソリューションを作成しました。

このソリューションは AKS を使用して、コンテナーベースのアプリケーションをクラスター環境にデプロイ、管理、スケーリングします。使いやすいインターフェイスを AKS に提供するために、REST API が使用されています。 Container Registry を使用して、DeepSim などのコンテナーイメージをビルド、格納、管理できます。コンテナーは移植性が高く、オンデマンドワークフローの機敏性が向上します。

この記事で説明するソリューションアーキテクチャは、次のシナリオに適用されます。

ファブスケジュールの強化学習

ライン制御エンジニアは、このソリューションで現在のワークフローを自動化および拡張することにより、製品サイクル時間、スループット、使用率を向上し、リソース帯域幅を解放できます。このソリューションでは、強化学習によってトレーニングされた AI エージェントを使用してワークフローを拡張し、KPI を改善するためにより多くの分析情報とオプションをファブエンジニアに提供できます。

このソリューションでは、モデルのトレーニングに強化学習が使用されています。デプロイされたソリューションは、動的なファブ状態に迅速に対応するために、シミュレーションでトレーニングされます。ワークフローによって、スケジュールのレコメンデーションが自動的に生成されます。

実際のシナリオでは、結果から得たスケジュールによって次のような成果がもたらされ、ある企業は年間数千万ドルを節約しました。

1 から 2% のスループット向上。
1 から 2% の重大な待ち時間違反削減。
2 から 7% の新製品サイクル時間短縮。
ボトルネックのあったツールグループの使用率向上。
ウェハーあたりのコストを削減。

ファブツールモデリングの教師あり学習

ツールと機器に関する正確な情報を得ることは、ファブの計画と運用における、もう 1 つの重要な側面です。ビジネス要件には多くの場合、機器正常性指数 (EHI) や残存耐用年数 (RUL) など、ツールの信頼性と予測可能性を測定するモデルが含まれます。

Maestro には、EHI モデルと RUL モデルをトレーニングするアプリケーションが含まれています。ファブのログシステムの一部である履歴データは、モデルのトレーニングに使用されます。 Azure GPU ハードウェアにより、このプロセスは高速化されます。結果から得たモデルは、生産性、歩留まり、予防メンテナンスを最適化し、EHI を大幅に改善するための、リスクを考慮したスケジュール設定に使用されます。

考えられるユースケース

このアーキテクチャは、高度な制御やスケジュールソリューションが通常使用される、次の業界にも適用されます。

Industry 4.0
旅行と輸送 (アプリケーション開発)
製薬と医療
再生可能エネルギー制御と多変量敷地設計

考慮事項

これらの考慮事項は、ワークロードの品質向上に使用できる一連の基本原則である Azure Well-Architected Framework の要素を組み込んでいます。詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

[信頼性]

信頼性により、顧客に確約したことをアプリケーションで確実に満たせるようにします。詳細については、「信頼性の重要な要素の概要」を参照してください。

minds.ai ソリューションは、チップとエネルギー生産において、世界で最も複雑で重大なプロセスの一部にデプロイされているため、信頼性が不可欠です。 Azure プラットフォームでは、可用性ゾーン、可用性セット、Geo 冗長ストレージ、Azure Site Recovery を使用して、実行中の環境を安定させることができます。イシューが検出された場合、システムはコンピューティング環境の一部を自動的に再起動し、トレーニングプロセスを再起動します。この機能は、トレーニング済みのエージェントまたはニューラルネットワークモデルを、予定期間内に確実に得るために役立ちます。

このシステムは既存のソリューションを拡張するものであり、いつでも元のソリューションに戻せます。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。詳細については、「セキュリティの重要な要素の概要」を参照してください。

このソリューションは、シングルテナントソリューションとしてデプロイされます。ソフトウェア、データ、インプロセスシミュレーションは、ユーザーのみが制御できます。

AKS はロールベースのアクセス制御 (RBAC) を提供し、エンジニアが自分の業務に必要な情報にのみアクセスできるようにします。

ネットワークセキュリティオプションについて詳しくは、「AKS のネットワークポリシーを使用したポッド間のトラフィックの保護」をご覧ください。

コスト最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させることです。詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

Maestro のトレーニング実行は、割り込みありの方法で操作できます。これにより、次の 2 つのオプションが考えられます。

スポット VM でコストを削減します。ただし、割り込みによりジョブ完了までの時間がさらにかかる可能性が高くなります。
予約インスタンスはコストがかかりますが、実行時間を予測できる専用のコンピューティングリソースを使用します。

Spot Virtual Machines を使うと、未使用の Azure 容量を活用して、コストを大幅に削減できます。 Azure でその容量を取り戻す必要が生じた場合、スポット仮想マシンは強制削除されます。それから新しいインスタンスが minds.ai ソフトウェアによって自動的に開始され、トレーニングプロセスが再開されます。

AKS のデプロイ、管理、Kubernetes クラスターの運用に関連するコストはありません。 Kubernetes クラスターによって使用される仮想マシンインスタンス、ストレージ、ネットワークリソースに対してのみお支払いいただきます。 Azure Files は、長期のデータ保存に使用されます。すべてのデータがクラウドに留まるため、データ転送帯域幅の料金が削減されます。

CPU と GPU のユースケースについて、次に詳しく示します。

CPU ユースケース: 20 ノードで 1 か月間実行されている 10 強化学習エージェント (ノードあたり 120 CPU コア) が、コンピューティング時間 360 時間 (2,400 CPU コア) で使用されます。

コストを 83% 節約するために、Azure Spot Virtual Machines を使用します。

サービスカテゴリ	サービスの種類	説明
Compute	仮想マシン	1 Standard_HB120rs_v3 VM (120 コア、448 GiB RAM)
Compute	仮想マシン	1 Standard_B8ms VM (8 コア、32 GiB RAM)
ストレージ	ストレージアカウント	File Storage、Premium パフォーマンスレベル
ストレージ	ストレージアカウント	Managed Disks、Premium SSD、P4 ディスク種類、1 ディスク
Containers	Container Registry	1 つのレジストリ
Compute	仮想マシン	20 Standard_HB120rs_v3 VM (120 コア、448 GiB RAM)

GPU ユースケース: 16 ノードで 1 か月間実行されている 10 ニューラルネットワークトレーニングジョブの教師あり学習 (ノードあたり 1 GPU) が、コンピューティング時間 360 時間 (16 GPU) で使用されます。

コストを 52% 節約するために、Azure Spot Virtual Machines を使用します。

サービスカテゴリ	サービスの種類	説明
Compute	仮想マシン	1 Standard_HB120_rs v3 VM (120 コア、448 GiB RAM)
Compute	仮想マシン	1 Standard_B8ms VM (8 コア、32 GiB RAM)
ストレージ	ストレージアカウント	File Storage、Premium パフォーマンスレベル
ストレージ	ストレージアカウント	Managed Disks、Premium SSD、P4 ディスク種類、1 ディスク
Containers	Container Registry	1 つのレジストリ
Compute	仮想マシン	16 Standard_NC6s_v3 VM (6 vCPU、112 GiB RAM)

コストを見積もるには、Azure 料金計算ツールを使用します。

パフォーマンス効率

パフォーマンス効率とは、需要に合わせて効率的な方法でワークロードをスケーリングできることです。詳細については、「パフォーマンス効率の柱の概要」を参照してください。

このアーキテクチャでは、強化学習に AMD CPU を搭載した HBv3 シリーズ VM、教師あり学習に NVIDIA GPU を搭載した NCv3 シリーズ VM を使用します。

HBv3 シリーズ VM には、コンピューティング集中型プロセッサと高帯域幅メモリが備わっており、強化学習に適しています。それらをマルチノードクラスター構成で使用して、スケーラブルなパフォーマンスを実現できます。

NCv3 シリーズ VM には、コンピューティング集中型 GPU アクセラレータプロセッサが備わっており、教師あり学習の要求に適しています。マルチ GPU 機能を使用して、スケーラブルなパフォーマンスを実現できます。

詳しくは、「AKS でのアプリケーションのスケーリングオプション」をご覧ください。

共同作成者

この記事は、Microsoft によって保守されています。当初の寄稿者は以下のとおりです。

プリンシパルの作成者:

Kalaiselvan Balaraman | クラウドソリューションアーキテクト
Mahaboob Basha R | クラウドソリューションアーキテクト
Jeroen Bédorf | チーフアーキテクト
Thomas Soule | ビジネス開発マネージャー

その他の共同作成者:

Mick Alberts | テクニカルライター
Hari Bagudu | シニアマネージャー
Gauhar Junnarkar | プリンシパルプログラムマネージャー
Sachin Rastogi | プログラムリーダー

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

半導体製造のスケジュールとディスパッチを自動化する

アーキテクチャ

ワークフロー

コンポーネント

シナリオの詳細

ファブスケジュールの強化学習

ファブツールモデリングの教師あり学習

考えられるユースケース

考慮事項

[信頼性]

セキュリティ

コスト最適化

パフォーマンス効率

共同作成者

次の手順

フィードバック

フィードバック

その他のリソース

半導体製造のスケジュールとディスパッチを自動化する

アーキテクチャ

ワークフロー

コンポーネント

シナリオの詳細

ファブ スケジュールの強化学習

ファブ ツール モデリングの教師あり学習

考えられるユース ケース

考慮事項

[信頼性]

セキュリティ

コスト最適化

パフォーマンス効率

共同作成者

次の手順

関連リソース

フィードバック

フィードバック

その他のリソース

ファブスケジュールの強化学習

ファブツールモデリングの教師あり学習

考えられるユースケース