運用環境の準備状況チェックリスト

[アーティクル]
06/01/2023

お使いのアプリケーションとクラスターは、運用環境のトラフィックに対応する準備ができていますか。アプリケーションとクラスターを実行してテストしたからといって、必ずしも運用環境に移行するための準備ができているというわけではありません。次のチェックリストを検討して、アプリケーションとクラスターが円滑に実行されるようにします。これらの項目すべてをチェック済みにすることを強くお勧めします。当然ながら、特定の項目に代替ソリューションを使用することができます (独自の診断フレームワークなど)。

運用環境の前提条件

Azure Service Fabric のベストプラクティス:アプリケーションの設計、セキュリティ、ネットワーク、キャパシティプランニングとスケール、コードとしてのインフラストラクチャ、および監視と診断。
Reliable Actors プログラミングモデルを使用していて、セキュリティで保護されたサービス間通信が必要な場合は、FabricTransport 設定を構成します。
20 を超えるコアまたは 10 個を超えるノードを持つクラスターの場合は、システムサービス用に専用のプライマリノードタイプを作成します。配置の制約を追加して、システムサービス用にプライマリノードタイプを予約します。
プライマリノードタイプには D2v2 または上位の SKU を使用します。少なくとも 50 GB のハードディスク容量を持つ SKU を選択することをお勧めします。
運用環境クラスターは、セキュリティで保護されている必要があります。セキュリティで保護されたクラスターの設定例については、このクラスターテンプレートを参照してください。証明書の共通名を使用します。自己署名証明書は使用しないでください。
コンテナーとサービスのリソース制約を追加して、ノードリソースの消費が 75% を超えないようにします。
持続性レベルを理解して設定します。ステートフルワークロードを実行しているノードタイプには、シルバー以上の持続性レベルを推奨し、以下のノードタイプでは必須とします。
ノードタイプの信頼性レベルを理解して選択します。シルバー以上の信頼性が推奨され、製品化には必要です。
クラスターの容量の要件を特定するため、ワークロードのロードテストとスケールテストを実行します。
アラートを使用して、サービスとアプリケーションが監視され、アプリケーションログが生成され、格納されています。例については、「Service Fabric アプリケーションにログ記録を追加する」と「Monitor containers with Azure Monitor logs (Azure Monitor ログによるコンテナーの監視)」を参照してください。
クラスターがアラート (Azure Monitor ログなど) で監視されています。
基になる仮想マシンスケールセットインフラストラクチャが、アラート (Azure Monitor ログなど) で監視されています。
ロックアウトされないように、クラスターには、常にプライマリ証明書とセカンダリ証明書があります。
開発、ステージング、および運用環境用に個別のクラスターを維持します。
アプリケーションのアップグレードとクラスターのアップグレードは、最初に開発クラスターとステージングクラスターでテストされます。
自動アップグレードは、運用環境クラスターではオフにして、開発環境クラスターとステージングクラスターではオンにします (必要に応じてロールバック)。
サービスの目標復旧時点 (RPO) を確立し、ディザスターリカバリープロセスを設定してそれをテストします。
クラスターの手動またはプログラムを使用したスケーリングを計画します。
クラスターノードへの修正プログラムの適用を計画します。
最新の変更が継続的にテストされるように、CI/CD パイプラインを確立します。たとえば、Azure DevOps または Jenkins を使用して
Fault Analysis Service と制御された混乱の誘発を使用して、負荷の下で開発クラスターとステージングクラスターをテストします。
アプリケーションのスケーリングを計画します。

Service Fabric の Reliable Services または Reliable Actors プログラミングモデルを使用している場合は、次の項目をチェック済みにする必要があります。

ローカル開発中にアプリケーションをアップグレードして、サービスコードが RunAsync メソッドでキャンセルトークンを受け入れること、およびカスタム通信リスナーを終了することを確認します。
Reliable Collection を使用する場合は、よくある落とし穴を回避します。
ロードテストの実行時に、.NET CLR メモリパフォーマンスカウンターを監視して、高いレートのガベージコレクションやランナウェイヒープの増加を確認します。
Reliable Services と Reliable Actors のオフラインバックアップを保持して、復元プロセスをテストします。
プライマリ NodeType 仮想マシンインスタンス数は理想的には、クラスターの信頼性レベルの最小と等しくする必要があります。レベルの最小を超えることが適切な場合の条件は、プライマリ NodeTypes 仮想マシンスケールセット SKU を垂直方向にスケーリングする場合の一時的なものなどです。

省略可能なベストプラクティス

上記のリストは、運用に入るための前提条件ですが、次の項目も考慮する必要があります。

組み込みの正常性評価とレポートを拡張するため、Service Fabric の正常性モデルにプラグインします。
リソース分散のためにアプリケーションとレポートの負荷を監視しているカスタムウォッチドッグをデプロイします。

次のステップ

Service Fabric Windows クラスターをデプロイする
Service Fabric Linux クラスターをデプロイする
Service Fabric のアプリケーションライフサイクルについて確認します。

運用環境の準備状況チェックリスト

運用環境の前提条件

省略可能なベスト プラクティス

次のステップ

その他のリソース

省略可能なベストプラクティス