オーケストレーション：Step FunctionsでMLOps化

なぜオーケストレーションが必要なのか？

機械学習プロジェクトが本格的に運用フェーズに入ると、次のような課題が生じます。

前処理・学習・評価・登録・デプロイが個別ジョブで分断されている
手動実行やヒューマンエラーによる再現性の欠如
モデル更新のたびに人手による承認・切り替えが煩雑

製薬・医療分野では、これらの問題はさらに深刻です。
なぜなら、規制要件（GxPやPMDA/FDA監査） に対応しながら、AIを安定運用する必要があるためです。

そこで登場するのが、AWSのStep FunctionsによるMLOpsパイプライン自動化です。

MLOpsステートマシンの設計

SageMakerを中心としたMLワークフローを、Step Functionsで一元制御します。
代表的な構成は以下の通りです。

ステートマシン構成

Processing → Training → Evaluation → Registry → Deploy

処理概要

ステップ	内容
Processing	データ前処理（特徴量生成、正規化など）
Training	モデル学習（XGBoost/PyTorch/自作Docker）
Evaluation	精度評価・メトリクス計算（AUC/RMSEなど）
Registry	Model Registryに登録、メタデータ保存
Deploy	承認済みモデルを本番環境へデプロイ

これにより、データの投入からモデルの運用までを1本の自動化パイプラインとして実現できます。

Step Functions のASL定義例

以下は最小構成の例です。
学習後の精度を判定し、一定基準を超えた場合のみRegistry登録・Deployへ進みます。

{
  "Comment": "MLOps Pipeline: Processing → Training → Evaluation → Registry → Deploy",
  "StartAt": "Processing",
  "States": {
    "Processing": {
      "Type": "Task",
      "Resource": "arn:aws:states:::sagemaker:createProcessingJob.sync",
      "Next": "Training"
    },
    "Training": {
      "Type": "Task",
      "Resource": "arn:aws:states:::sagemaker:createTrainingJob.sync",
      "Next": "Evaluation"
    },
    "Evaluation": {
      "Type": "Task",
      "Resource": "arn:aws:states:::sagemaker:createProcessingJob.sync",
      "Next": "CheckAUC"
    },
    "CheckAUC": {
      "Type": "Choice",
      "Choices": [
        {
          "Variable": "$.metrics.auc",
          "NumericGreaterThanEquals": 0.80,
          "Next": "RegisterModel"
        }
      ],
      "Default": "ManualApproval"
    },
    "ManualApproval": {
      "Type": "Wait",
      "Seconds": 3600,
      "Next": "RegisterModel"
    },
    "RegisterModel": {
      "Type": "Task",
      "Resource": "arn:aws:states:::sagemaker:createModel",
      "Next": "Deploy"
    },
    "Deploy": {
      "Type": "Task",
      "Resource": "arn:aws:states:::sagemaker:createTransformJob.sync",
      "End": true
    }
  }
}

非同期イベントによる再学習自動化

トリガー設計（EventBridge連携）

Step Functionsは、新しいデータ到着をトリガーに再学習を自動実行できます。

例：S3イベントをトリガーに再学習

S3バケットに data/raw/ フォルダへ新しいデータがアップロードされる
EventBridgeがそのイベントを検知
Step Functionsのステートマシンを起動

{
  "Source": ["aws.s3"],
  "DetailType": ["Object Created"],
  "Detail": {
    "bucket": ["pharma-data-bucket"],
    "object": [{"prefix": "data/raw/"}]
  },
  "StateMachineArn": "arn:aws:states:ap-northeast-1:123456789012:stateMachine:MLOpsPipeline"
}

これにより、データ更新 → モデル再学習 → 精度確認 → 承認 → デプロイ のループが自動化されます。

失敗分岐・手動承認・コスト監視

① 失敗分岐（Error Handling）

Step Functionsでは、各ジョブの失敗時に次のアクションを定義できます。

再試行（Retry）
SNS通知（Slack連携も可）
失敗時に別ステートへ遷移（Catch）

これにより、一部ジョブの失敗が全体を止めることを防止します。

② 手動承認（Manual Approval）

製薬・医療AIでは「自動更新は危険」というケースも多くあります。
そのため、人の承認を待ってからRegistry登録・デプロイするステップを挟みます。

精度AUCがしきい値を超えた場合 → 自動承認
微妙な場合 → 「Manual Approval」状態で保留

Slackやメール通知で「承認/却下ボタン」を組み合わせる設計も可能です。

③ コスト監視

Step FunctionsとCloudWatchメトリクスを連携し、
以下を可視化することで、運用コストの最適化が可能です。

指標	監視目的
SageMakerジョブ時間	学習・推論コストのボトルネック確認
Spotインスタンス成功率	バッチ推論の効率化
失敗ジョブ件数	再試行コスト抑制

CloudWatch DashboardやAWS Cost Explorerと組み合わせることで、
「精度 vs コスト」バランスを定量的に把握できます。

製薬・医療分野での活用例

シナリオ	内容
ADMET予測パイプライン	新しい化合物データが届くたびに自動再学習。精度が閾値を超えたら自動デプロイ。
医療画像モデル	新しいアノテーションが追加されたタイミングで再学習ジョブ起動。
臨床試験モニタリング	データ更新→再推論→統計評価までを自動化し、人的ミスを排除。

まとめ

Step Functionsにより、Processing→Training→Evaluation→Registry→Deploy の全フローを自動化
EventBridgeとの連携で、新規データ到着時に再学習をトリガー
失敗分岐・手動承認・コスト監視で、安全かつ効率的なMLOps基盤を実現

製薬・医療AIでは、再現性と透明性を維持しながら、人の承認と自動化のバランスを取ることが鍵になります。

弊社では、製薬・医療研究に特化した MLOps自動化パイプラインの構築支援 を行っています。

Step Functions / EventBridgeによる再学習自動化
手動承認付きワークフロー設計
コスト監視と運用ダッシュボード構築

👉 お問い合わせはこちら