分布外 (OOD) 検出とは、機械学習モデルの構築に使用されるトレーニングデータの分布から外れるデータポイントを特定するプロセスを指します。これらの OOD データポイントは、モデルによって学習されたパターンと一致しないため、異常または予期しないものとみなされます。分布外検出の意味は、機械学習システムの信頼性と安全性を確保する上で特に重要です。これは、モデルが不慣れなデータに直面したときに信頼性の低い予測を行わないようにするためです。
機械学習では、モデルは通常、展開中に発生すると予想されるデータの分布を表す特定のデータセットでトレーニングされます。しかし、実際のシナリオでは、モデルがトレーニングデータとは大きく異なるデータに遭遇することがよくあります。これは分布外 (OOD) データと呼ばれます。このようなデータは、モデルに処理能力がないと、誤った予測につながる可能性があります。
分布外検出には、OODデータが表示されていることをモデルに認識させる手法が必要です。目標は、不正確で潜在的に有害な予測を行おうとするのではなく、予測を拒否したり、警告を発したりすることで、モデルがこれらの事例にフラグを立てることです。
OOD の検出にはいくつかの方法があります。
信頼度しきい値:多くの機械学習モデルは、予測とともに信頼スコアを出力します。閾値を設定することで、モデルは信頼性の低い予測に潜在的な OOD データとしてフラグを立てることができます。
距離ベースの方法:これらの方法では、トレーニングデータ分布から新しいデータポイントまでの距離を測定します。距離が特定の閾値を超えている場合、そのデータポイントは分布外とみなされます。
生成モデル:変分オートエンコーダー(VAE)や敵対的生成ネットワーク(GAN)などの生成モデルを使用して、トレーニングデータの分布をモデル化できます。このモデルでは、新しいデータポイントの出現確率が低い場合は、OOD というフラグが付けられます。
アンサンブル法:モデルのアンサンブルを使用すると、OOD の検出に役立ちます。アンサンブル内のさまざまなモデルからの予測が大きく一致しない場合、入力データが分布から外れている可能性があります。
入力前処理:入力前処理などの手法を適用して、モデルに入力する前にOODデータを特定できるため、予測の信頼性が低下する可能性が低くなります。
OODの検出は、さまざまな用途で重要です。たとえば、自動運転では、システムはトレーニングデータには存在しなかった物体や状況に遭遇する可能性があります。このようなOODケースを検出して適切に対処できることは、安全にとって不可欠です。医療分野では、OODを検出することで、診断システムがトレーニングデータに含まれていなかったまれな病状や新しい病状を予測することを防ぎ、代わりに人間の専門家に紹介するよう促すことができます。
配信外検出は、実際の環境に導入された機械学習モデルの信頼性、安全性、堅牢性を高めるため、企業にとって重要です。OOD データを効果的に特定して管理することで、慣れない状況に直面したときに、モデルが信頼できない判断や潜在的に危険な意思決定をすることを防げます。
自動車業界、特に自動運転車では、OOD検出は安全にとって不可欠です。自律システムは、訓練された範囲外の物体、シナリオ、または環境に遭遇したことを認識して、減速や人間のドライバーへの警告などの適切なアクションを車両が講じることができるようにする必要があります。
金融業界では、OOD検出は、トレーニングデータでは考慮されていない異常または異常な市況に基づいてトレーディングモデルが意思決定を行うのを防ぎ、重大な財務損失のリスクを軽減するのに役立ちます。
サイバーセキュリティでは、OOD検出を使用して、既知のパターンとは異なる新しいタイプの脅威や攻撃を特定できるため、企業は新たなセキュリティリスクに積極的に対応できます。
さらに、どのAI主導の意思決定プロセスにおいても、OOD検出は予測やアクションがモデルの専門知識の範囲内でのみ行われるようにすることで、システムへの信頼を維持するのに役立ちます。これは、AI アプリケーションに対するユーザーの信頼を築き、維持するために不可欠です。
簡単に言うと、分布外検出の意味は、機械学習モデルで使用されるトレーニングデータの分布の範囲外にあるデータを識別することです。企業にとって、OOD 検出は AI システムの信頼性と安全性を高め、さまざまな業界のなじみのない状況や異常な状況を効果的に管理できるようにするために不可欠です。
Sapienのデータラベリングおよびデータ収集サービスがどのように音声テキスト化AIモデルを発展させることができるかについて、当社のチームと相談してください