用語集に戻る
/
/
不均衡なデータセット
最終更新日:
3.21.2025

不均衡なデータセット

不均衡なデータセットとは、クラスまたはカテゴリが等しく表現されていないデータセットを指します。これは、あるクラスの数が他のクラスよりも大幅に多いという現実世界の多くのシナリオでよく見られます。不均衡なデータセットの意味は、機械学習においてきわめて重要です。というのも、モデルに偏りが生じ、多数派クラスではうまく機能しても少数派クラスでは不十分で、予測が最適ではなくなるからです。

詳細な説明

不均衡なデータセットでは、一方のクラス (多数派クラス) のインスタンス数が他方のクラス (少数クラス) よりもはるかに多くなります。この不均衡により、機械学習モデルは多数派クラスに偏る可能性があります。というのも、モデルは常に多数派クラスを予測して全体の誤差を最小限に抑え、少数派クラスを無視するだけだからです。これは、不正行為の検知、医療診断、希少事象の予測など、少数派クラスの重要性が高いシナリオでは特に問題になります。

不均衡なデータセットがもたらす課題に対処するために、いくつかの手法が使用されています。

リサンプリングテクニック:

オーバーサンプリング:既存のインスタンスを複製したり、新しいインスタンスを生成したりして、マイノリティクラスのインスタンス数を増やす必要があります (例:SMOTE (合成マイノリティオーバーサンプリング技法) を使用)。

アンダーサンプリング:クラス分布のバランスをとるために、マジョリティクラスのインスタンス数を減らします。

コスト重視の学習:学習アルゴリズムを調整して、マイノリティクラスの誤分類により大きなペナルティを課すようにし、モデルがマイノリティクラスにもっと注意を払うように促します。

異常検出:少数派クラスを異常または外れ値として扱い、特殊な手法を使用して検出します。これは、非常に不均衡なシナリオでは、従来の分類方法よりも効果的です。

アンサンブル法:複数のモデルを組み合わせて少数派クラスの分類を改善します。たとえば、バランス型ランダムフォレストなどの手法を使用したり、少数派クラスに焦点を当てたブースト法を使用したりします。

クラスの不均衡に対処することは、機械学習モデルがすべてのクラスで適切に機能するようにするために重要です。特に、不正取引はまれではあるが特定することが重要な、不正検出などのマイノリティクラスが重大な結果をもたらすアプリケーションでは特にそうです。

不均衡なデータセットが企業にとって重要なのはなぜですか?

不均衡なデータセットは、マイノリティクラスの正確な検出が不可欠な重要なアプリケーションで発生することが多いため、企業にとって重要です。たとえば金融業界では、不正取引検知システムが不正取引を正確に特定する必要があります。不正取引は通常、全取引のごく一部を占めています。適切な処理を行わずに不均衡なデータセットでモデルをトレーニングすると、このようなまれではあるが重大なケースを検出できず、財務上の損失につながる可能性があります。

医療では、不均衡なデータセットでトレーニングされたモデルでは、まれではあるが重篤な状態の診断に失敗し、患者の治療成績に悪影響を及ぼす可能性があります。たとえば、希少疾患を検出したり、薬物副作用を予測したりするには、モデルがこれらの重大な症例を正確に特定できるように、不均衡なデータを慎重に扱う必要があります。

マーケティングでは、解約予測において不均衡なデータセットが生じる可能性があります。つまり、あるサービスを継続する顧客の数が、離脱した顧客の数をはるかに上回ります。解約率を正確に予測できないモデルでは、リテンション戦略が効果的でなくなり、収益が失われる可能性があります。

要約すると、不均衡なデータセットとは、クラスの表現が等しくないデータセットを指し、機械学習モデルに偏りが生じる可能性があります。企業にとって、重要ではあるがまれなイベントを正確に検出し、より良い意思決定を促進し、さまざまな領域にわたるリスクを最小限に抑える信頼性の高いモデルを開発するには、不均衡なデータセットへの対処が不可欠です。

Volume:
140
Keyword Difficulty:
38

データラベリングの仕組みをご覧ください

Sapienのデータラベリングおよびデータ収集サービスがどのように音声テキスト化AIモデルを発展させることができるかについて、当社のチームと相談してください