アンダーフィッティングとは、モデルが単純すぎてデータの基礎となるパターンを捉えることができない機械学習の状況です。これは、モデルが入力特徴と目標出力の関係を学習できず、トレーニングデータと未知のデータ (テストデータ) の両方でパフォーマンスが低下する場合に発生します。通常、適合が不十分だと、偏りが高く分散が小さくなるため、モデルを新しいデータに一般化できなくなります。
アンダーフィッティングは、オーバーフィッティングと並んで機械学習における重要な問題の1つです。これは、モデルの複雑さがデータの複雑さを捉えるほど複雑ではないことを示しています。その結果、モデルでは過度に単純な仮定がなされ、予測が不正確になります。
アンダーフィッティングの主な特徴は次のとおりです。
高バイアス:アンダーフィッティングは多くの場合、データに関するモデルの仮定によって生じる誤差のことを指す高バイアスと関連しています。バイアスの高いモデルは強い仮定を立て、データ内の真の関係を捉えることができず、一貫して予測が不十分になります。
低分散:アンダーフィッティングには高い偏りがありますが、通常は分散が小さくなります。分散とは、トレーニングデータの変化に対するモデルの感度を指します。低分散モデルはトレーニングデータにうまく適応せず、その結果、データ内のニュアンスを捉えることができず、不適合につながります。
アンダーフィッティングの原因:アンダーフィッティングにはいくつかの要因があります。
モデルのシンプルさ:線形モデルを使用して非線形の関係を捉えるなど、モデルが単純すぎる場合、データの複雑さを捉えることができません。
トレーニングが不十分:モデルが十分な反復回数またはエポック回トレーニングを受けていないと、データの基礎となるパターンを学習できず、結果的に適合が不十分になる可能性があります。
特徴の選択:重要な特徴が除外されているか、適切に設計されていないと、モデルに正確な予測を行うための十分な情報が得られず、不適合につながる可能性があります。
高度な正則化:L1正則化やL2正則化などの正則化手法を使用して、複雑なモデルにペナルティを課すことで過適合を防ぎます。ただし、正則化をしすぎるとモデルが過度に単純化され、適合が不十分になる可能性があります。
アンダーフィッティングの指標:
トレーニングデータのパフォーマンスが低い:モデルのトレーニングデータに対するパフォーマンスが低く、データ内のパターンを学習していないことを示す場合、アンダーフィッティングが明らかになります。
テストデータのパフォーマンスが低い:不適合モデルは一般化がうまくいかないため、目に見えないテストデータでもパフォーマンスが低下します。
高いトレーニングエラー:トレーニングセットのエラー率が高いということは、モデルが基礎となるパターンを捉えるほど複雑ではないことを示しています。
アンダーフィッティングの例:線形回帰モデルを使用して、サイズ、部屋数、場所などの特徴に基づいて住宅価格を予測するシナリオを考えてみましょう。特徴と価格の関係が非線形の場合、単純な線形回帰モデルではこの関係が捉えられず、トレーニングデータとテストデータの両方について予測が不十分になる可能性があります。これはアンダーフィッティングの一例です。
アンダーフィッティングへの対処方法:
モデルの複雑さの向上:線形回帰から多項式回帰への移行や、デシジョンツリーやニューラルネットワークなどのより高度なアルゴリズムを使用するなど、より複雑なモデルを使用します。
フィーチャエンジニアリング:関連性の高いフィーチャを追加するか、既存のフィーチャを変換して、データ内の基礎となるリレーションシップをより的確に把握できるようにします。
正則化の削減:正則化が強すぎる場合は、モデルがよりデータに適合するように正則化パラメーターを減らすことを検討してください。
トレーニング時間の延長:データから学習する時間を増やすため、反復回数またはエポック回数を増やしてモデルをトレーニングします。
不適合モデルは不正確な予測や不適切な意思決定につながる可能性があるため、企業にとって不適合を理解して対処することは企業にとって非常に重要です。たとえば、予知保全では、適合が不十分なモデルでは、差し迫った機器の故障を示すパターンを認識できず、計画外のダウンタイムやコストの増加につながる可能性があります。マーケティングでは、モデルの適合度が十分でないと、顧客を正確にセグメント化できず、ターゲティングの効果がなくなり、マーケティング投資の収益率が低下する可能性があります。
不適合を認識し、それに対処するための措置を講じることで、企業はデータの複雑さをより的確に捉えるモデルを開発でき、より正確な予測、意思決定の改善、より良い成果につながります。
要約すると、アンダーフィッティングは、モデルが単純すぎてデータの基礎となるパターンを捉えられず、その結果、偏りが高くパフォーマンスが低下する場合に発生します。企業にとって、機械学習モデルが正確な予測を行い、効果的な意思決定を支援するためには、アンダーフィットを避けることが不可欠です。
Sapienのデータラベリングおよびデータ収集サービスがどのように音声テキスト化AIモデルを発展させることができるかについて、当社のチームと相談してください