
言語モデル(LM)は、1980年代に登場して以来、自然言語から観察される特性を統計的にモデル化する手段として40年以上前から存在してきました(Rosenfeld、2000)。入力としてテキストの集合が与えられると、言語モデルはそれらのテキストから単語の頻度や確率、周囲の文脈などの言語の統計的特性を計算し、それを自然言語理解(NLU)、生成(NLG)、推論(NLR)、さらに広義には処理(NLP)などのさまざまな目的に使用できます。ここでは、自然言語処理と大規模言語モデル (LLM) の概要と、Sapien の LLM 向けデータラベリングサービスが AI モデルの微調整とトレーニングにどのように役立つかについて説明します。
自然言語をモデル化するこの統計的アプローチは、パターンの観察と確率的表現によって言語をモデル化できると主張する人々と、そのようなアプローチは初歩的であり、言語を正しく理解するには言語理論に基づく必要があると主張する人々の間で、何十年にもわたって議論を巻き起こしてきました。
テキストコレクションの利用可能性が高まり、計算リソースへのアクセスが向上した結果、NLP分野に革命をもたらし、科学界に大規模言語モデル(LLM)が導入されたのはごく最近のことです(Min et al。、2023)。LLMは、1980年代に導入された従来のLMと同じ基本的な直感に従い、大規模なテキストコレクションから得た統計言語の特性をスケールアップします。
従来のLMと同様に、言語の統計的性質をモデル化するロジックに従い、研究者たちは、今日の計算リソースがあれば、時にはWebのほぼ全体を含むこともある膨大なテキストコレクションからトレーニングされる、はるかに大規模なLLMをトレーニングできることを実証しました。ただし、これには論争がないわけではありません。特に、このような大規模なテキストコレクションを使用すると、質よりも量が優先されるためです。実際、Web全体が使用されているときに、モデルにどのデータが入力されるかを制御できなくなり、貴重な情報に加えて攻撃的なコンテンツや誤った情報が含まれます。
LLMの急増は、2010年代後半から徐々に増加し、波のように押し寄せています。単語を埋め込みという形でコンパクトに表現するために word2vec や Glove などの単語埋め込みモデルが導入された後、最初の大きな波が押し寄せたのは、BERT、RobertA、T5 などの Transformer アーキテクチャ上に構築された LLM の登場でした。最近の波により、ChatGPT、Google Bardなどのチャットボットや、Llama、Alpaca、Lemurなどのオープンソースの代替手段を含むジェネレーティブAIのモデルが急増しています。こうした背景から、これらのLLMを活用するさまざまな方法が生まれました。その中には、数ショットのテキスト分類のためのパターン・エクスプロイティング・トレーニング(PET)や、NLG(NLG)の方法など、数回のテキスト分類のための手法を促すことも含まれます。LLMは通常、既存の大規模データセットで事前にトレーニングされたモデルであり、かなりの計算能力と時間が必要ですが、これらのモデルは後で特定のドメインに合わせて微調整しても少ない労力でできます。
近年、LLMは多くのNLPタスクで最先端のパフォーマンスを発揮することが実証されており、今度は多くの実験環境で使用される事実上のベースラインモデルとなっています。ただし、LLM の力は悪意のある目的に利用される可能性があるという証拠もあります。たとえば LLM を使用して、チート行為によって学校の課題の修了を支援したり、攻撃的だったり、誤った情報を広めたりするコンテンツを生成したりする場合などです。
また、LLMの優れた業績は、人工知能ツールが最終的に多くの人々の仕事を奪うのではないかという社会的な懸念を必然的に引き起こし、それが社会に与える倫理的意味合いに疑問を投げかけています。これが今度は研究の火付け役となり、最近の研究では人工知能ツールの採用が示唆されています。AIツールは実際に人間の労働に取って代わるのではなく、むしろそのパフォーマンスをサポートし、向上させることができるからです。
制限と未解決の課題
LLMの成功には論争がないわけではなく、それが今度はNLPに関する継続的な研究を形作り、これらのLLMを改善するためのさらなる研究への道を開いています。LLMにはさらに調査が必要な主な制限事項を以下にいくつか挙げます。
ブラックボックスモデル
メインストリームの人気を集めた最初の主要なLLMベースのチャットボットシステムであるOpenAIのChatGPTがリリースされた後、システムのブラックボックス的な性質に関する懸念が浮上しました。実際、ChatGPTがどのように実装されたか、またモデルのトレーニングにどのようなデータを使用したかについては、公開されている情報はありません。NLP研究者の観点から見ると、このようなモデルの透明性と再現性について深刻な懸念が生じます。モデルで何が起こっているのかわからないだけでなく、再現性が妨げられるためです。特定の日にChatGPTを使用して実験を行った場合、他の誰かがその結果を後日(あるいはおそらく同じ日に)再現できるという保証はありません。そのため、ChatGPTベースの研究の妥当性や影響力、一般化の可能性が低くなります。
ChatGPTのようなブラックボックスモデルの影響を軽減し、理解を深めるために、研究者は、モデルがトレーニングに使用した可能性のあるデータを調べるなどして、これらのモデルをリバースエンジニアリングする方法の調査を開始しました。
しかし幸いなことに、NLPの科学コミュニティでは最近オープンソースモデルが急増しており、FacebookのLlAma 2やStanfordのAlpacaなどのモデルや、BLOOMなどの多言語モデルもリリースされています。最近の研究でも、これらのオープンソースの代替モデルのパフォーマンスは、ChatGPTのようなクローズドモデルと同等であることが多いことが示されています (Chen et al., 2023)。
データ汚染のリスク
データ汚染は、「下流のテストセットがプレトレインコーパスに侵入する」ときに発生します(Magar and Schwartz、2022)。大量のテキストコレクションでトレーニングを受けたLLMが、テスト時に評価用に渡されたデータをすでに確認している場合、そのモデルは印象的でありながら非現実的なパフォーマンススコアを示すことになります。実際、データ汚染は頻繁に発生し、重大な影響を及ぼす可能性があることが研究によって示されています (Deng et al., 2023; Golchin and Surdeanu, 2023)。公正かつ現実的な評価を行うためには、研究者がその試験データをLLMが以前に見たことがないことを確認することが非常に重要です。しかし、ブラックボックスモデルでこれを理解することは、ほぼ不可能ではないにしても困難です。これもまた、オープンソースで透明なLLMの使用を奨励しています。
LLM モデルのバイアス
LLMのトレーニングに大規模なデータセットを使用すると、それらのデータセットには偏った情報や固定観念的な情報が含まれている可能性が非常に高く、LLMは増幅することが示されています。LLMが生成するテキストには、リファレンスレターを書く際に女性に対する固定観念が含まれることが研究によって示され(Wan et al。、2023)、LLMは実際に研修データに内在するジェンダーバイアスを増幅させ、ジェンダーグループと職業の間の固定観念的なつながりの確率を高めることが示唆されています(Kotek et al。、2023)。別の最近の研究(Navigli et al.、2023)でも、LLMは、性別、年齢、性的指向、外見、障害、人種など、さまざまな人口統計学的特性に対して偏りがあることも示されています。
攻撃的なコンテンツの生成
LLMに内在する偏見が悪化し、攻撃的と見なされるコンテンツが生成されることもあります。この方向の研究では、LLMに提供されるトレーニングデータを最適にキュレーションして、攻撃的なサンプルを学習しないようにする方法と、それらの有害なテキストを生成してその出所を理解する方法を検討しています。この研究は、LLMにおける偏見と公平性に関する上記の点と非常に関連性が高く、偏見や危害の軽減を検討することで両者を共同で研究することができます。の進歩 自然言語生成 これらの問題を軽減し、システムがより安全で倫理的なアウトプットを生み出すことを可能にする上で重要な役割を果たします。
OpenAIのChatGPTなどの一部のシステムでは、利用規約で攻撃的なコンテンツを作成するリスクを認めています。
「当社のサービスは、OpenAISの見解を表していない不完全な、不正確な、または不快なアウトプットを提供する場合があります。アウトプットが第三者の製品やサービスに言及しているからといって、その第三者がOpenAIを支持したり、OpenAIと提携したりしているという意味ではありません。」
プライバシー
LLMは、トレーニングデータから取得した機密情報をキャプチャすることもできます。この情報は人間が読めない埋め込みにエンコードされていますが、敵対的なユーザーがこれらの埋め込みをリバースエンジニアリングして機密情報を復元できることが判明しています。これにより、関係者に損害を与える可能性があります。
不完全な精度
最初はLLMが素晴らしい業績を上げているという印象でしたが、モデルのアウトプットを詳しく調べて調査すると、改善の余地がかなりあることがわかります。今度はLLMの評価が大きな研究分野となっています。
LLMには多くの欠点と不正確なアウトプットがあることを認識し、主要なLLMの制作と公開を担当する企業はすべて、自社のモデルの限界について免責事項を設けています。たとえば、ChatGPTのオーナーであるOpenAIは、自社のウェブサイト上の初期の免責事項で以下のことを認めています。
「出力は必ずしも正確ではないかもしれません。当社のサービスからのアウトプットを、真実または事実に基づく情報の唯一の情報源として、あるいは専門家のアドバイスの代わりとして信頼するべきではありません。」
Googleは、LLMベースのチャットボットBardの制限についても次のように警告しています。
「Bardは実験的な技術であり、Googleの見解を代表しない不正確または不適切な情報を提供することがあります。」
「バードの回答を医療、法律、財務、またはその他の専門的なアドバイスとして当てにしないでください。」
Facebookには、フラッグシップモデルのLlAma 2についても同様の免責事項があります。
「ラマ2の潜在的なアウトプットを事前に予測することはできず、モデルによっては、ユーザーのプロンプトに対して不正確な、偏った、またはその他の好ましくない応答が生成される場合があります。Llama 2のアプリケーションを展開する前に、開発者はモデルの特定の用途に合わせた安全テストとチューニングを行う必要があります。」
モデル幻覚
LLMが生成する回答やアウトプットは、常識から逸脱することがよくあります。たとえば、生成されたテキストが特定のトピックについて議論し始めた後、直感的でない別の無関係なトピックに移ったり、間違った事実を述べたりすることがあります。LLM幻覚とは、「現実の事実から逸脱したコンテンツが生成され、その結果、不誠実なアウトプットが生じる」と定義されています(Maynezら、2020年、Rawteら、2023年)。モデル幻覚の理解を深めるための取り組みは、検出、説明、緩和などのさまざまなタスクに焦点を当てており、Retrieval-Augmented Generation(RAG)などの初期ソリューションがこれまでにいくつか提案されています。
説明能力の欠如
LLMモデルは複雑なため、なぜ特定の予測を行ったり、特定のアウトプットを生成したりするのかを理解するのが非常に難しいことがよくあります。これはまた、モデルの出力についてシステムユーザーに説明するのが非常に難しいということでもあります。そのため、LLM の説明可能性をさらに高めるためのさらなる調査が必要となります。
LLMの導入と人気の高まりは、NLP研究に影響を与え、形を変えました。10 年ちょっと前の NLP の研究と方法の多くは、バッグ・オブ・ワードや TF-IDF ベースの方法による単語の表現、ロジスティック回帰やサポートベクターマシン分類器などの機械学習アルゴリズムの使用に焦点を当てていました。大規模なデータセットを処理したり、より複雑なコンピューティングを処理したりするための計算能力の向上は、ディープラーニングモデルのルネッサンス、ひいてはLLMの登場につながりました。
データラベリングによるバイアスの軽減
大規模な言語モデルの主な懸念事項の1つは、トレーニングデータに存在する偏りから受け継がれる可能性が高い、偏ったコンテンツやステレオタイプ的なコンテンツが増幅されて生成される傾向があることです。質の高いデータラベリングは、研究者がデータの前処理中に偏ったテキストやコンテンツに適切にラベルを付けることができるため、この問題を軽減するのに役立ちます。
人種、性別、性的指向などの機密属性は、トレーニングデータセットに注釈を付けることができます。有害な固定観念や言い回しを含むテキストにもフラグを付けることができます。さまざまな視点から偏ったコンテンツを特定するには、さまざまな経歴と視点を持つデータラベラーを関与させる必要があります。偏ったテキストと偏りのないテキストを区別する明確なラベルを付ければ、偏見のあるコンテンツの生成にペナルティを課すようモデルをトレーニングできます。
研究によると、特定のテキストに偏りがある/偏っていない理由を説明する人間の理論的根拠をトレーニングに補足すると、モデルの理解がさらに深まることがわかっています。全体として、慎重なデータラベル付けを行うことで、モデルは有害なアウトプットを認識して回避できるようになります。
データ注釈による精度の向上
今日でも、大規模な言語モデルは一貫性のない間違いを犯し、事実から逸脱した内容を幻覚に陥れます。包括的なデータ注釈はモデルの精度を向上させることができます。
人間のラベラーは、テキストの事実の正しさを検証し、誤った情報にタグを付けることができます。データセットに正確性を示すラベルが付けられると、モデルは信頼できるコンテンツと信頼できないコンテンツを比較検討できるようになります。研究によると、モデルが正確性に関する判断を正当化する人間の理論的根拠を模倣するように訓練すると、精度が向上することが示されています。
データには、常識的な手がかり、現実世界の知識、および構造化データで注釈を付けることもできます ナレッジベースシステム。これにより、モデルに論理的推論が根付き、無意味な幻覚が防止されます。モデルを幅広く正確にするためには、さまざまな分野やトピックをカバーする多様なトレーニングセットを構築し続ける必要があります。
データスクラビングによるプライバシーの強化
大規模な言語モデルでは、意図せずにトレーニングデータに漏洩した人々の個人情報が公開されるリスクがあります。データにラベルを付けることはプライバシーの保護に役立ちます。
名前、場所、ID、連絡先などの機密性の高い個人情報をデータセットから削除できます。ラベル付けの際には、個人を特定/プロファイリングできるものはすべて削除するか、プレースホルダーに置き換える必要があります。モデルが間接的に情報を推測するのを防ぐために、編集された情報に関するコンテキストを曖昧にすることもできます。
データセットから個人情報を取り除くための厳格なデータラベルプロトコルを確立することで、プライバシー侵害を抑制できます。適切にスクラブされたデータでトレーニングされたモデルでは、個人情報を記憶したり漏洩したりする可能性が低くなります。
データ文書化による透明性の向上
多くの大規模な言語モデルが不透明なため、どのデータがそれらのトレーニングに使用されたかを監査することは困難です。ラベル付けによる広範なデータ文書化は、透明性を高めることができます。
ソース、ボリューム、対象トピック、対象範囲、人口統計学的分割などの詳細なメタデータをデータセットに記録できます。データセットの長所/短所を文書化することで、埋めるべきギャップが浮き彫りになります。データラベラーは、ヘイトスピーチなどの好ましくないコンテンツを特定して削除することもできます。
包括的なデータセットの文書化により、研究者はより適切なトレーニングデータと適切なサイズのモデルを選択できます。詳細なデータジャーナルは、モデルの動作や欠陥の分析に役立ちます。全体として、綿密なデータラベル付けと監査により、透明性の高いモデル開発が可能になります。
LLM向け高品質データラベリングのデモをSapienで予約
サピエンス 高品質のデータラベリングサービスは、組織が特定のニーズに合わせて最適化された最先端の大規模言語モデル(LLM)を開発するのに役立ちます。当社の専門分野では、完全な透明性を確保しながら、偏りや正確性などの重要な問題に対処するために、トレーニングデータに細心の注意を払って注釈を付けています。
デモを予約 今日私たちとあなたのLLMの目標について話し合ってください。私たちのチームはお客様と協力して、マルチアノテーターによる合意、外れ値検出、アクティブラーニングなどの実証済みの手法を活用して、カスタマイズされたデータ戦略を構築します。お客様のワークフローとシームレスに統合して、正確にラベル付けされたデータを迅速に提供し、コストを削減しながらモデルのパフォーマンスを向上させます。