データラベリングコンサルテーションをスケジュールする

AI プロジェクトの高品質なデータを引き出しましょう
特定のニーズに合わせてカスタマイズされたワークフロー
ドメイン知識を持つ専門のアノテーター
正確な結果を得るための信頼できる QA
AIデータラベリングを最適化するためのコンサルティングを今すぐ予約>
相談をスケジュールする
ブログに戻る
/
Text Link
This is some text inside of a div block.
/
ボットにチャットを教える:対話エージェントのトレーニングをブートストラップするためのセルフトーク

ボットにチャットを教える:対話エージェントのトレーニングをブートストラップするためのセルフトーク

2.3.2024

GPT-4 のような大規模言語モデル (LLM) を搭載した会話型エージェントは、何億人もの人々によって一般的なタスクに使用されています。しかし、カスタマーサービスなどの分野での目標指向の対話に特化させることは依然として困難です。通常、これには人間によるデモンストレーションや指示から成る大規模なトレーニングデータセットの収集が必要です。新しい研究論文によると、LLM同士のエルフトークは、トレーニングのための対話を自動的に生成する方法です。セルフトークを使ってタスク指向の対話スキルを向上させたこの新しい研究と、LLM のデータラベル付けがこれらの AI モデルの微調整にどのように役立つかを見てみましょう。

ザ・プロブレム

特定の目標を達成できる会話エージェントを構築することは困難です。標準的なアプローチは、人間の会話の例を集めてトレーニングを行うことです。しかし、このプロセスには費用と時間がかかります。特に、エージェントに特定の対話ワークフローに従わせたい場合はなおさらです。たとえば、カスタマーサービスボットをトレーニングして苦情を処理するには、トレーニングデータとして多くの実際の会話が必要です。

理想的には、人的データ収集を増やすことなく、LLMを新しい対話タスクに迅速に適応させる方法が必要です。そこで役立つのがセルフトークです。

対話トレーニングのためのセルフトーク

基本となるアイデアはシンプルです。2 つの LLM に、事前定義されたワークフローに従って、指定された役割で互いに会話してもらうことです。一方のLLMは目標を持ったクライアントを演じ、もう一方のLLMは対話を通じて支援することを目指すエージェントを演じます。彼らの会話はトレーニングの例となります。

モデルに適切なプロンプトを出すことで、多様な対話を生み出すことができます。そして、収集した会話を基にエージェントモデルを微調整することで、対話スキルを向上させることができます。

これは、ゲームAIのセルフプレイと、LLMを使用して会話に参加する人をシミュレートする最近の進歩に触発されています。十分なモデル機能とプロンプトがあれば、セルフトークは学習の合図となります。

セルフトークを成功させる

もちろん、LLM同士の素朴なセルフトークでは、質の低い会話になることがよくあります。そこで、研究者たちは、この方法をより効果的に機能させるためのイノベーションを導入しています。

  • 構造化されたプロンプト: ワークフローをグラフに解析して、ターンバイターンの意思決定を導く
  • フィルタリング: 成功した会話のみをエージェントトレーニングに活用
  • セパレートモデル: エージェントとクライアントで異なるLLMを使用して多様性を高める
  • 自動指標: 対話の成功、一貫性、多様性の評価

これらのコンポーネントにより、実験中の目標達成とワークフローの遂行が目に見えて向上しました。また、この測定基準により、トレーニングで役立つ会話の要点を分析することもできました。

結果

フィルタリングと微調整後:

  • エージェントがセルフトーク中にワークフローを完了しやすくなりました
  • 成功率が 26% から 36% に上昇
  • 自動化された指標は人間の判断とよく相関していた
  • エージェントはより有用で、一貫性が保たれ、人間ごとの評価が成功するようになった

ただし、いくつかの一般的な障害が残りました。

  • うまく起動したらワークフローを無視する
  • 予期せず再起動する、またはループに陥る

ですから、改善の余地はありますが、全体的にセルフトークはトレーニングテクニックとして有望です。

制限と倫理

他の AI 手法と同様に、セルフトークには次のような制限があります。

  • タスク指向の対話とオープンな対話に焦点を当てた
  • 大規模モデルと注意深いプロンプトが必要
  • 品質と多様性にはまだ改善が必要

倫理的な考慮事項もあります。

  • セルフトークはLLMの有害な偏見を増幅させる可能性がある
  • 悪意のある使用により、不正な対話エージェントが生成される可能性がある

したがって、このアプローチが絶対確実であるとは限りません。セルフトークを強固で有益なものにするには、研究が必要です。

この最近の研究では、セルフトークは人間のデータがなくても目標指向の対話エージェントをブートストラップできることが実証されました。自動メトリクスにより、フィルタリングと微調整による反復的な改善が可能になりました。

LLMを使ってセルフプレイで自分自身を鍛えることには、大きな可能性が秘められています。しかし、責任を持ってこの可能性を実現することは、未解決の課題であることに変わりはありません。モデルの能力が高まるにつれ、セルフトークは順応性が高く有用な会話型 AI への有望な道筋となるでしょう。

セルフトークモデルを改善するためのデータラベリング

この研究では、タスク指向の対話エージェントのトレーニングにセルフトークを使用することが有望であることが示されました。しかし、質の低い会話や、ワークフローを無視するなどの失敗は依然として課題でした。人間によるデータラベル付けは、これらの問題に次の 2 つの方法で対処できる可能性があります。

より良いフィルタリングのためのラベリング

現在、会話は完了したワークフローステップなどの指標に基づいて自動的にフィルタリングされます。しかし、これでは会話の良いか悪いかの微妙な手がかりを見逃す可能性があります。

人間のラベラーにセルフトークデータのサブセットに注釈を付けてもらうことで、より精度の高いフィルターをトレーニングできます。一貫性、一貫性、目標達成度などのラベルを付けることで、分類担当者がエージェントのトレーニングに最適な会話を選択するように指導できます。

このフィルタリングにより、エージェントを微調整するためのより質の高いデータセットを作成できます。

障害をデバッグするためのラベル付け

フィルタリングに加えて、人間の洞察は、セルフトーク中の一般的な障害モードの診断に役立つ可能性があります。

アノテーターは、エージェントがプロンプトを無視したり、繰り返したり混乱したりする会話にタグを付けることができます。このような失敗事例を分析することで、一貫したパターンが問題を引き起こしているかどうかが明らかになります。

ラベル付けによるデバッグは、最も顕著な問題を軽減するための迅速なワークフローの改善につながります。

ターゲットを絞ったデータラベリングは、透明性とフィードバックを提供します。これは、人間による監視と自動化された自己学習の利点を組み合わせたものです。

Sapienのデモを予約して、LLM向けデータラベリングサービスの詳細をご覧ください

サピエン 高性能大規模言語モデル (LLM) のトレーニングに特化した、専門家によるデータラベリングサービスを提供します。当社のドメインスペシャリスト、グローバルなラベラーネットワーク、独自の技術により、お客様のモデルが最小限のバイアスで最大の能力を発揮できるようお手伝いします。

Sapienとの提携により、開発サイクルの短縮、パフォーマンスの向上、偏りの軽減、費用対効果の高いデータ使用、LLMの将来への対応が可能になります。 デモを予約 当社の正確なデータラベリングがどのようにしてLLMの可能性を最大限に引き出すかをご覧ください。

データラベリングの仕組みをご覧ください

Sapienのデータラベリングおよびデータ収集サービスがどのように音声テキスト化AIモデルを発展させることができるかについて、当社のチームと相談してください