安排数据标签咨询

为您的 AI 项目解锁高质量数据
满足您的特定需求的个性化工作流程
具有领域知识的专家注释者
可靠的 QA 可获得准确的结果
立即预约咨询以优化您的 AI 数据标签 >
预约咨询
返回博客
/
Text Link
This is some text inside of a div block.
/
教机器人聊天:自言自语引导对话代理训练

教机器人聊天:自言自语引导对话代理训练

2.3.2024

由 GPT-4 等大型语言模型 (LLM) 提供支持的对话代理正被数亿人用于一般任务。但是,将他们专门用于客户服务等领域以目标为导向的对话仍然具有挑战性。通常,这需要收集大量的人体演示或说明的训练数据集。根据一篇新的研究论文,LLM 之间的自言自语为生成培训对话提供了一种自动化的方式。让我们回顾一下这项使用自言自语来提高以任务为导向的对话技巧的新研究,以及LLM的数据标签如何帮助微调这些 AI 模型。

问题所在

建立能够实现特定目标的对话代理是困难的。标准方法是收集示例人际对话以进行训练。但是这个过程既昂贵又耗时,特别是如果我们希望代理遵循特定的对话工作流程。例如,训练客户服务机器人处理投诉需要进行多次真实对话作为训练数据。

理想情况下,我们想要一种无需收集更多人工数据即可快速调整LLM以适应新的对话任务的方法。这就是自言自语的用武之地。

用于对话训练的自对话

核心思想很简单:让两个 LLM 按照预定义的工作流程以指定的角色相互交谈。一个LLM扮演有目标的客户,另一个扮演旨在通过对话提供帮助的代理。他们的对话生成了一个训练示例。

通过正确地提示模型,我们可以生成一系列多样化的对话。然后,可以对收集的对话对代理模型进行微调,以提高其对话技巧。

其灵感来自于游戏人工智能中的自我游戏以及最近在使用 LLM 模拟对话参与者方面取得的进展。有了足够的模型能力和提示,自言自语可以提供学习信号。

让自言自语发挥作用

当然,LLM 之间天真的自言自语往往会产生低质量的对话。因此,研究人员引入了创新,以使该方法更好地发挥作用:

  • 结构化提示: 将工作流程解析为图表以指导逐轮决策
  • 过滤: 只为代理人培训保留成功的对话
  • 单独的型号: 为代理和客户使用不同的 LLM 以增加多样性
  • 自动指标: 评估对话的成功、一致性和多样性

在实验过程中,这些组件在目标实现和工作流程跟踪方面产生了可衡量的收益。这些指标还有助于分析哪些因素才是良好的培训对话。

结果

过滤和微调后:

  • 代理在自谈期间完成工作流程方面有所改善
  • 成功率从 26% 提高到 36%
  • 自动化指标与人工判断密切相关
  • 代理人变得更有帮助、更稳定、更成功

但是,一些常见的故障仍然存在:

  • 启动良好后忽略工作流程
  • 意外重启或陷入循环

因此,还有改进的余地,但总体而言,自言自语作为一种训练技巧很有希望。

限制与道德

与任何 AI 方法一样,自言自语也有局限性:

  • 专注于以任务为导向的对话与公开的对话
  • 需要大型模型和仔细提示
  • 质量和多样性仍需要改进

还有道德方面的考虑:

  • 自言自语可能会放大 LLM 中的有害偏见
  • 恶意使用可能会产生欺骗性的对话代理

因此,我们不能假设这种方法是万无一失的。需要进行研究,使自言自语变得强大而有益。

最近的这项研究表明,在没有人类数据的情况下,自言自语可以引导以目标为导向的对话代理人。自动化指标通过筛选和微调实现迭代改进。

使用LLMs通过自我游戏进行自我训练有很大的潜力。但是,负责任地实现这一潜力仍然是一项悬而未决的挑战。随着模型能力的提高,自言自语为通往适应性强和有用的对话式人工智能提供了一条前景光明的途径。

数据标签以改善自言自语模型

该研究表明,使用自言自语来训练以任务为导向的对话代理人很有希望。但是,低质量的对话和诸如忽略工作流程之类的失败仍然是问题。人类标记数据可以通过两种方式帮助解决这些问题:

通过标签实现更好的过滤

当前,对话是根据已完成的工作流程步骤等指标自动筛选的。但这可能会错过对话的好坏的微妙线索。

通过让人工标注员为自言自语数据的子集添加注释,我们可以训练出更挑剔的过滤器。连贯性、一致性、目标完成等方面的标签可以监督分类器为代理人培训选择最佳对话。

这种过滤可以生成更高质量的数据集,用于微调代理。

标记为调试故障

除了过滤,人类洞察力还可以帮助诊断自言自语期间的常见故障模式。

注释者可以标记代理忽略提示、重复或混淆的对话。分析这些故障案例可以揭示一致的模式是否会引发问题。

通过标签进行调试可以指导提示和工作流程的改进,以缓解最突出的问题。

有针对性的数据标签可提供透明度和反馈。这结合了最佳的人工监督和自动自学。

预约 Sapien 演示,详细了解我们为 LLM 提供的数据标签服务

Sapien 提供专为训练高性能大型语言模型 (LLM) 量身定制的专家数据标签服务。我们的领域专家、全球标注网络和专有技术可确保您的模型以最小的偏差实现最大能力。

与Sapien合作可以缩短开发周期,增强性能,减少偏差,经济高效地使用数据,并使您的LLM经得起未来考验。 预订演示 了解我们的精密数据标签如何释放您的LLM的全部潜力。

查看我们的数据标签的工作原理

安排咨询我们的团队,了解 Sapien 的数据标签和数据收集服务如何推进您的语音转文本 AI 模型