使用 RLHF 理解和缓解大型语言模型中的幻觉

12.11.2023

作家：

Sapien AI

Reviewer:

像 GPT-4 这样的大型语言模型 (LLM) 在人工智能研究和工业中变得越来越普遍。随着这些模型变得越来越先进，人们越来越关注其潜在的局限性和风险。其中一种风险是幻觉 -当 LLM 生成令人信服但虚假或荒谬的文本时。了解LLM幻觉的原因和影响对于开发更安全、更值得信赖的人工智能系统至关重要。

这是LLM幻觉的综合指南，涵盖了与LLM幻觉相关的背景、类型、原因、检测方法和未来研究方向。我们的目标是为研究人员、开发人员和政策制定者提供所需的知识，以减轻幻觉并促进更公平、更透明的人工智能进展。

LLM 幻觉的背景

像 GPT-4、Gemini 和 Llama 2 这样的 LLM 已经表现出了令人印象深刻的文本生成能力。但是，这些模型还显示 关于失效模式 -他们可以对虚假或不合逻辑的陈述产生幻觉，同时对读者来说显得非常流畅和有说服力。

这些幻觉可能源于潜在的模型局限性、有偏见的训练数据以及缺乏扎实的推理能力。如果不小心部署，幻觉模型可能会传播错误信息，做出不安全的决定，导致不公平的结果，并损害公众对人工智能的信任。

因此，主动检测和缓解幻觉对于开发强大、值得信赖的系统至关重要。以下各节深入探讨了围绕LLM幻觉的类型、原因和潜在的解决方案。

LLM 幻觉的类型

LLM 中的幻觉可以采取多种形式：

感知幻觉

将随机噪音或图案误认为不存在的真实物体/实体
示例：可信地将随机墨迹分类为日常物品

认知幻觉

在没有任何真实证据的情况下提供虚假或不合逻辑的事实
示例：根据现有知识说巴黎是印度的首都

情境幻觉

误解文本段落的上下文/含义
示例：尽管拥有所需的背景信息，但问题回答不正确

每种情况都表明LLM的推理存在差距，这可能会使金融、医疗和公民话语等高影响力环境中的结果产生偏差。

LLM 幻觉的原因

一些技术和社会因素会导致 LLM 产生幻觉：

数据偏差和差距

LLM 经常由于在训练期间摄取低质量、缺失或有偏见的数据而产生幻觉。然后，他们在产出中偏向代表性良好的群体/知识。

模型大小和复杂性

随着LLM的参数增长到数十亿个，其紧急推理变得难以全面分析和审计。这种不透明度可以实现不可预测的错误推断。

缺乏扎实的结构化知识

大多数法学硕士都没有受过深入理解人类对因果关系、伦理、符号、情感等概念的培训。这导致他们仅凭数据中的模式做出逻辑或道德上不合理的推论。

监控和测试不足

人们急于扩大规模和部署越来越大的模型，但并不总是包括对幻觉等令人困惑的不安全行为进行适当的监控。更严格的测试至关重要。

LLM 幻觉的检测和缓解

值得庆幸的是，有前途的幻觉检测方法，包括：

异常监控

与人工文本相比，监控模型的统计异常输出可能会发现不太可能的错误断言，以供进一步审查。

输入验证

在推理之前通过知识数据库/人工监督来验证文本输入可以减少不合逻辑的推理和虚假信息。

合奏建模

组合不同的模型类型可以减少巧合盲点对齐产生幻觉的机会。

此外，筛选数据的偏见和真实性、提高模型心理理论能力以及在研究激励措施中强调道德社会公益等做法可以长期缓解幻觉的根本原因。

该行业的未来研究方向

围绕更安全的模型开发的关键未解答问题仍然存在：
‍

混合推理方法如何缓解大型模型中的盲点？
‍
哪些政策干预措施可以减少与高级文本生成相关的危害？
‍
公众如何为有关法学硕士优先事项和风险的研究提供信息？
‍
谁应该为商业模型的发布制定监督程序？

通过跨学科合作解决这些领域将是语言技术公平发展的关键。我们在Sapien的目标是通过人工反馈帮助组织进行强化学习，或 RLHF 哈哈，使 LLM 更准确、更强大，不易产生幻觉。

随着LLM继续渗透到数字生态系统中，幻觉作为一种影响深远的威胁载体的紧迫性与日俱增。如果研究人员和利益相关者团结起来，通过根据公众需求量身定制的基于经验的最佳实践，先发制人地解决模型缺陷，那么就有理由感到乐观。人工智能建模的未来确实在于维护真理和智慧的优点——这两者都是持久有益技术的永恒基础。

通过 Sapien 的 RLHF 人机在环方法构建更安全的人工智能

正如本分析所显示的那样，缓解大型语言模型中的幻觉等风险涉及多个步骤——从改善训练数据的多样性到围绕商业模型发布制定监督程序。在Sapien，我们的使命与构建强大、透明的人工智能系统所需的几种最佳实践直接相交。

具体而言，Sapien通过我们的全球领域专家网络提供针对企业需求量身定制的可靠数据标签。我们安全的企业级平台分析自定义数据类型并匹配相应的行业专家，以实现高效注释。这有助于获得更高质量、无偏见的数据，这对于增强容易产生幻觉的模型推理能力至关重要。

Sapien 强调使用我们的标签数据集进行自定义模型微调，以使系统输出与实际性能要求保持一致。这种领域改编解决了本文中要求的情境感知、以安全为中心的商业部署的紧迫性。

Sapien's 人机交互框架 实现许多已确定的解决方案——利用人工监督和专业知识来整理模型就绪数据，然后微调系统以满足专业的行业需求。我们的方法可以作为一个可扩展的模板，供公司在开发可靠、透明的LLM时考虑，为跨业务垂直领域的负责任整合做好准备。

最终，围绕改进数据、评估实践和现实世界调整进行积极合作将引领释放人工智能巨大潜力的道路，同时维护公众信任和道德要求。作为领先的标签和注释合作伙伴，Sapien欢迎各行各业的利益相关者继续参与，以进一步实现这一未来。如果你想进一步了解Sapien的解决方案，预订演示立即体验我们的平台。

查看我们的数据标签的工作原理

安排咨询我们的团队，了解 Sapien 的数据标签和数据收集服务如何推进您的语音转文本 AI 模型

预约咨询

安排数据标签咨询