
自20世纪80年代问世以来,语言模型(LM)作为对自然语言观测到的特性进行统计建模的手段已经存在了四十多年(Rosenfeld,2000)。给定一组文本作为输入,语言模型从这些文本中计算出语言的统计特性,例如单词和周围上下文的频率和概率,然后可以将其用于不同的目的,包括自然语言理解(NLU)、生成(NLG)、推理(NLR)以及更广泛的处理(NLP)。以下是自然语言处理和大型语言模型(LLM)的概述,以及Sapien的LLM数据标签服务如何帮助微调和训练您的AI模型。
几十年来,这种自然语言建模的统计方法引发了争论,他们认为可以通过模式的观察和概率表示来建模语言,而那些认为这种方法还很基本,对语言的正确理解需要以语言理论为基础。
直到最近,由于文本库可用性的增加和获得更好计算资源的机会,通过革新自然语言处理领域,大型语言模型(LLM)才被引入科学界(Min 等人,2023)。遵循与20世纪80年代引入的传统 LM 相同的基本直觉,LLM 扩展了从大型文本集合中获得的统计语言属性。
研究人员遵循与传统LM相同的语言统计属性建模逻辑,已经证明,利用当今的计算资源,可以训练更大的LLM,这些LLM是从大量文本集合中训练出来的,有时甚至可以包括几乎整个网络。但是,这并非没有争议,尤其是因为使用如此大规模的文本集合将数量置于质量之上,因为事实上,当整个网络被使用时,人们会失去对向模型输入哪些数据的控制,而除了有价值的信息外,还包含令人反感的内容和错误信息。
自2010年代末以来,LLM的激增一直是渐进的,并且是波浪式的。继引入诸如word2vec和GloVe之类的单词嵌入模型以嵌入形式紧凑表示单词的浪潮之后,第一波主要浪潮是基于Transformer架构构建的LLM的出现,包括BERT、RobertA和T5。最近的浪潮导致生成式人工智能模型激增,包括ChatGPT、Google Bard等聊天机器人,以及LLama、羊驼和狐猴等开源替代方案。这些反过来又激发了利用这些LLM的不同方式的创建,包括通过提示方法,例如用于少量文本分类的模式利用训练(PET)以及用于NLG的方法。LLM 通常是在现有的大规模数据集上进行预训练的模型,涉及大量的计算能力和时间,而这些模型随后可以轻松地微调到特定的领域。
近年来,LLM已证明可以在许多自然语言处理任务中实现最先进的性能,这反过来又成为许多实验环境中使用的事实上的基准模型。但是,有证据表明,LLM的力量也可能被用于恶意目的,包括使用LLMs通过作弊来帮助完成学校作业,或者生成令人反感或散布错误信息的内容。
LLM的出色表现也不可避免地激起了社会上的一些担忧,即人工智能工具最终可能会占用许多人的工作,质疑它们可能对社会产生的伦理影响。这反过来又引发了研究,最近的研究表明要采用人工智能工具,因为它们实际上可以支持和提高而不是取代人类劳动的绩效。
局限性和开放性挑战
LLM 的成功并非没有争议,这反过来又塑造了正在进行的自然语言处理研究,并为改进这些 LLM 的更多研究开辟了途径。以下是LLM的一些关键局限性,需要进一步探讨。
黑匣子模型
在第一个获得主流欢迎的基于 LLM 的主要聊天机器人系统 OpenAI 的 ChatGPT 发布后,人们对该系统的黑匣子性质产生了担忧。事实上,没有关于 ChatGPT 是如何实现的以及他们使用哪些数据来训练模型的公开信息。从自然语言处理研究人员的角度来看,这引起了人们对这种模型的透明度和可重复性的严重担忧,这不仅是因为人们不知道模型中发生了什么,还因为它阻碍了可重复性。如果我们在特定日期使用 ChatGPT 进行一些实验,则无法保证其他人可以在以后(或者可以说,甚至在同一天)重现这些结果,这会降低基于 ChatGPT 的研究的有效性以及潜在的影响和可推广性。
为了减轻对ChatGPT等黑匣子模型的影响并增进我们的理解,研究人员已开始研究对这些模型进行逆向工程的方法,例如试图找出模型可能用于训练的数据。
然而,幸运的是,最近自然语言处理科学界的开源模型激增,这导致了Facebook的LLaMa 2和斯坦福大学的Alpaca等模型以及BLOOM等多语言模型的发布。最近的研究还表明,这些开源替代方案的性能通常与ChatGPT等封闭模型相当(Chen等人,2023年)。
数据污染的风险
当 “下游测试集进入预训练语料库” 时,就会发生数据污染(Magar和Schwartz,2022年)。如果在大量文本集合上训练的LLM已经看到了在测试时给出的数据进行评估,则该模型将表现出令人印象深刻但不切实际的性能分数。实际上,研究表明,数据污染可能频繁发生并产生重大影响(邓等人,2023年;Golchin和Surdeanu,2023年)。为了进行公平和现实的评估,研究人员必须确保LLM以前没有看到过测试数据。但是,要想用黑匣子模型弄清楚这是具有挑战性的,甚至几乎是不可能的,这再次鼓励使用开源、透明的 LLM。
LLM 模型中的偏差
使用大型数据集训练 LLM 也意味着这些数据集很可能包含有偏见或陈规定型的信息,事实证明 LLM 会放大这种信息。研究表明,LLM生成的文本在撰写推荐信时包含针对女性的陈规定型观念(Wan等人,2023年),这表明LLM实际上放大了培训数据中固有的性别偏见,导致性别群体和职业之间出现陈规定型联系的可能性增加(Kotek等人,2023年)。最近的另一项研究(Navigli等人,2023年)也表明,法学硕士对许多人口统计学特征表现出偏见,包括性别、年龄、性取向、外貌、残疾或种族等。
生成攻击性内容
LLM 固有的偏见有时会加剧,甚至生成可被视为令人反感的内容。这方面的研究正在研究如何最好地整理提供给法学硕士的训练数据,以避免学习令人反感的样本,以及如何引导生成这些有害文本以了解其来源。这项研究与上述关于法学硕士偏见和公平性的观点密切相关,两者都可以通过减少偏见和伤害来共同研究。方面的进展 自然语言生成 在缓解这些问题方面发挥至关重要的作用,使系统能够产生更安全、更合乎道德的产出。
一些系统,例如OpenAI的ChatGPT,在其服务条款中承认存在制作攻击性内容的风险:
“我们的服务可能提供不完整、不正确或令人反感的输出,不代表 OpenAIS 的观点。如果Output引用了任何第三方产品或服务,则并不意味着第三方认可或隶属于OpenAI。”
隐私
LLM 还可以捕获从其训练数据中检索到的敏感信息。虽然这些信息是用人类不可读的嵌入式编码的,但已发现对抗用户可以对这些嵌入进行逆向工程以恢复敏感信息,这可能会对相关人员造成破坏性后果。
精度不完美
尽管最初的印象是 LLM 取得了令人印象深刻的表现,但仔细观察和研究模型输出的结果表明,仍有很大的改进余地。对法学硕士的评估反过来已成为一个重要的研究领域。
意识到LLM的许多缺点和不准确的产出,负责制作和出版主要LLM的公司都对其模型的局限性发表了免责声明。例如,ChatGPT 所有者 OpenAI 在其网站上的早期免责声明中承认了这一点:
“输出可能并不总是准确的。您不应依赖我们服务的输出作为事实或事实信息的唯一来源,或作为专业建议的替代品。”
谷歌还警告其基于LLM的聊天机器人Bard存在局限性,如下所示:
“Bard是一项实验性技术,有时可能会提供不代表谷歌观点的不准确或不恰当的信息。”
“不要依赖巴德的回应作为医疗、法律、财务或其他专业建议。”
Facebook的旗舰机型LLaMa 2也有类似的免责声明:
“Llama 2的潜在输出无法事先预测,在某些情况下,该模型可能会对用户提示产生不准确、有偏见或其他令人反感的回应。在部署Llama 2的任何应用程序之前,开发人员应进行针对其模型特定应用量身定制的安全测试和调整。”
模特幻觉
LLM 生成的回复和输出往往与常识背道而驰,例如,生成的文本可以开始讨论特定的主题,然后转移到另一个不直观的无关话题,甚至陈述错误的事实。法学硕士幻觉被定义为 “生成与真实事实背道而驰的内容,从而产生不忠实的输出”(Maynez等人,2020年;Rawte等人,2023年)。更好地理解模型幻觉的工作重点是不同的任务,包括检测、解释和缓解,迄今为止还提出了一些初步解决方案,例如检索增强生成(RAG)。
缺乏可解释性
LLM 模型的复杂性意味着通常很难理解它为什么会做出某些预测或产生某些输出。这也意味着很难向系统用户提供有关模型输出的解释,这需要对进一步提高LLM的可解释性进行更多研究。
LLM 的引入和受欢迎程度激增影响并重塑了自然语言处理研究。大约在十年前,自然语言处理的大部分研究和方法都侧重于使用词袋和基于TF-IDF的方法来表示单词,以及使用诸如逻辑回归或支持向量机分类器等机器学习算法的使用。处理大规模数据集和更复杂计算的计算能力的提高导致了深度学习模型的复兴,进而导致了LLM的出现。
通过数据标签减少偏见
大型语言模型的主要问题之一是,它们往往会放大和生成有偏见或陈规定型的内容,这些内容很可能是从训练数据中存在的偏见中遗传下来的。通过允许研究人员在数据预处理过程中正确标记有偏见的文本和内容,高质量的数据标签可以帮助缓解这个问题。
可以在训练数据集中注释种族、性别、性取向等敏感属性。包含有害刻板印象和比喻的文本也可以被标记。应让具有不同背景和观点的数据标签人员参与识别来自不同观点的偏见内容。通过明确的标签区分有偏见和无偏见的文本,可以训练模型以惩罚偏见内容的生成。
研究表明,在训练中补充解释某些文本为何有偏见/无偏见的人类理由,可以进一步增强模型的理解。总体而言,周到的数据标签使模型能够识别和避免产生有毒输出。
通过数据注释提高准确性
如今,大型语言模型仍然会犯不一致的错误,并产生偏离事实的幻觉内容。全面的数据标注可以提高模型的准确性。
人工标签人员可以验证文本中的事实正确性并标记错误信息。通过对数据集进行准确性标记,模型学会权衡可靠和不可靠的内容。研究表明,如果训练模型模仿人类理由,证明对正确性的判断是合理的,则准确性就会提高。
还可以使用常识线索、现实世界知识和来自的结构化数据对数据进行注释 基于知识的系统。这为模型提供了逻辑推理的基础,并防止了不明智的幻觉。需要继续构建涵盖不同领域/主题的多样化训练集,以使模型大致准确。
通过数据清理增强隐私
大型语言模型有可能暴露人们无意中泄露到训练数据中的私人信息。数据标签可以帮助保护隐私。
可以从数据集中删除敏感的个人详细信息,例如姓名、位置、ID、联系人等。在贴标签期间,任何可以识别/描述个人的内容都应移除或替换为占位符。也可以模糊编辑信息周围的上下文,以防止模型间接推断出这些信息。
建立严格的数据标签协议来删除数据集中的个人信息,将遏制侵犯隐私的行为。根据经过适当清理的数据进行训练的模型不太可能记住和暴露私人细节。
通过数据文档提高透明度
许多大型语言模型的不透明性质使得审计使用了哪些数据来训练它们变得困难。通过标签记录大量数据可以提高透明度。
详细的元数据可以记录在数据集上,包括来源、数量、主题覆盖范围、人口划分等。记录数据集的优势/劣势可以突出需要填补的空白。数据标签人员还可以识别仇恨言论等令人反感的内容以将其删除。
全面的数据集文档使研究人员能够选择更好的训练数据和合适的模型。详细的数据日志有助于分析模型行为和缺陷。总体而言,细致的数据标记和审计可以实现透明的模型开发。
与 Sapien 一起预约 LLM 高质量数据标签演示
Sapien's 高质量的数据标签服务可以帮助您的组织开发针对您的特定需求进行优化的尖端大型语言模型 (LLM)。我们的领域专家精心注释训练数据,以解决偏差和准确性等关键问题,同时提供完全的透明度。
预订演示 今天就和我们一起讨论你的法学硕士目标。我们的团队将与您合作,利用多注释者共识、异常值检测和主动学习等成熟技术,制定量身定制的数据策略。我们与您的工作流程无缝集成,快速交付精确标记的数据,在降低成本的同时提高模型性能。