
GPT-4 等在海量文本语料库上预先训练的语言模型对自然语言生成任务表现出了令人印象深刻的流畅性和语义理解能力。
但是,由于缺乏获得非文本模式和结构化知识的机会,他们的推理能力受到限制。另外整合视觉、音频和视频数据的多模态大型语言模型 (LLM) 可以形成更丰富的概念表现形式。整合外部知识库进一步增强了他们的逻辑推理和演绎问题解决能力。
让我们来看看利用综合知识开发多模式 LLM 的技术架构和培训方法,并分析由此带来的扩展推理能力,以及潜在的应用和当前的局限性 LLM 校准。
多模态 LLM 的架构
像 GPT-3 这样的标准 LLM 主要由基于转换器的架构组成,经过训练可以预测文本序列中的下一个代币。为了处理多种模式,还集成了额外的编码器来处理图像、音频、视频和其他感官数据。它们生成与文本嵌入融合的高级要素制图表达。
例如,来自 OpenAI 的 CLIP 分别训练图像编码器和文本编码器,然后通过跨模式训练目标将它们连接起来。图像编码器是一种提取视觉特征的卷积神经网络。文本编码器使用转换器架构来创建文本表示。对比学习通过吸引相应的文本和图像嵌入来协调这两种模式,同时将无关的文本和图像嵌入分开。
其他方法,例如谷歌人工智能的VilBert,将视觉流添加到变压器本身中。标准的自我注意力层侧重于文本处理。插入了额外的自我注意力层,通过对物体检测模型中提取的区域特征进行操作来处理视觉输入。这两个数据流通过共同注意力的变压器层组合在一起。
多模态 LLM 通过补充路径增强了核心变压器架构,用于从不同的感官通道摄取数据。复杂的融合技术将模式整合到共享的表现空间中。
训练方法
培训多模式 LLM 会带来挑战,例如采购足够的一致数据和对模态间互动进行建模。生成式对抗网络、自我监督和预训练等策略使这些模型能够有效地学习。
生成式对抗训练使生成器网络与鉴别器相提并论。对于多模态 LLM,生成器会尝试在不同模式之间对齐表示,而鉴别器则评估它们的相关性。这提供了强大的训练信号。
诸如掩码语言建模之类的自我监督技术使用模型自己的输入和输出来创建代理训练目标。可以根据情境模式掩盖和预测视觉区域。这使得无需大量标签即可实现自主学习。
最后,预训练通过诸如使用大型文本语料库进行掩码语言建模之类的任务来初始化参数。然后可以在下游多模式应用程序上对模型进行微调。 经过微调的 LLM 模型 在针对特定领域进行优化时利用常识。
通过此类方法,多模态 LLM 可以摄取涵盖图像、视频、语音、3D 环境等的数据集。数据的多样性使模型能够对推理形成更丰富的理解。
知识整合
虽然多模态输入提供了更广泛的感知来源,但整合结构化知识是逻辑推理的关键。外部 基于知识的系统 就像维基数据一样,包含数百万个涵盖世界知识的实体和事实。将其编码为 LLM 可以实现细致入微的推理和推理。
各种技术旨在将显式记忆组件与语言模型中的隐性知识融合在一起。Meta 的 RAG-Sequence 模型训练检索者为每个文本查询提取相关知识。在预测之前,将这些背景知识与变压器输出相结合。
Anthropic 的宪法人工智能会动态积累与每个对话回合相关的事实。然后,模型可以在保持对话上下文的同时,利用这些知识进行推理。其他方法,例如Ernie-Baidu学习生成知识图谱嵌入作为额外输入,以指导模型的推理过程。
挑战包括随着 LLM 规模的扩大知识库的规模、确保可准确检索事实以及处理噪音或过时的数据。但是,知识整合可以解锁仅靠文本预训练无法实现的推理能力。
推理和问题解决
通过处理不同的模式和整合世界知识,多模态 LLM 可以实现更复杂的问答、对话推理 统一的人工智能 和研究应用。
例如,在文本和视觉上下文中,LLM 可以解决纯文本模型难以解决的模棱两可的问题。如果被问到 “这只鸟是什么颜色的?”看到黄雀的图像后,对齐的视觉证据为答案提供了依据。模型还可以识别模式之间的不匹配以避免明显的矛盾。
逻辑推理受益于对空间关系等谓词的综合了解。如果被告知 “这本书在花瓶的左边”,然后问 “书的右边是什么?”,使用这些空间安排的内部模型进行演绎推断可以推断出花瓶作为答案。
为了解决数学问题,数值知识与自然语言理解相结合,可以理解单词问题和执行求解程序。模型甚至可以以可解释的方式解释每个步骤背后的原因。
通过对策和外部知识的扎实推理,不限成员名额对话也变得更加连贯一致。通过在心理上只对合理的场景进行建模,这样可以防止出现任性的幻觉。
目前的限制
但是,在通过人工智能系统实现类似人类的常识推理方面,仍然存在重大挑战。由于统计训练目标的性质,即使在非常大的模型中也仍然存在不良偏差。数据中的虚假关联可能导致错误的归纳概括。大型模型行为还存在透明度和可审计性问题。
可解释性很困难,因为多模态知识在不容易检查的情况下就会被提炼到高维的潜在空间中。关于主观话题或道德模棱两可的情况的推理并不是自然而然地来自模式识别。而且,知识整合必须能够适应动态的现实事实。
正在进行的研究旨在通过常识知识图谱挖掘、因果关系建模和人机在环训练等技术来解决这些局限性。在模型检查、核查和伦理协调方面也取得了进展。但是人类层面的推理仍然是人工智能面临的巨大挑战。
不同模式和事实的整合将 LLM 推向了理解、问题解决和逻辑推理的新领域。随着研究的继续,这些注入知识的多模态模型将为人工智能系统协助人类完成各种智力任务开辟深远的可能性。人类层面的人工推理之旅才刚刚开始。此外,在以下方面的进步 自然语言生成 继续改善模型的通信方式,进一步完善类人交互。
使用 Sapien 的数据标签释放您的 LLM 的潜力
正如本文所讨论的那样,高质量的数据集对于开发能够进行高级推理和解决问题的复杂多模态人工智能系统至关重要。但是,获取足够的训练数据仍然是一个主要瓶颈。标签需要在不同的模式和知识领域进行大量的人力劳动。这就是 Sapien 的用武之地。
Sapien 通过全球主题专家网络提供可扩展、可靠的数据标签。对于任何数据类型(文本、图像、视频、音频),Sapien的平台都会分解标签任务并将其分发给合格的个人。这包括从文本分类、翻译和情感分析到图像注释和对话系统培训的所有内容。
Sapien拥有从法律到医学等领域的专业标签人员,可以处理复杂的特定领域数据。与替代产品相比,他们专有的质量保证系统可节省60%以上的成本,同时确保稳定的高质量输出。强大的数据安全协议可确保敏感数据始终安全。
无论您是需要法律合同分类、临床试验报告摘要,还是需要客户服务聊天机器人的对话培训,Sapien都有全球专业知识和技术堆栈来满足您的需求。他们的企业级平台使您可以轻松上传数据、获取自定义报价、监控进度并导出已完成的数据集来训练您的模型。
不要让数据标签成为阻碍你的 AI 能力的瓶颈。使用Sapien,您可以从任何领域获得域名权威机构的量身定制的注释。使用完美拟合的训练数据为下一代多模态推理 LLM 和计算机视觉模型提供动力。亲眼目睹 Sapien 的人工在环数据优化如何增强模型的性能。
准备好让你的AI发挥其真正潜力了吗?立即与 Sapien 联系,启动您的下一个突破,并预约我们的高质量、可扩展数据标签解决方案的演示。