在自然语言处理(NLP)领域,大型语言模型(LLM)已经取得了显著的进展,它们在文本生成、摘要和问答等多种应用中表现出色。然而,LLM依赖于令牌级处理(即一次预测一个词),这带来了一些挑战。与人类通常在更高层次的抽象层面(如句子或想法)进行交流的方式相比,这种方法显得不足。

在需要长上下文理解的任务中,令牌级建模往往力不从心,可能导致输出不一致。此外,将这些模型扩展到多语言和多模态应用中,计算成本高昂,且需要大量数据。为了解决这些问题,Meta AI的研究人员提出了一种新方法:大型概念模型(LCM)。

image.png

大型概念模型:语义理解的新范式

Meta AI的大型概念模型(LCM)标志着对传统LLM架构的重大转变。LCM引入了以下两项创新:

高维嵌入空间建模: LCM不再操作离散令牌,而是在高维嵌入空间中进行计算。这个空间表示抽象的意义单位,称为概念,对应于句子或话语。这种名为SONAR的嵌入空间被设计为与语言和模态无关,支持200多种语言和多种模态,包括文本和语音。

与语言和模态无关的建模: 与绑定到特定语言或模态的模型不同,LCM在纯粹的语义层面处理和生成内容。这种设计实现了在语言和模态之间的无缝切换,从而实现了强大的零样本泛化能力。

LCM的核心是概念编码器和解码器,它们将输入句子映射到SONAR的嵌入空间,并将嵌入解码回自然语言或其他模态。这些组件是冻结的,确保了模块化,并且易于扩展到新的语言或模态,而无需重新训练整个模型。

image.png

LCM的技术细节和优势

LCM引入了几项创新来推进语言建模:

分层架构: LCM采用分层结构,模拟人类的推理过程。这种设计提高了长篇内容的连贯性,并允许局部编辑,而不会破坏更广泛的上下文。

基于扩散的生成: 扩散模型被认为是LCM最有效的设计。这些模型根据前面的嵌入预测下一个SONAR嵌入。探索了以下两种架构:

单塔: 单个Transformer解码器处理上下文编码和去噪。

双塔: 将上下文编码和去噪分开,为每个任务提供专用组件。

可扩展性和效率: 与令牌级处理相比,概念级建模减少了序列长度,解决了标准Transformer的二次复杂性,并能够更有效地处理长上下文。

零样本泛化:</strong