腾讯专利：创新大语言模型训练方法，提升准确性与泛化能力

2025-02-09

近期，腾讯科技（深圳）有限公司在天眼查App上发布了一项关于大语言模型训练方法及配套设备的专利。该专利名为“大语言模型的训练方法、装置、计算机设备及存储介质”，旨在通过创新的训练策略，增强大语言模型的学习效率和准确性。

在训练大语言模型时，传统方法通常依赖单一的文本摘要，这可能导致模型过度拟合，进而影响生成内容的准确性和多样性。而腾讯推出的新方法则引入了两种不同的信息来源——首先是摘要文本，其次是第二摘要文本。这两种摘要文本的信息量存在差异，且第一摘要文本中包含了正确与错误的语句，为对比学习奠定了基础。

这种对比学习方法使得模型能够在同一文本的不同摘要间进行学习，通过辨别第一摘要文本中的正确与错误语句，有效避免了因摘要单一而导致的训练误差。这一创新技术不仅提高了模型的泛化能力，使其在处理未知数据时表现更佳，还增强了模型的准确性，降低了生成错误内容的可能性。

随着人工智能技术的持续发展，大语言模型的应用领域不断拓宽，从自然语言处理到智能客服，再到内容创作等，都展现出巨大的潜力。腾讯此专利的发布，标志着在大语言模型训练领域的技术创新，有望为未来的研究与应用提供新的思路。

可以预见，这项技术的进一步发展将推动智能化应用的持续进步，助力各行各业在数字化转型过程中更好地利用人工智能带来的便利。

标签：Large Language Model · patent · training method

暂无评论

发表评论取消回复

要发表评论，您必须先登录。