InceptionLabs发布MercurydLLM,AI生成速度提升10倍

🚀预约:3月3日中国首个 AI IDE 发布 MarsCode × Trae,不限量使用 Claude 3.7 Sonnet 和 DeepSeek-R1!

Inception Labs 推出 Mercury 系列扩散大语言模型 (dLLM),其速度和成本比现有 LLM 降低10倍,将语言模型的智能和速度推向新高度。

核心要点

  1. Inception Labs 正式发布 Mercury 系列扩散大语言模型 (dLLM),标志着新一代 LLM 的诞生,预示着快速、高质量文本生成技术迈上新的台阶。
  2. Mercury 的速度比现有速度优化的 LLM 快10倍。在 NVIDIA H100 GPU 上,Mercury 模型运行速度超过1000 tokens/秒,这种速度此前只有使用定制芯片才能实现。
  3. 代码生成模型 Mercury Coder 现已在 playground 平台开放测试。Inception Labs 通过 API 和本地部署的方式,为企业客户提供代码模型和通用模型的使用权限。

Mercury:首个商业级 Diffusion 大语言模型-1Mercury:首个商业级 Diffusion 大语言模型-1

(adsbygoogle = window.adsbygoogle || []).push({});

 

Inception Labs 的愿景 — Diffusion 赋能下一代 LLM

当前的大语言模型 (LLM) 通常采用自回归模式,如同人类写作,逐个 token 生成文本。这种串行生成方式在评估数十亿参数的神经网络时效率低下。行业领先的 LLM 公司正在增加推理时的计算,以提升模型的能力,但这导致了推理成本和延迟的增加。为了使高质量的 AI 解决方案普及,范式转变势在必行。

扩散模型提供了一种可能的范式转变。这类模型采用“由粗到精”的生成过程。与自回归模型不同,扩散模型不受限于仅考虑先前输出的内容,这使得它们在推理和构建响应结构方面表现更出色。扩散模型能够持续优化其输出,有效纠正错误和减少幻觉,成为视频、图像和音频生成领域众多杰出 AI 解决方案的核心驱动力。直到 Mercury 的出现,扩散模型在文本和代码等离散数据的尝试从未成功。

Mercury Coder — 1000+ Tokens/秒,前沿智能触手可及

Inception Labs 推出 Mercury Coder,这是首个公开可用的 dLLM。

Mercury Coder 将 AI 能力推向新高度:其速度比当前一代 LLM 快5-10倍,并以更低的成本提供高质量的响应。Mercury Coder 的诞生,离不开 Inception Labs 创始团队的突破性研究成果,他们不仅是图像扩散模型的先驱,还共同发明了多项核心生成式 AI 技术。

dLLM 可以作为现有自回归 LLM 的直接替代方案,支持包括 RAG(检索增强生成)、工具使用和 Agent 工作流在内的所有应用场景。当接收到用户查询时,dLLM 不会逐个 token 生成答案,而是采用由粗到精的方式生成答案,Transformer 模型经过大量数据训练,能够全局性地优化答案质量,并行修改多个 token,从而不断改进生成结果。

Mercury Coder 是一款专门为代码生成优化的 dLLM。在标准代码 benchmark 评测中,Mercury Coder 在众多 benchmark 上都表现出色,其性能通常超越了 GPT-4o Mini 和 Claude 3.5 Haiku 等速度优化的自回归模型,同时速度还提升了高达 10 倍。

Mercury:首个商业级 Diffusion 大语言模型-1Mercury:首个商业级 Diffusion 大语言模型-1

dLLM 的独特之处在于其惊人的速度。即使是速度优化的自回归模型,其运行速度最多也只能达到 200 tokens/秒,而 Mercury Coder 在通用 NVIDIA H100 GPU 上运行速度却超过了 1000 tokens/秒,速度提升了 5 倍。与某些前沿模型(运行速度可能低于 50 tokens/秒)相比,Mercury Coder 的速度提升甚至超过 20 倍。

速度对比:每秒输出 Tokens 数;代码编写工作负载

Mercury:首个商业级 Diffusion 大语言模型-2Mercury:首个商业级 Diffusion 大语言模型-2

开发者们更青睐 Mercury Coder 的代码补全功能。在 Copilot Arena 的 benchmark 评测中,Mercury Coder Mini 并列第二,超越了 GPT-4o Mini 和 Gemini-1.5-Flash 等速度优化模型,甚至与 GPT-4o 等更大模型的性能不相上下。与此同时,Mercury Coder 也是速度最快的模型,比 GPT-4o Mini 快大约 4 倍。

Inception Labs 诚邀您亲自体验 Mercury Coder 的强大功能。Inception Labs 与 Lambda Labs 合作,在 playground 平台为您提供了 Mercury Coder 的试用入口。正如以下视频所示,体验 Mercury Coder 如何在极短的时间内生成高质量代码。

 

这对 AI 应用意味着什么?

Mercury dLLM 的早期采用者,包括客户支持、代码生成和企业自动化等领域的市场领导者,正在成功地将标准的自回归基础模型切换为 Mercury dLLM 作为直接替代方案。这种转变直接转化为更出色的用户体验和更低的成本。在对延迟敏感的应用场景中,合作伙伴们过去常常为了满足严格的延迟要求,而不得不选择规模较小、能力较弱的模型。现在,得益于 dLLM 的卓越性能,这些合作伙伴可以使用更大、更强大的模型,同时仍然满足他们原有的成本和速度要求。

Inception Labs 通过 API 和本地部署两种方式提供 Mercury 系列模型的使用权限。Mercury 模型与现有硬件、数据集以及监督微调 (SFT) 和对齐 (RLHF) 流程完全兼容。API 和本地部署均支持微调。

CDN1CDN1

相关推荐

暂无评论

发表评论