豆包大模型2024技术突破，跨入国际领先梯队

12月30日，字节跳动旗下豆包大模型公布了2024年的技术进展。自5月15日首次亮相以来，仅经过7个月，豆包大模型在通用语言、视频生成、语音对话、视觉理解等多个领域已经达到国际领先水平。豆包大模型团队表示，尽管从最初的学习语言到理解世界，再到为创作者描绘奇幻梦境，这一切都还处于起步阶段。

截至2024年12月，豆包最新通用模型Doubao-pro-1215的能力相比5月提升了32%，全面对标GPT-4o，甚至在某些复杂场景任务中表现出色。通过海量数据优化、提升模型稀疏度、引入强化学习以及系统性工程优化等方法，团队显著提高了Doubao-Pro的理解精度和生成质量，同时实现了性能与效率的平衡，其推理服务价格仅为GPT-4o的八分之一。

Doubao-pro在主流评测集上全面对标GPT-4o。

在图像与视频生成能力方面，团队于9月推出了PixelDance和Seaweed两款豆包视频生成模型，专注于复杂提示词的精准理解、镜头一致性、多交互主体和镜头灵活控制。豆包文生图模型持续迭代，还推出了通用图像编辑能力，实现了“一句话P图”和“一键海报生成”。此外，12月发布的豆包视觉理解模型Doubao-vision，能够融合视觉与语言进行深度思考和创作，目前在十多个主流数据集上的能力与Gemini 2.0和GPT-4o相当。

语音大模型赋予了机器“听”与“说”的能力，豆包大模型团队今年推出了全新的语音识别模型Seed-ASR和语音生成基座模型Seed-TTS，通过引入多样、广泛的数据和融合推理链，赋予了模型强大的泛化性。据悉，豆包语音模型能够理解20种以上方言的对话，并能在会话中表达情感，保留人类的吞音、口音等习惯，甚至能够在交互中被打断。

在音乐领域，豆包大模型已具备高品质的“唱作”能力，从词曲编辑、演奏生成到人声演唱，“一个AI也可以是一个乐队”已经成为现实。其背后的音乐生成模型框架Seed-Music结合了语言模型与扩散模型的优势，实现了音乐生成的通用框架，具有极高的编辑可控性。

团队还首次对外披露了豆包大模型300万字窗口的长文本能力，能够轻松阅读上百篇学术报告，每百万tokens处理延迟仅需15秒，这一上下文窗口长度和时延水平达到业界极限。依托STRING等上下文关联数据算法和模型加速优化，团队大幅提升了LLM利用海量外部知识的能力，并通过稀疏化及分布式方案将时延降至十秒级。

在代码能力方面，豆包代码大模型Doubao-coder的编程能力达到专业级，深度支持超过16种编程语言、11类真实应用场景，满足前后端开发、机器学习等全栈编程开发需求。

成立极短时间内，豆包大模型团队对AI基础研究进行了深入布局。过去几个月，团队57篇论文被ICLR、CVPR、NeurIPS等顶级会议选中，研究成果包括下载量超百万的开源项目及GitHub万星爆款。

豆包大模型团队与近20所高校深度合作，支持超过40位顶尖学者参与关键AI技术攻坚，并与清华AIR、北大分别成立联合实验室。为储备最具潜力的研究人才，团队启动了“Top Seed人才计划”，在全球范围内招募顶尖博士毕业生加入，共同挑战世界级AI课题。

根据披露，豆包大模型相关技术目前支持了包括豆包、即梦、豆包MarsCode等50多个C端应用场景，其中，豆包APP已成为国内最受欢迎的AI产品。通过火山引擎，豆包大模型服务了30多个行业，日均tokens调用量超过4万亿，较5月发布时增长33倍。

豆包大模型2024技术突破，跨入国际领先梯队

名创优品MINISO全店“碰一下”支付，元旦惊喜优惠大放送

智元机器人开源AgiBotWorld数据集：机器人领域“百科全书”

暂无评论

发表评论取消回复

名创优品MINISO全店“碰一下”支付，元旦惊喜优惠大放送

智元机器人开源AgiBotWorld数据集：机器人领域“百科全书”

相关推荐

暂无评论

发表评论 取消回复

搜索

豆包大模型2024技术突破，跨入国际领先梯队

发表评论取消回复