12月30日,字节跳动旗下豆包大模型公布了2024年的技术进展。自5月15日首次亮相以来,仅经过7个月,豆包大模型在通用语言、视频生成、语音对话、视觉理解等多个领域已经达到国际领先水平。豆包大模型团队表示,尽管从最初的学习语言到理解世界,再到为创作者描绘奇幻梦境,这一切都还处于起步阶段。
截至2024年12月,豆包最新通用模型Doubao-pro-1215的能力相比5月提升了32%,全面对标GPT-4o,甚至在某些复杂场景任务中表现出色。通过海量数据优化、提升模型稀疏度、引入强化学习以及系统性工程优化等方法,团队显著提高了Doubao-Pro的理解精度和生成质量,同时实现了性能与效率的平衡,其推理服务价格仅为GPT-4o的八分之一。
Doubao-pro在主流评测集上全面对标GPT-4o。
在图像与视频生成能力方面,团队于9月推出了PixelDance和Seaweed两款豆包视频生成模型,专注于复杂提示词的精准理解、镜头一致性、多交互主体和镜头灵活控制。豆包文生图模型持续迭代,还推出了通用图像编辑能力,实现了“一句话P图”和“一键海报生成”。此外,12月发布的豆包视觉理解模型Doubao-vision,能够融合视觉与语言进行深度思考和创作,目前在十多个主流数据集上的能力与Gemini 2.0和GPT-4o相当。
语音大模型赋予了机器“听”与“说”的能力,豆包大模型团队今年推出了全新的语音识别模型Seed-ASR和语音生成基座模型Seed-TTS,通过引入多样、广泛的数据和融合推理链,赋予了模型强大的泛化性。据悉,豆包语音模型能够理解20种以上方言的对话,并能在会话中表达情感,保留人类的吞音、口音等习惯,甚至能够在交互中被打断。
在音乐领域,豆包大模型已具备高品质的“唱作”能力,从词曲编辑、演奏生成到人声演唱,“一个AI也可以是一个乐队”已经成为现实。其背后的音乐生成模型框架Seed-Music结合了语言模型与扩散模型的优势,实现了音乐生成的通用框架,具有极高的编辑可控性。
团队还首次对外披露了豆包大模型300万字窗口的长文本能力,能够轻松阅读上百篇学术报告,每百万tokens处理延迟仅需15秒,这一上下文窗口长度和时延水平达到业界极限。依托STRING等上下文关联数据算法和模型加速优化,团队大幅提升了LLM利用海量外部知识的能力,并通过稀疏化及分布式方案将时延降至十秒级。
在代码能力方面,豆包代码大模型Doubao-coder的编程能力达到专业级,深度支持超过16种编程语言、11类真实应用场景,满足前后端开发、机器学习等全栈编程开发需求。
成立极短时间内,豆包大模型团队对AI基础研究进行了深入布局。过去几个月,团队57篇论文被ICLR、CVPR、NeurIPS等顶级会议选中,研究成果包括下载量超百万的开源项目及GitHub万星爆款。
豆包大模型团队与近20所高校深度合作,支持超过40位顶尖学者参与关键AI技术攻坚,并与清华AIR、北大分别成立联合实验室。为储备最具潜力的研究人才,团队启动了“Top Seed人才计划”,在全球范围内招募顶尖博士毕业生加入,共同挑战世界级AI课题。
根据披露,豆包大模型相关技术目前支持了包括豆包、即梦、豆包MarsCode等50多个C端应用场景,其中,豆包APP已成为国内最受欢迎的AI产品。通过火山引擎,豆包大模型服务了30多个行业,日均tokens调用量超过4万亿,较5月发布时增长33倍。
暂无评论