北京智谱华章科技有限公司于2025年1月16日正式发布了一系列创新模型,并已部署在bigmodel.cn平台上。继去年8月推出「智谱清言」之后,公司持续在语言、语音、图像及视频理解与生成领域进行深入研究,推出了GLM-Voice、GLM-4V、CogView、CogVideoX等多模态模型。
本次推出的全新端到端模型GLM-Realtime,实现了低延迟的视频理解与语音交互,集成了清唱功能,并支持长达2分钟的记忆及Function Call功能。同时,公司还同步升级了GLM-4-Air和GLM-4V-Plus模型,致力于提供业界性能最强、性价比最高的语言模型解决方案。智谱公司始终致力于运用先进的大模型技术回馈社会,特别推出了Flash全模态免费模型,覆盖语言、文生图、文生视频及图像理解等多个场景,助力开发者轻松实现应用创新。
GLM-Realtime在视频通话上具备2分钟的内容记忆能力,语音交互方面创新性地实现了清唱功能,使大模型具备在对话中歌唱的能力。公司将Realtime API集成到智能眼镜和陪伴娃娃中,使用户能够体验到近乎实时的智能助手交互。Realtime还支持Function Call功能,能够调用外部知识和工具,拓展到更广泛的商业场景。目前,GLM-Realtime API已在智谱开放平台bigmodel.cn上线,目前提供免费调用。
GLM-4-Air自发布以来,因其高性价比受到开发者的喜爱。此次全面升级为GLM-4-Air-0111,通过优化训练数据和流程,在某些性能指标上接近规模更大的GLM-4-Plus,同时模型价格降至原来的50%,降低了大模型应用门槛。视觉理解模型GLM-4V-Plus也进行了全面升级,新版本在多个公开榜单上表现显著提升,支持变分辨率功能,适应不同尺寸图像输入,在小图场景下显著降低token消耗,支持4K超清图像和极致长宽比图像的无损识别,具备长达2小时的视频理解能力,为长视频理解和分析提供高效精准的解决方案。
智谱公司致力于大模型的普惠化,为助力开发者创新,特别推出了针对全社会免费开放的Flash系列普惠模型API。作为行业首个全模态的免费系列模型,开发者可免费调用语言、多模态理解、多模态生成功能。近期,Flash系列将进行全面升级,包括语言模型GLM-4-Flash、图像理解模型GLM-4V-Flash、图像生成模型CogView-3-Flash、视频生成模型CogVideoX-Flash。
暂无评论