Nexa AI最近推出了OmniAudio-2.6B这一新型音频语言模型,它旨在满足边缘设备的高效部署需求。不同于传统将自动语音识别(ASR)与语言模型分开的设计,OmniAudio-2.6B融合了Gemma-2-2b、Whisper Turbo以及定制的投影技术于单一框架内,有效消除了传统系统的组件间低效和延迟问题,特别适合于计算资源有限的设备使用。
关键特性:
处理速度: OmniAudio-2.6B在性能方面表现卓越。在2024 Mac Mini M4Pro上,利用Nexa SDK并采用FP16GGUF格式,模型能够达到每秒处理35.23个令牌的速度,而在Q4_K_M GGUF格式下,可提升至每秒66个令牌。对比之下,Qwen2-Audio-7B在相同硬件上仅能处理每秒6.38个令牌,OmniAudio-2.6B的速度优势显而易见。资源效率: 模型的紧凑型设计大幅降低了云资源的依赖性,使其成为功耗和带宽受限的可穿戴设备、汽车系统及物联网设备的优选。在硬件资源有限的情况下,它仍能保持高效运行。高准确性与灵活性: 尽管OmniAudio-2.6B着重于速度和效率,它在准确性上同样表现优异,适用于多种任务,包括转录、翻译和摘要。无论是即时语音处理还是复杂的语言工作,OmniAudio-2.6B均能提供精确的输出。
OmniAudio-2.6B的发布标志着Nexa AI在音频语言模型领域的再次突破,其优化后的架构不仅提升了处理速度和效率,还为边缘计算设备开辟了新的可能性。随着物联网和可穿戴设备的广泛应用,OmniAudio-2.6B预计将在多种应用场景中扮演关键角色。
模型地址:https://huggingface.co/NexaAIDev/OmniAudio-2.6B
产品地址:https://nexa.ai/blogs/omniaudio-2.6b
暂无评论