近日,阿里巴巴达摩院通义实验室宣布开源了一项名为ClearerVoice-Studio的先进语音处理技术,该技术致力于提高语音清晰度和可理解度。在语音技术日益普及的今天,人们对语音质量的要求越来越高,特别是在存在环境噪音、回声和设备录音问题时,对语音处理技术的需求愈发迫切。

ClearerVoice-Studio技术整合了语音增强、分离以及音视频说话人提取等功能,通过采用复数域深度学习算法,显著提高了语音降噪和分离的效果。这项技术能有效消除背景噪音,确保语音清晰度,并尽量减少语音失真。

阿里云、通义千问

ClearerVoice-Studio的核心模型和算法包括在2022年IEEE/INTER Speech DNS Challenge中获得第二名的FRCRN模型,以及语音分离领域表现优异的MossFormer系列模型。基于MossFormer2的48kHz语音增强模型在有效抑制噪声的同时,大幅降低了语音失真。

阿里巴巴通义实验室期望通过ClearerVoice-Studio平台,为开发者、研究人员和企业提供强大的语音处理工具,推动创新应用的实现。用户可通过在线Demo体验,上传含有噪声的语音文件至指定页面,一键处理,在线试听或下载处理后的音频,从而获得清晰的音质和出色的降噪效果。

GitHub 仓库:https://github.com/modelscope/ClearerVoice-Studio

在线体验 Demo:https://huggingface.co/spaces/alibabasglab/ClearVoice