近期,Answer.AI与LightOn携手推出了开源语言模型ModernBERT,这是一次对谷歌BERT的重大革新。开发者透露,ModernBERT在处理速度、效率和质量方面均有显著进步。该模型速度提升至原来的四倍,且内存使用更少。

ModernBERT的设计支持其处理长达8192个标记的文本,比传统编码模型的512标记限制提高了16倍。它还是首个经过广泛训练的编程代码编码模型,在StackOverflow问答数据集上的得分超过80,刷新了编码模型的新高。

image.png

在通用语言理解评估(GLUE)中,ModernBERT-Large在速度与准确性上实现了最佳平衡,每个标记的处理时间大约为20毫秒,得分为90。开发团队将ModernBERT比作一辆经过精心调校的本田思域,强调其在日常应用中的可靠性和高效性。

相较于GPT-4,ModernBERT在处理大规模文本时成本大幅下降。GPT-4每次查询的成本为数美分,而ModernBERT可在本地运行,更快速且经济。例如,FineWeb Edu项目在处理150亿个标记时,使用BERT模型的成本为6万美元,即便使用谷歌的Gemini Flash解码器,成本也超过100万美元。

开发团队指出,ModernBERT非常适合多种实际应用,包括检索增强生成(RAG)系统、代码搜索和内容审查。与需要专门硬件的GPT-4不同,ModernBERT能在普通消费级游戏GPU上高效运行。

目前,ModernBERT提供两个版本:基础模型含1.39亿个参数,大型版本含3.95亿个参数。两个版本已在Hugging Face上发布,用户可以直接用它们替换现有的BERT模型。开发团队计划明年推出更大版本的模型,但暂无多模态功能的计划。为推动新应用的开发,他们还举办了一项比赛,将为五个最佳演示者提供100美元奖金和六个月的Hugging Face专业订阅。

自2018年谷歌推出BERT以来,该模型一直是最受欢迎的语言模型之一,在HuggingFace上的月下载量超过6800万次。

项目入口:https://huggingface.co/blog/modernbert

划重点:

🌟 ModernBERT比BERT处理速度快四倍,能处理长达8192个标记的文本。

💰 相较于GPT-4,ModernBERT在大规模文本处理上的成本大幅降低,运行更高效。

📊 该模型特别擅长处理编程代码,在StackOverflow问答数据集上得分超80,创造新纪录。