本周一,埃隆・马斯克领导的人工智能公司 xAI 推出了最新的语言模型 Grok3,这标志着公司在人工智能领域的一大突破。马斯克透露,这款新模型所需的计算能力是其前辈的十倍,并采用了孟菲斯的数据中心,部署了大约20万块 GPU。
Grok3系列包括多种版本,其中一款轻量化版本着重于速度,虽然牺牲了一部分准确性。另外,新推出的“推理”模型专注于解决数学和科学问题。用户可利用Grok界面的“思考”和“大脑”设置来调整这些功能。xAI表示,此版本尚未定型,模型正在持续优化,团队计划在未来几周内完成调整。
据AI基准测试平台lmarena.ai的数据,Grok3在聊天机器人领域的得分超过了1400,位居首位,覆盖了编程等所有类别,超越了OpenAI、Anthropic和谷歌的模型。不过,实际性能可能与基准测试结果存在差异。例如,虽然Claude3.5Sonnet在编码基准测试中的得分不及某些模型,但许多用户仍认为它在编程任务中表现更佳。
OpenAI的创始人安德烈・卡尔帕西获得了Grok3的早期试用权限,他对该模型的逻辑推理能力给予了高度评价。他认为“思考”功能能够有效处理复杂任务,例如计算GPT-2的训练flops或为棋盘游戏创建六边形网格,这些功能之前仅限于OpenAI的高端模型o1-pro。此外,该功能还提高了基本数学操作的准确性,如字母计数和小数比较。
关于新的搜索功能,卡尔帕西指出,DeepSearch的质量与Perplexity研究工具相当,能够提供关于即将发布的苹果产品和Palantir股票动态等主题的相关答案。但他也发现了明显的问题:模型有时会生成错误的网址,做出不符合事实的声明,并且仅在特定提示下引用X的帖子。此外,模型似乎对自己的位置缺乏认识,未提及xAI在主要AI实验室中的地位。这些局限性使得DeepSearch尚未达到OpenAI“深度研究”的质量水平,并在幽默和伦理问题上表现不佳。
暂无评论