近期,人工智能领域的大型语言模型(LLM)在多种任务上展现出非凡能力,无论是创作诗歌、编写代码还是进行对话,都显得游刃有余。然而,令人难以置信的是,这些看似全能的AI在处理简单的数学问题时却显得力不从心,频频出错,令人瞠目结舌。
一项研究揭示了LLM在算术推理能力上的独特策略:它们既不依赖于复杂的算法,也不完全依靠记忆力,而是采用了一种被称为“启发式大杂烩”的方法。这就像一个学生,不认真学习数学公式和定理,而是凭借一些“小聪明”和“经验法则”来猜测答案。
研究人员以算术推理为研究对象,对Llama3、Pythia和GPT-J等多个LLM进行了深入分析。研究发现,LLM中负责算术计算的部分(“电路”)由众多单一神经元组成,每个神经元犹如一个“微型计算器”,专门识别特定数字模式并输出相应答案。例如,某个神经元可能专门负责识别个位数为8的数字,另一个则专注于识别结果在150到180之间的减法运算。
这些“微型计算器”如同散乱的工具,LLM并非按照固定算法使用它们,而是根据输入的数字模式,随机组合这些“工具”来计算答案。这就像一位厨师,没有固定的食谱,而是根据现有食材随意搭配,最终做出一道“黑暗料理”。
更令人惊讶的是,这种“启发式大杂烩”策略在LLM训练初期就已显现,并随着训练进程逐渐成熟。这表明,LLM从一开始就依赖于这种“拼凑”式的推理方法,而非在训练后期才形成。
那么,这种独特的算术推理方法会带来哪些问题呢?研究表明,这种策略的泛化能力有限,容易导致错误。因为LLM掌握的“小聪明”数量有限,且这些“小聪明”本身可能存在缺陷,使得它们在面对新的数字模式时无法给出正确答案。就如同一个只会做“番茄炒蛋”的厨师,突然让他做“鱼香肉丝”,他难免会手忙脚乱。
这项研究揭示了LLM在算术推理能力上的局限性,并为提升LLM数学能力提供了研究方向。研究人员认为,仅依靠现有训练方法和模型架构难以提高LLM的算术推理能力,需要探索新方法,帮助LLM学习更强大、更泛化的算法,从而真正成为“数学高手”。
论文地址:https://arxiv.org/pdf/2410.21272
暂无评论