机器学习技术已经深入各类在线服务,尤其在网购领域表现尤为突出。近年来,机器学习被广泛应用于多个网购环节,包括用户查询、浏览记录、评论分析、产品属性提取等。为了推动机器学习方法的进一步发展,各种基准测试相继推出,旨在降低研究者和工程师在开发和评估针对真实网购任务的创新解决方案时的门槛。
然而,现有的大多数模型和基准测试往往是为特定任务量身定制的,因此很难完全覆盖网购的复杂性。大型语言模型(LLM)凭借其强大的多任务和少样本学习能力,有潜力通过减少针对特定任务的工程工作,提供更加互动的上线购物体验,彻底改变购物方式。尽管潜力巨大,大型语言模型在在线购物过程中也面临着一些独特挑战,例如特定领域的购物概念、隐性知识及不同用户的行为差异。
为了应对这些挑战,亚马逊的研究团队推出了Shopping MMLU,这是一个基于真实亚马逊数据的多任务在线购物基准测试。Shopping MMLU涵盖了57项任务,涉及四大购物能力:概念理解、知识推理、用户行为对齐和多语言能力,从而全面评估大型语言模型作为通用购物助手的潜力。
这Shopping MMLU并非普通的“考试”,它从真实的亚马逊购物数据中提取了57项任务,覆盖了概念理解、知识推理、用户行为对齐和多语言能力四大模块。简而言之,就是为了考察AI助手是否能像人类导购一样理解用户需求,帮助用户找到所需的商品。
亚马逊的研究人员使用Shopping MMLU测试了20多个现有的AI模型,结果显示:
各种知名的专有AI模型,如Claude-3Sonnet、ChatGPT,表现出色,牢牢稳居第一梯队。与此同时,开源的AI模型也迅速崛起,逐渐形成挑战“权威”的态势。
Shopping MMLU的测试结果还揭示了一个有趣的事实:网购本质上是一个多任务学习问题。这意味着,AI助手必须同时掌握多种技能才能胜任该任务。
更令人欣喜的是,那些在通用领域表现优异的AI模型,在网购领域也毫不逊色。这表明,AI助手能够将通用知识迁移到特定领域,并迅速学习新的技能。
当然,AI助手并非完美无瑕。研究人员发现,某些常用的AI训练方法,例如指令微调(IFT),在特定情况下可能导致模型的过度拟合,从而影响其性能。
此外,少样本学习也成为AI助手面临的重大挑战。这意味着AI助手在被赋予新任务时需要快速学习,而不是总是依赖大量的训练数据。
总之,亚马逊的Shopping MMLU基准测试为AI助手的发展指明了方向。我们期待未来出现更为智能和人性化的网购AI助手,从而使我们的购物体验更加便捷和愉悦。
研究人员还发现了一些需要关注的细节:
Shopping MMLU比现有的其他网购AI数据集更为复杂与具挑战性。
特定领域的指令微调效果并不总是理想,且只有在已经掌握了大量通用知识的强大模型上才有效。
目前,即使是最先进的AI模型,某些网购任务中的表现也不及专门为这些任务设计的算法。
这项研究的结果表明,构建一个完美的网购AI助手仍然任重道远。未来的研究方向将包括:开发更为有效的AI训练方法,构建更加多样化的网购AI数据集,以及将AI模型与特定任务算法相结合,打造更加强大的混合型AI系统。
最后,研究人员也坦诚指出了本研究的一些局限性:
Shopping MMLU中的数据主要来源于亚马逊,可能无法完全反映其他电商平台的用户行为。
尽管研究团队已尽力避免,但Shopping MMLU中的部分数据可能仍存在误差。
总之,亚马逊的这项研究为我们开启了通往智能购物未来的大门。相信在不久的将来,网购AI助手将成为我们生活中不可或缺的一部分。
论文地址:https://arxiv.org/pdf/2410.20745
数据及评测代码:
https://github.com/KL4805/ShoppingMMLU
KDD Cup 2024 Workshop及获奖队伍解法:
https://amazon-kddcup24.github.io/
评估榜单:
https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard
暂无评论