熬夜写文献综述?为了撰写论文而抓耳挠腮?别担心!AI2的科研专家们带来了他们的最新作品——OpenScholar,来帮助你轻松应对这些挑战。这款科研效率工具能让你的文献综述写作变得如同在公园散步一样轻松愉快!

OpenScholar的最大优势在于其背后的强大数据库OpenScholar-Datastore(OSDS),其中存储了4.5亿篇开放获取的论文以及2.37亿个文章段落的嵌入。有了这样丰富的知识资源,OpenScholar能够游刃有余地解决各种科研难题。

当你面临科研问题时,OpenScholar会首先运用其高效的检索器和排序算法,从OSDS中迅速筛选出与问题相关的段落。在这一过程中,语言模型(LM)会提供包含完整参考文献的答案。最令人惊叹的是,OpenScholar会根据你的自然语言反馈不断优化答案,填补信息空白,直到你满意为止。

image.png

OpenScholar不仅功能强大,还能帮助培育更小巧且高效的模型。研究人员借助OpenScholar的流程生成了海量高质量的训练数据,进而训练出了一个名为OpenScholar-8B的80亿参数语言模型以及其他检索模型。

为了全面验证OpenScholar的能力,研究人员特别设计了名为SCHOLARQABENCH的全新测试平台。在这一平台上,设置了多种文献综述任务,包括封闭式分类、多项选择和长篇生成,涵盖计算机科学、生物医学、物理学和神经科学等多个领域。为确保测试的公平性,SCHOLARQABENCH采用了专家评审、自动指标和用户体验等多种评估方法。

经过多轮激烈的竞争,OpenScholar最终脱颖而出!实验结果显示,它在各项任务中表现出色,甚至超越了人类专家!这一突破性成果无疑将引发科研领域的革命,帮助科学家们摆脱文献综述的困扰,专注于科学探索!

image.png

OpenScholar的强大功能源于其独特的自我反馈检索增强推理机制。简单来说,它会自问自答,通过反馈不断改进,以提供最完美的答案。这是一种非常神奇的过程!

具体而言,OpenScholar的自我反馈推理过程可分为三个步骤:初始答案生成、反馈生成和反馈整合。首先,语言模型会基于检索到的文章段落生成一个初步答案。接着,它会像严格的考官一样对自己的答案进行评估,识别不足之处,并生成自然语言反馈,例如“答案只包含了关于问答任务的实验结果,请补充其他类型任务的结果”。最后,语言模型根据这些反馈重新检索相关文献,整合所有信息,生成更加完善的答案。

为了训练性能卓越但体积更小的模型,研究人员利用OpenScholar的自我反馈推理流程生成了大量的高质量训练数据。他们从数据库中挑选引用次数最高的论文,根据这些论文的摘要生成信息查询问题,最终使用OpenScholar的推理流程生成高质量答案。这些答案和反馈信息构成了关键信息的训练数据。研究人员将这些数据与现有的通用领域指令微调数据及科学领域指令微调数据混合,训练出了名为OpenScholar-8B的80亿参数语言模型。

为了更全面地评估OpenScholar及其他类似模型的性能,研究人员还创建了基于2967个专家撰写的文献综述问题的SCHOLARQABENCH基准测试,覆盖计算机科学、物理学、生物医学和神经科学等领域。每个问题的专家答案通常需要一个小时的撰写时间。SCHOLARQABENCH还结合自动指标与人工评估,全面衡量模型生成答案的质量。

实验结果表明,OpenScholar在SCHOLARQABENCH的表现远超其他模型,甚至在某些方面超越了人类专家!例如,在计算机科学领域,OpenScholar-8B的准确率比GPT-4o高5%,比PaperQA2高7%。此外,OpenScholar生成的答案引用准确率与人类专家相当,GPT-4o则有78-90%的内容为虚假引用。

OpenScholar的问世无疑是科研领域的重大利好!它不仅帮助科研人员节省大量的时间与精力,更提升了文献综述的质量与效率。相信在不远的将来,OpenScholar将成为科研人员不可缺少的得力助手!

论文地址:https://arxiv.org/pdf/2411.14199

项目地址:https://github.com/AkariAsai/OpenScholar