是否厌倦了在海量信息中寻找答案?是否期待一个能像专业分析师一样深入研究的智能助手?OpenAI 正式推出 ChatGPT 的全新功能——深度研究 (Deep Research)!这一功能将彻底改变您获取信息的方式,只需几十分钟,就能完成原本需要数小时的研究任务。本文将详细介绍深度研究的强大功能、应用场景、工作原理和未来发展方向,共同见证AI如何赋能知识工作,开启智能研究新时代!
深度研究是一种智能体,通过推理整合大量在线信息,为您完成多步骤研究任务。类似 Perplexity 和 Gemini 的同名功能,OpenAI 最新发布的“深度研究”利用其强大的 o3 模型,通过网络搜索整理和分析海量信息,最终生成一份详尽、带引用的专业报告。这一功能一经推出,便受到广泛关注,被誉为“超级强大的”AI助手,预示着AI辅助研究新时代的到来。
(adsbygoogle = window.adsbygoogle || []).push({});
目前,深度研究已面向 Pro 用户开放,未来将逐步向 Plus 和 Team 用户开放。
一句话概括:“深度研究”可自主进行多步骤网络调查,5-30分钟内完成通常需要人类研究员数小时才能完成的复杂研究任务,并以高质量报告形式呈现给用户。
参考阅读:谷歌推出的 Deep Research、Open Deep Research:生成基于网络搜索内容的AI研究报告、STORM:基于Topic搜索网络数据,生成带引用的论文、长文报告
深度研究有多强大?让我们一探究竟:
- 强大能力,高效执行:告别熬夜搜资料的日子!“深度研究”可在5-30分钟内完成传统上需要数小时的复杂研究,将研究效率提升至全新高度,并可根据需要深入挖掘,提供专家级别的分析。
- 结果可靠,有据可查:不再担心信息来源不明!所有结论均附带详细的引文,可精确到原始网页或PDF的相关段落,方便用户追溯和验证信息的准确性,让您的研究成果更具说服力。
- 应用广泛,灵活易用:无论您是需要进行竞争分析、市场调研,还是进行产品选购、学术研究,“深度研究”都能成为您的得力助手。用户只需在ChatGPT界面选择“深度研究”并输入查询,即可启动研究。支持上传文件(如PDF)以提供更具体的上下文,并可在侧边栏实时查看研究进度和引用的来源。
- 技术先进,表现卓越:基于端到端强化学习,“深度研究”能够执行多步骤的浏览和推理任务。支持网站内容读取、数据处理、图表生成,并可引用来源文本作为论据支撑。在被称为“人类最后的考试”(Humanity's Last Exam, HLE)的高难度基准测试中,“深度研究”取得了26.6%的高分,远超此前的o3-mini(13%)和o1(9%),展现了其强大的信息检索和整合能力,以及接近人类的研究行为。
- 逐步开放,未来可期:目前已向 Pro 用户开放(每月100次搜索额度),并将于一个月内扩展至 Plus 用户(每月10次搜索额度),团队版和企业版也将陆续开放。未来还将支持移动/桌面端应用,并计划与更多数据源(包括订阅和内部数据源)连接,以实现更强大的个性化功能。
以下细节同样值得关注:
- 工具调用越多,准确率越高:图表显示,随着工具调用次数(Max Tool Calls)的增加,“深度研究”在HLE测试中的通过率也随之提高,这表明其智能程度和工具利用能力的正相关关系。
- 幻觉问题仍需改进:尽管“深度研究”的表现令人惊叹,但仍存在产生幻觉和错误推理的可能性,这也是OpenAI后续优化的重点方向。
- 结合 Operator,潜力无限:OpenAI未来计划将深度在线研究与现实世界操作(Operator)相结合,实现更强大的智能体功能,让人充满期待!
DeepResearch 官方评测全文
今天,我们在ChatGPT中推出了深度研究,这是一种新的代理功能,可以针对复杂任务在互联网上进行多步骤研究。它可以在数十分钟内完成人类需要数小时才能完成的工作。
深度研究是OpenAI的下一个智能体,可以独立为您工作——您给它一个提示,ChatGPT将查找、分析和综合数百个在线资源,以创建一份研究分析师水平的综合报告。它由即将推出的OpenAI o3模型的某个版本提供支持,该模型针对网络浏览和数据分析进行了优化,它利用推理来搜索、解释和分析互联网上的海量文本、图像和PDF,并根据遇到的信息进行必要的调整。
综合知识的能力是创造新知识的先决条件。出于这个原因,深度研究标志着我们朝着开发AGI的更广泛目标迈出了重要一步,我们长期以来一直设想AGI能够产生新的科学研究。
我们构建深度研究的原因
深度研究专为在金融、科学、政策和工程等领域从事密集知识工作且需要全面、精确和可靠研究的人员而构建。对于那些希望获得通常需要仔细研究的购买(如汽车、电器和家具)的超个性化建议的精明购物者来说,它同样有用。每个输出都有完整的文档记录,带有清晰的引文和对其思路的总结,便于参考和验证信息。它在查找需要浏览大量网站的利基、非直观信息方面特别有效。深度研究让您只需一个查询即可卸载和加快复杂、耗时的网络研究,从而释放宝贵的时间。
深度研究独立地发现、推理和整合来自整个网络的见解。为了实现这一点,它使用与OpenAI o1(我们的第一个推理模型)相同的强化学习方法,在需要浏览器和Python工具使用的现实世界任务上进行了训练。虽然o1在编码、数学和其他技术领域展示了令人印象深刻的能力,但许多现实世界的挑战需要广泛的背景和来自不同在线资源的信息收集。深度研究建立在这些推理能力的基础上,以弥合这一差距,使其能够处理人们在工作和日常生活中面临的各种问题。
如何使用深度研究
在ChatGPT中,在消息编辑器中选择“深度研究”并输入您的查询。告诉ChatGPT您需要什么——无论是对流媒体平台的竞争分析还是关于最佳通勤自行车的个性化报告。您可以附加文件或电子表格来为您的问题添加上下文。一旦它开始运行,就会出现一个侧边栏,其中包含所采取步骤和所用来源的摘要。
深度研究可能需要5到30分钟才能完成其工作,需要时间深入研究网络。同时,您可以离开或处理其他任务——研究完成后您会收到通知。最终输出以报告的形式出现在聊天中——在接下来的几周内,我们还将在这些报告中添加嵌入式图像、数据可视化和其他分析输出,以提供额外的清晰度和上下文。
与深度研究相比,GPT-4o非常适合实时、多模态对话。对于深度和细节至关重要的多方面、特定领域的查询,深度研究进行广泛探索和引用每个声明的能力是快速摘要和有据可查、经过验证的答案(可用作工作成果)之间的区别。
深度研究以高度详细的方式响应提示,提供前10个发达国家和前10个发展中国家的并列国家/地区数据,以便于参考和比较。它利用这些信息提供详尽的、明智且实用的市场进入建议。参见官方示例:https://openai.com/index/introducing-deep-research/
工作原理
深度研究是在各种领域的硬浏览和推理任务上使用端到端强化学习进行训练的。通过这种训练,它学会了计划和执行多步骤轨迹来找到所需的数据,并在必要时回溯和对实时信息做出反应。该模型还能够浏览用户上传的文件,使用python工具绘制和迭代图形,在其响应中嵌入生成的图形和来自网站的图像,并引用其来源的特定句子或段落。作为此训练的结果,它在许多专注于现实世界问题的公开评估中达到了新的高度。
Humanity's Last Exam
在 Humanity’s Last Exam(opens in a new window)(最近发布的一项评估,测试AI在专家级问题上的广泛主题)上,支持深度研究的模型以26.6%的准确率获得了新的高分。该测试包含3,000多个选择题和简答题,涵盖100多个主题,从语言学到火箭科学,从经典到生态学。与OpenAI o1相比,最大的进步出现在化学、人文社会科学和数学方面。支持深度研究的模型展示了一种类似人类的方法,在必要时有效地寻找专业信息。
模型 | 准确率 (%) |
---|---|
GPT-4o | 3.3 |
Grok-2 | 3.8 |
Claude 3.5 Sonnet | 4.3 |
Gemini Thinking | 6.2 |
OpenAI o1 | 9.1 |
DeepSeek-R1* | 9.4 |
OpenAI o3-mini (medium)* | 10.5 |
OpenAI o3-mini (high)* | 13.0 |
OpenAI deep research** | 26.6 |
- 模型不是多模态的,在仅文本子集上进行评估。
- 使用浏览 + python 工具
GAIA
在 GAIA(opens in a new window) (一个评估AI在现实世界问题上的公开基准)上,支持深度研究的模型达到了新的最先进水平 (SOTA),在外部 排行榜(opens in a new window) 中名列前茅。包含三个难度级别的问题,成功完成这些任务需要包括推理、多模态流畅性、网络浏览和工具使用熟练度在内的能力。
GAIA 任务示例
参见官方示例:https://openai.com/index/introducing-deep-research/
专家级任务
在一项针对一系列领域专家级任务的内部评估中,深度研究被领域专家评为已自动执行数小时的困难手动调查。
通过率与最大工具调用次数
<img decoding="async" title="OpenAI 推出 Deep
暂无评论