来自 Google 和 Alphabet 首席执行官 Sundar Pichai 的一封信:
信息是推动人类进步的核心,这就是我们过去 26 年来致力于组织全球信息,并确保其便于访问和有用的原因。我们不断推动人工智能的前沿,通过多种输入组织信息,使其在任何输出中都能真正发挥帮助。
(adsbygoogle=window.adsbygoogle||[]).push({});
这就是我们去年 12 月推出 Gemini 1.0 的愿景。Gemini 1.0 是首个原生多模态模型,通过跨文本、视频、图像、音频和代码,充分理解信息,并处理更多数据。
如今,数百万开发者正在使用 Gemini 构建产品,它让我们重新思考了所有产品的发展——包括七个拥有 20 亿用户的核心产品,并创造了新的产品。NotebookLM 是多模态和长上下文能力的一个极佳示例,也是它受到广泛欢迎的原因。
过去一年中,我们专注于开发具有更强代理能力的模型,能够更深入地理解现实世界,进行多步思考,并在您的指导下采取行动。
今天,我们很高兴推出为代理时代打造的下一代模型:Gemini 2.0,这是我们迄今为止最强大的模型。凭借新进展(如原生图像和音频输出)及工具使用能力,它将进一步推动我们实现通用助手的愿景。
现在,我们将 Gemini 2.0 提供给开发者和受信任的测试者使用,首先在 Gemini 和搜索产品中集成。从今天起,我们的 Gemini 2.0 Flash 实验模型将对所有 Gemini 用户开放,同时推出名为 Deep Research 的新功能,利用高级推理和长上下文能力,作为研究助手,帮助探索复杂主题和汇总报告。该功能现已在 Gemini Advanced 中上线。
没有任何产品比搜索更受 AI 的影响。我们的 AI 总览目前已覆盖 10 亿用户,能够回答全新的问题类型,迅速成为最受欢迎的搜索功能之一。接下来,我们将把 Gemini 2.0 的高级推理能力引入 AI 总览,以处理更复杂的主题和多步骤问题,包括高级数学方程、多模态查询和代码示例。本周,我们开始了有限测试,并计划于明年初更广泛推出,同时还将继续在更多国家和语言中引入 AI 总览。
Gemini 2.0 的进步得益于我们十多年来的全栈 AI 创新投入。它基于如 Trillium 的定制硬件,即我们的第六代 TPU,TPU 完全支持了 100% 的 Gemini 2.0 训练和推理,而 Trillium 也现已全面上市,客户可以使用它构建产品。
如果说 Gemini 1.0 是关于组织和理解信息,那么 Gemini 2.0 的核心在于提升信息的实用性。我迫不及待想看到这一新时代将带来什么。
发布 Gemini 2.0:为代理时代打造的新 AI 模型
由 Google DeepMind 首席执行官 Demis Hassabis 和首席技术官 Koray Kavukcuoglu 代表 Gemini 团队撰写
过去一年里,我们在人工智能领域取得了显著进展。今天,我们推出了 Gemini 2.0 系列的首个模型:Gemini 2.0 Flash 的实验版本。这是我们技术前沿的高效模型,具有低延迟和增强的性能。
我们还展示了 Gemini 2.0 原生多模态能力支持的代理研究前沿原型。
Gemini 2.0 Flash
Gemini 2.0 Flash 建立在 1.5 Flash 成功的基础上,成为最受开发者欢迎的模型,提供同样快速的响应时间和增强的性能。特别值得一提的是,2.0 Flash 在关键基准测试中超越了 1.5 Pro,其速度提升了两倍。此外,2.0 Flash 还带来了新功能,支持图像、视频和音频等多模态输入,并现支持多模态输出,例如原生生成的图像与文本混合,以及可控的多语言文本到语音 (TTS) 音频。它还可以原生调用工具,如 Google 搜索、代码执行以及第三方用户定义的功能。
我们的目标是让用户能够安全快速地使用我们的模型。过去一个月,我们分享了 Gemini 2.0 的早期实验版本,并收到开发者的宝贵反馈。
Gemini 2.0 Flash 现作为实验模型通过 Google AI Studio 和 Vertex AI 的 Gemini API 向开发者开放。多模态输入和文本输出对所有开发者开放,而文本到语音和原生图像生成功能对早期接入伙伴开放。通用可用性将于 1 月随更多模型尺寸发布。
为了帮助开发者构建动态和交互式应用程序,我们发布了一个新的实时多模态 API,支持实时音频、视频流输入以及多种组合工具使用。有关 2.0 Flash 和实时多模态 API 的更多信息,请参阅我们的 开发者博客。
Gemini 2.0 在 Gemini 应用中提供,我们的 AI 助手
从今天起,全球 Gemini 用户可以通过桌面和移动网页上的模型下拉菜单访问 2.0 Flash 实验的聊天优化版本,它也将很快在 Gemini 移动应用中上线。借助这一新模型,用户可以体验更加实用的 Gemini 助手。
明年初,我们将把 Gemini 2.0 扩展到更多 Google 产品中。
用 Gemini 2.0 解锁代理体验
Gemini 2.0 Flash 的原生用户界面动作能力及其他改进(如多模态推理、长上下文理解、复杂指令遵循与规划、组合函数调用、原生工具使用和改进的延迟)共同促成了一类全新的代理体验。
AI 代理的实际应用是一个充满激动人心可能性的研究领域。我们正通过一系列原型探索这一新领域,这些原型能帮助人们完成任务并解决问题。其中包括 Project Astra 的更新版(探索通用 AI 助手未来能力的研究原型);新推出的 Project Mariner(探讨人与代理之间交互的未来,从浏览器开始);以及 Jules,一个 AI 驱动的代码代理,旨在帮助开发者。
虽然我们仍处于发展的早期阶段,但我们期待看到受信任的测试者如何应用这些新功能,以及我们从中学到的知识,以便在未来让更多产品受益。
Project Astra: 多模态理解代理在现实世界中的应用
自从在 I/O 大会上 发布 Project Astra 后,我们一直在与使用 Android 手机的受信任测试者合作学习。他们的宝贵反馈帮助我们更好地理解通用 AI 助手在实践中的运作方式,包括安全性和伦理方向的影响。Gemini 2.0 支持的最新版本改进包括:
- 更好的对话能力:Project Astra 现在可以进行多种语言及混合语言对话,且对口音和罕见词汇的理解更为精准。
- 新的工具使用能力:有了 Gemini 2.0,Project Astra 可利用 Google 搜索、Lens 和 Maps,使其在日常生活中更实用。
- 更强记忆能力:我们改进了 Project Astra 的记忆功能,同时保持用户对其的控制权。它现在支持最多 10 分钟的会话内记忆,并能记住您过去的更多对话,以提供个性化体验。
- 改进的延迟:通过新的流式功能和原生音频理解,代理的语言理解延迟已接近人类对话速度。
我们正努力将这些功能引入 Google 产品,例如 Gemini 应用(我们的 AI 助手),并计划在其他形式如眼镜中应用。同时,我们也在扩大受信任测试者计划,让更多人参与,包括正在测试 Project Astra 的原型眼镜的小组。
Project Mariner:帮助完成复杂任务的智能代理
Project Mariner 是基于 Gemini 2.0 构建的早期研究原型,旨在探索人机交互的未来,以浏览器为起点。作为一项研究原型,它能理解和推理浏览器屏幕上的信息,包括像素和网页元素(如文本、代码、图像和表单),并通过实验性的 Chrome 插件为您完成任务。
在 WebVoyager 基准测试中,该测试评估了智能代理在端到端真实世界网页任务的表现,Project Mariner 在单代理配置中达到了 83.5%的最新成果。
尽管仍处于早期阶段,Project Mariner 显示出在浏览器中导航的技术可行性,但任务完成的准确性和速度还有待提高,未来将迅速改善。
为了安全负责地推进这一项目,我们正在积极研究新型风险及缓解方法,同时保持人类的参与。例如,Project Mariner 只能在浏览器活动标签页中进行键入、滚动或点击,并在执行敏感操作(如购买)之前请求用户的最终确认。
受信任的测试人员已开始通过实验性的 Chrome 插件测试 Project Mariner,并与网络生态系统讨论合作事宜。
Jules:为开发者打造的智能代理
接下来,我们正在探索如何通过 Jules——一个实验性的 AI 驱动代码智能代理,直接集成到 GitHub 工作流中,来为开发者提供帮助。Jules 能够解决问题、制定计划并执行任务,所有操作都在开发者的指导和监督下进行。这项工作是我们长期目标的一部分,旨在构建能在各个领域(包括编码)提供辅助的 AI 代理。
有关这一持续实验的更多信息,请参阅我们的 开发者博客文章。
游戏及其他领域的智能代理
Google DeepMind 在利用游戏帮助 AI 模型提升遵循规则、规划和逻辑方面拥有丰富的历史。例如,上周我们推出了 Genie 2,该 AI 模型能够仅从单一图像生成无穷多样的可游玩 3D 世界。基于这一传统,我们使用 Gemini 2.0 构建了能够在视频游戏虚拟世界中导航的智能代理。它通过推理屏幕上的动作,实时对话提供下一步建议。
我们正在与如 Supercell 这样的领先游戏开发商合作,测试这些代理在解释规则和挑战方面的能力,涵盖从策略游戏《Clash of Clans(部落冲突)》到农场模拟游戏《Hay Day(卡通农场)》的多样化游戏。
除了作为虚拟游戏伴侣,这些代理还能利用 Google 搜索,连接网络上的丰富游戏知识。
除了探索虚拟世界中的智能代理能力,我们还在实验如何将 Gemini 2.0 的空间推理能力应用于机器人领域。尽管仍处于早期阶段,但我们对智能代理在物理环境中的潜力感到兴奋。
您可以在 labs.google 上了解更多关于这些研究原型和实验的信息。
在智能代理时代负责任地构建
Gemini 2.0 Flash 和我们的研究原型使我们能够测试和迭代前沿 AI 研究中的新功能,最终推动 Google 产品的实用性。
在开发这些新技术的过程中,我们认识到自己的责任,并关注 AI 代理在安全和安保方面引发的诸多问题。因此,我们采取探索性和渐进式的方法进行开发,研究多个原型,实施安全训练,并与可信测试者和外部专家合作,进行广泛的风险评估和安全保障评估。
例如:
- 作为安全流程的一部分,我们与公司的责任和安全委员会(RSC)这一长期内部审查小组合作,以识别和理解潜在风险。
- Gemini 2.0 的推理能力在我们的 AI 辅助红队测试方法中实现了显著进展,趋势由过去单纯检测风险转变为现在能够自动生成评估和训练数据以缓解风险。这意味着我们可以更高效地大规模优化模型的安全性。
- 随着 Gemini 2.0 的多模态性增加了潜在输出的复杂性,我们将继续评估和训练模型,处理图像和音频输入输出以提升安全性。
- 在 Project Astra 中,我们正在探索如何缓解用户可能无意间与代理共享敏感信息的风险,并已内置隐私控制,方便用户轻松删除会话。我们还在继续研究如何确保 AI 代理成为可靠的信息来源,并不会替用户做出意外行为。
- 在 Project Mariner 中,我们致力于确保模型优先遵循用户的指令,而非被第三方提示注入影响,避免潜在恶意指令的滥用。这有助于保护用户不受电子邮件、文档或网站中潜藏的恶意指令的欺诈和网络钓鱼攻击。
我们坚信,构建 AI 的唯一方式是从一开始就采取负责任的态度,并且我们将持续把安全性和责任作为模型开发过程的关键要素,随着模型和智能代理发展的进展而深化。
Gemini 2.0、智能代理及未来
今天的发布标志着 Gemini 模型的新篇章。随着 Gemini 2.0 Flash 的推出,以及探索代理可能性的系列研究原型的发布,我们已迈入 Gemini 时代的一个令人激动的里程碑。我们期待在构建通用人工智能(AGI)的进程中,继续安全地探索所有新可能性。
暂无评论