在 2024 年 3 月,一家新兴的 AI 公司凭借其令人瞩目的 2100 万美元 A 轮融资进入市场,此轮融资由 Founders Fund 领投,并得到了 Collison 兄弟、Elad Gil 等科技界领袖的支持。该公司的核心团队由国际信息学奥林匹克竞赛金牌得主组成,他们能够解决我们大多数人都难以理解的编程难题。他们的产品 Devin 承诺成为一位完全自主的软件工程师,能够与你进行交流,并能执行从学习新技术、调试成熟代码库到部署完整应用程序,甚至训练 AI 模型的各项工作。
Devin 的早期演示令人信服。它独立完成了 Upwork 上的一个悬赏任务,无人为干预地安装并运行了一个 PyTorch 项目。该公司声称,Devin 在 SWE-bench 基准测试中能够解决 13.86% 的真实世界 GitHub 问题——比之前的系统好约 3 倍。虽然最初只有少数用户能够访问它,但关于它将如何彻底改变软件开发的讨论在社交媒体上引起了广泛热议。
(adsbygoogle=window.adsbygoogle||[]).push({});
作为 Answer.AI 团队的一员,我们经常尝试 AI 开发工具,我们发现 Devin 独具特色。如果它能够实现承诺的一半,它将改变我们的工作方式。尽管 Twitter 上充满了热情,但关于人们实际使用它的详细记录却不多。因此,我们决定对其进行全面测试,针对各种真实世界的任务进行测试。以下是我们的故事——一个彻底的、真实的尝试,旨在与 2024 年最受炒作的 AI 产品之一合作。
什么是 Devin?
Devin 的独特之处在于其基础设施。不同于常见的 AI 助手,Devin 通过 Slack 运行并启动自己的计算环境。当你与 Devin 聊天时,你实际上是在与一个能够访问完整计算环境的 AI 对话——该环境配备了网络浏览器、代码编辑器和 shell。它可以安装依赖项、阅读文档,甚至可以预览它创建的 Web 应用程序。以下是启动 Devin 执行任务的一种方式的屏幕截图:

通过 Slack 启动 Devin 执行任务的一种方式
这种体验旨在让你感觉像是在与同事聊天。你描述你想要什么,然后 Devin 开始工作。通过 Slack,你可以观看它思考问题,在需要时请求凭据,并分享已完成工作的链接。在幕后,它运行在 Docker 容器中,这为它提供了安全试验所需的隔离,同时保护你的系统。Devin 还提供了一个 Web 界面,它还允许你访问其环境,并实时观看它使用 IDE、Web 浏览器等进行工作。以下是 Web 界面的屏幕截图:
早期的成功
我们的第一个任务很简单但很真实:将数据从 Notion 数据库提取到 Google Sheets 中。Devin 以惊人的能力解决了这个问题。它导航到 Notion API 文档,理解了它需要什么,并指导我完成了在 Google Cloud Console 中设置必要凭据的过程。它没有只是抛出 API 指令,而是引导我完成了每个菜单和按钮的点击——节省了通常需要繁琐的文档搜索时间。整个过程大约花了一个小时(但只有几分钟的人工交互)。最后,Devin 分享了一个链接,指向一个包含我们数据的格式完美的 Google Sheet。
它生成的代码有点冗长,但它能工作。这感觉像是对未来的惊鸿一瞥——一个能够处理耗费开发人员大量时间的“胶水代码”任务的 AI。Johno 在使用 Devin 创建行星追踪器来揭穿关于木星和土星历史位置的说法时也取得了类似的成功。特别令人印象深刻的是,他完全通过手机完成了这项工作,Devin 处理了设置环境和编写代码的所有繁重工作。
扩大我们的测试
在早期成功的基础上,我们充分利用了 Devin 的异步能力。我们想象着在会议期间让 Devin 编写文档,或者在我们专注于设计工作时调试问题。但是,随着我们扩大测试规模,问题出现了。看似简单的任务通常需要几天而不是几个小时,Devin 会陷入技术死胡同,或者产生过于复杂、无法使用的解决方案。
更令人担忧的是,Devin 倾向于推进实际上不可能完成的任务。当被要求将多个应用程序部署到单个 Railway 部署时,Devin 没有识别出这种限制,而是花了一天多的时间尝试各种方法,并虚构了一些不存在的功能。
最令人沮丧的不是失败本身——所有工具都有局限性——而是我们花了多少时间试图挽救这些尝试。
深入了解哪里出了问题
在我们的旅程中,我们
暂无评论