OpenAI 的超长发布会还没结束,谷歌便火速推出 Gemini 2.0 系列的第一个版本—— Gemini 2.0 Flash 测试版。
在介绍中,Gemini 2.0 Flash 的一些关键性能优于 Gemini 1.5 Pro,同时,Gemini 2.0 Flash 还加入多模态推理、原生调用 Google 搜索、复杂的指令跟踪和规划等功能。最令人期待的一定是 Deep Research,它实现的功能就是作为 "AI 代理人 " 来做规划,重点在于,它将突破次元壁,向通用 AI 更近一步。
在谷歌介绍中,新发布的 Gemini 2.0 将首次涉足「AI 代理时代」,换句话说,我们可以将一部分网络和现实的控制权移交给 AI 处理,它会代替我们处理许多 " 现实问题 "。比如,你想买新手机,可能会进行很多对比,还需要考虑促销、是否缺货等因素,这些繁琐的步骤可以全部交由 Gemini 来处理。
结合前段时间泄露的消息,2025 年谷歌可能发布的 Jarvis AI 能够访问网站,甚至可以在用户许可下完成在线购物,以及填写表格等操作。换句话说,如果得到用户允许,它甚至可以帮你下单,你在家等待新手机即可。
Gemini 团队的高级产品经理解释说:" 当 Gemini Deep Research 浏览网页时,它会对发现的内容进行推理,以弄清楚下一步要寻找什么。从本质上讲,这是一种通过内容进行探索和学习的全新方向。"
在功能上看,Gemini Deep Research 是一个推理模型,最大的不同是,它可以跟互联网有完整交互。
在 Deep Research 上线后,Gemini 可以像人类一样浏览网络,通过搜索、找到有趣的内容,然后根据它所学到的信息再进行新的搜索。它可以多次执行此操作,直到确定它有足够的信息来根据用户的提示生成最终结论。
谷歌把 Gemini Deep Research 描述成 " 代理人 ",这会让 AI 助理突破次元壁,不免让人担心这将打开 " 潘多拉的魔盒 "。
针对这些担忧,谷歌现阶段的限制原则是,它不适用于付费专区的研究论文或网站,也不适用于需要登录才能访问的网站,未来是否开放这些限制还不得而知。
现实是,谷歌的 Gemini 正在悄悄更新,AI 代理的想法让人担忧。试想,当谷歌正式解禁 Deep Research 全部功能后,我们也许会看到 "AI 代理人 " 逐渐成为网络社会的主流,写代码、预订机票和酒店,甚至连玩游戏都不用亲力亲为。对人类来说,这样的未来是更封闭,还是更开放?