谷歌“狙击”OpenAI，发布新一代大模型！主打Agent+多模态

⋅ 2024-12-12 06:04:38 ⋅ 阅读 ⋅ 手机

鱼羊西风发自凹非寺
量子位 | 公众号 QbitAI

继量子芯片之后，谷歌又来抢“OpenAI双12直播”的流量了！

就在刚刚，谷歌新一代大模型Gemini 2.0突然登场，再次由谷歌CEO皮猜亲自官宣。

“面向智能体时代的新AI模型”

在谷歌CEO皮猜、Google DeepMind CEO哈萨比斯，以及Google DeepMind CTO科雷（Koray Kavukcuoglu）三人共同撰写的博客文章中，官方给Gemini 2.0的定位是：

面向智能体时代的AI模型。

在多模态方面的新进展，以及原生工具的使用，使我们能够构建新的AI智能体，以更接近实现通用助手的愿景。

具体如何体现？在Gemini 2.0 Flash实验版第一时间上线的同时，谷歌还在Gemini Advanced中推出了一项名为深度研究（Deep Research）的智能体新功能。

你可以把它当成以研究助理，围绕一个复杂主题生成研究报告。有点像是个科研版AI搜索。

谷歌“狙击”OpenAI，发布新一代大模型！主打Agent+多模态

另外一个Gemini 2.0的重点关键词是：多模态。

2.0 Flash实验版除了支持图像、视频、音频多模态输入，还支持多模态输出。

不单单是简单的图文混排，可控的多语种文本到语音（TTS）输出也行，还能直接本地调用工具，比如谷歌搜索、代码工具、第三方用户定义的功能。

有ChatGPT插件那味儿了。

不过，作为实验模型，其文本到语音和原生图像生成功能目前仅提供给早期访问合作伙伴。谷歌透露2.0 Flash将在1月份正式推出，会提供更多不同大小的模型。

而根据谷歌发布的基准测试结果，不论是在多模态的图片、视频能力上，还是编码、数学等能力上，仅是Flash实验版的Gemini 2.0表现就已几乎全面超越Gemini 1.5 Pro 002。

而且它的速度是1.5 Pro的两倍。

谷歌“狙击”OpenAI，发布新一代大模型！主打Agent+多模态

那么，你觉得这够Agent吗？

参考链接：
[1]https://x.com/GoogleDeepMind/status/1866869343570608557
[2]https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents

- THE END -

打赏

本文由 @知闻楼 - 汇聚世界，洞见未来修订发布于 2024-12-12 06:04:38

本文来自投稿，不代表本站立场，如若转载，请注明出处：/tech/shouji/46854.html

Google 深夜狙击 OpenAI：新 Agent 功能可以自己打开浏览器查资料了

评论（共条评论，人围观）