Google DeepMind宣布:全球最强AI模型发布!Gemini用户可免费使用

AI圈竞争白热化!推理模型集中上阵,爆款一条接着一条。谷歌DeepMind在2月6日祭出大杀器Gemini 2.0家族,四款模型全部跻身大模型开源基准测试平台LMArena前十名,围攻Deepseek!

“今天,我们发布了全球排名第一的 AI 模型(由@lmarena_ai评测)——2.0 Flash Thinking Experimental,Gemini 应用用户可免费使用。此外,我们还推出了 2.0 Flash Thinking 的另一个版本,可与您熟悉和喜爱的应用进行交互,例如 @YouTube、@Google搜索和 @GoogleMaps。”

图片[1] - Google DeepMind宣布:全球最强AI模型发布!Gemini用户可免费使用 - 万事屋

据笔者了解,lmarena.ai里面的评测平台Chatbot Arena是一个开放平台,旨在通过人类偏好评估大型语言模型(LLMs),由加州大学伯克利分校 SkyLab 和 LMArena 的研究人员主持。该平台采用匿名、随机化的对战方式,让不同的聊天机器人进行对抗评测,并通过用户投票产生排行榜。Chatbot Arena 的评测过程涵盖了从用户直接参与投票到盲测,再到大规模的投票和动态更新的评分机制等多个方面,这些因素共同作用,确保了评测的客观性、权威性和专业性。

Google DeepMind宣布:全球最强AI模型发布!Gemini用户可免费使用

谷歌2月6日发布Gemini 2.0家族,当时更新的排行数据是2月4日。可以看到在UB排行规则(Upper-Bound,上界排名)下,四款模型(针对不同的任务和性价比)评分全部位于前10。

Google DeepMind宣布:全球最强AI模型发布!Gemini用户可免费使用

而今天我再看,数据已更新到了2月5日,排名并无太大变化,o3-mini稍稍超越
Gemini-2.0-Flash-Lite-Preview,挤进前十。DeepSee-R1依然稳居高位。

Google DeepMind宣布:全球最强AI模型发布!Gemini用户可免费使用

值得一提的是,目前排名第一的增强推理模型
Gemini-2.0-Flash-Thinking-Experimental,可以免费在Google Gemini的网页端和App端使用。

下面笔者将为大家视频演示前两天出过的一个题目“Deepseek这个单词中有几个e” 以及“GreenGrass这个单词中有几个e和几个s” 这两个问题,看其回答如何:

这两个问题前两天我专门发过一篇文章测试过一众模型,大家可以点击回顾。gpt-4o以及claude-3.5-sonnet事实上都已经算非常强大和旗舰的模型了,包括国内的大部分模型都会答错。即使是OpenAI紧随发布的推理模型o3-mini回答也是错误的。

Google DeepMind宣布:全球最强AI模型发布!Gemini用户可免费使用

但是,
Gemini-2.0-Flash-Thinking-Experimental这个模型,是真的强大。反应速度之快,回答之准确,包括推理过程的展示。
就单个测试的结论而言,我认为是完全在R1之上的,排名第一没有问题。大家可自行测试。

另外,再给大家展示一段视频内容,那就是
Gemini-2.0-Flash-Thinking-Experimental-with-apps,可以与谷歌的一些常用应用进行互动如油管、谷歌地图等等。
我在没有看李子柒视频的情况下,让该强推理模型迅速从Youtube应用中找到她的频道以及最新的视频,包括总结出核心的内容:

以上只是简单的案例小展示,大家可以按照自己的目的,做的事情非常多。

Google DeepMind宣布:全球最强AI模型发布!Gemini用户可免费使用

这个宣传语很好的概括了它的特点,一个小测试我是深有体会——“2.0 Flash Thinking-Experimental 兼具速度与性能,并在科学和数学领域表现出色,展现出其解决复杂问题的思维能力。”

Google Deepmind的CTO——Koray Kavukcuoglu也发布了一篇文章郑重的宣布了这一好消息并逐一介绍Gemini 2.0家族的几款模型的特点。

Google DeepMind宣布:全球最强AI模型发布!Gemini用户可免费使用

Google DeepMind宣布:全球最强AI模型发布!Gemini用户可免费使用

需要说明的是:这些尾部带有experimental的实验模型旨在提供早期预览,可能会出现意外行为并产生错误。此外,在实验阶段,这些模型无法获取实时信息,也不兼容某些 Gemini 功能。

以Deepseek R1这款强推理模型开源为导火索,随后半个月时间左右,陆续发布了多个极具影响力的推理模型如Qwen-2.5-Max、o3-mini以及现在的Gemini 2.0大家族。以OpenAI描绘的通往AGI发展过程中的五大层级来看,目前AI圈正在大力推进Level 2阶段——具备深度思考、推理和人类水平的问题解决能力。

Google DeepMind宣布:全球最强AI模型发布!Gemini用户可免费使用

当然,OpenAI也在实验性的探索Agent,几天前展示了他们的第一个agent——Operator,可以自动化的处理一些简单任务。

Google DeepMind宣布:全球最强AI模型发布!Gemini用户可免费使用

Level 2阶段,Google已亮出利刃,Gemini 2.0 Flash Thinking Experimental展示出了极高的水准,面对全球Deepseek的热捧,给出了有力的回应。

那么下一个给出强力回应、推波助澜的会是谁?我们拭目以待,相信这这种争分夺秒白热化的竞争,不会等太久,我们将会看到下一个Boom!

转自头条号数字化企业

© 版权声明
THE END
喜欢就支持一下吧
点赞10赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容