谷歌杀回来了!新版Gemini跑分超o1登顶第一

鲨疯了!谷歌新版Gemini超越o1,强势登顶竞技场总榜第一!

在经6000+网友匿名投票后,不仅数学成绩和学霸o1相当,还拿下其它5个单项第一。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

新模型名为Gemini(Exp 1114),成绩一公布,连CEO皮猜也亲自飞奔来站台。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

而竞技场官方也在第一时间公布喜讯,并祝贺谷歌:

恭喜达到这一非凡里程碑!

谷歌杀回来了!新版Gemini跑分超o1登顶第一

这下尴尬了!说好的谷歌正在遭遇瓶颈呢?没想到人家反手就是一个王炸。

怕了怕了,或许,只有OpenAI立即发布满血版o1才能与之一战了?

谷歌杀回来了!新版Gemini跑分超o1登顶第一

目前新模型可在谷歌AI Studio体验,官方后续也计划提供API。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

网友们也纷纷猜测,难道这就是传说中的Gemini 2——

拿下7项第一,数学也和o1不分伯仲

一夜之间,竞技场Imsys排名再被刷新:

从总榜来看,谷歌新模型Gemini(Exp 1114)分数直涨40+,挤下了之前一直霸榜的OpenAI模型(包括o1-preview、GPT-4o)。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

而且假如正面1v1遇敌,新Gemini貌似都有一半及以上概率取胜。

整体胜率热图显示,Gemini(Exp 1114)对战4o-latest胜率为50%,对战o1-preview胜率为56%,对战Claude-3.5-Sonnet胜率为62%。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

同时,Gemini(Exp 1114)在单项上也很能打,一举拿下6个第一,包括:

-复杂提示(Hard Prompts):模型处理复杂或困难提示的能力;

-数学;

-创意写作;

-指令遵循:评估模型遵循给定指令的能力;

-长查询处理(Longer Query):衡量模型处理较长查询的能力;

-多轮对话(Multi-Turn):模型在多轮对话中保持上下文连贯性的能力;

谷歌杀回来了!新版Gemini跑分超o1登顶第一

要说最大看点,还是Gemini(Exp 1114)竟能与o1模型在数学能力上不分伯仲。

要知道,据OpenAI官方说法,o1不需要专门训练,就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

不过比较遗憾的是,对于写代码这项重磅功能,Gemini(Exp 1114)虽说相较于谷歌上一版本有所改进,但仍然未能挤进前三。(o1-mini/preview仍处于领先地位)

谷歌杀回来了!新版Gemini跑分超o1登顶第一

另外,在风格控制下,Gemini-Exp-1114也和前三无缘,甚至不及自家的Gemini-1.5-pro。(排在o1、4o-latest和Sonnet之后)

解释一下,风格控制(Style Control)是竞技场今年新推出的功能,确保分数反映模型真正解决问题的能力,而不是用漂亮的格式、增加回答长度。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

不过也有意外之喜,Gemini-Exp-1114这一次在视觉能力上拿下第一,超越了GPT-4o。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

整体看下来,对于谷歌这次的反超,大家也感到十分意外。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

谷歌杀回来了!新版Gemini跑分超o1登顶第一

谷歌杀回来了!新版Gemini跑分超o1登顶第一

目前,Gemini-Exp-1114已经可以在谷歌AI Studio体验,且官方计划后续提供API。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

谷歌杀回来了!新版Gemini跑分超o1登顶第一

这不,有很多网友已经上手测试了,但好像争议蛮多——

网友反应不一

先总结一下,通过网友测试,目前可知Gemini-Exp-1114的以下信息:

拥有32k上下文窗口

模型回答知识截止日期为2023年4月,但回答结果会不一样

加上了思维链

其中,32k上下文被大家狠狠吐槽。有人直言相比200万上下文窗口的Gemini 1.5,搁这儿不升反降呢!

谷歌杀回来了!新版Gemini跑分超o1登顶第一

兴许是感受到大家的怨怼了,谷歌AI Studio负责人赶紧出来打圆场:马上更!马上更!

谷歌杀回来了!新版Gemini跑分超o1登顶第一

安抚好众人情绪后,大家终于乐颠颠晒起了使用反馈。

透过其中一位小哥的观察,Gemini-Exp-1114这次也是用上了思维链,在回答时也能像人类一样一步步思考了。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

而且,在数学能力上确实不错?

Gemini-Exp-1114正确回答了2024美国数学奥林匹克预选赛II 1-8题。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

甚至相对弱项的编码,也有人第一次尝试就成功了。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

然而,翻车总是难免的。

有人问了基准测试中的物理问题,结果Gemini-Exp-1114虽然有思维链加持,却仍然回答错误。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

甚至老生常谈的数字比大小和数草莓中的r,竟还是失败。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

更搞笑的是,有人问Gemini-Exp-1114你叫什么?

结果回答了claude(doge)。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

实际上,大家一直在猜测Gemini-Exp-1114会不会是传说中谷歌计划更新的Gemini 2。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

谷歌杀回来了!新版Gemini跑分超o1登顶第一

但根据实测,相当一部分网友出来表示否定

毕竟,它好像连旧版1.5 Pro会的问题也无法解决。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

更有人声称,这是谷歌推迟发布更大模型(即Gemini 2)的策略,先弄一个残血版让大家玩玩,这样就别急着催更了。

谷歌杀回来了!新版Gemini跑分超o1登顶第一

结合CEO皮猜顺势放烟雾弹的做法,好像又有点道理(doge)!

AI Studio体验地址:https://aistudio.google.com/prompts/new_chat

竞技场完整榜单:https://lmarena.ai/?leaderboard

参考链接:

[1]https://x.com/lmarena_ai/status/1857110672565494098

[2]https://x.com/imxiaohu/status/1857183367365894487

[3]https://x.com/OfficialLoganK/status/1857106089063362768

[4]https://x.com/sundarpichai/status/1857114106928718329

以上就是关于【谷歌杀回来了!新版Gemini跑分超o1登顶第一】的相关消息了,希望对大家有所帮助!

Like (0)
广众网的头像广众网
Previous 2024年11月15日 下午3:17
Next 2024年11月15日 下午3:23

相关推荐

  • 哈佛计算机系学霸 首次参加奥运就拿下两块金牌

    哈佛计算机系学霸,首次参加奥运就拿下两块金牌! 其中个人单项还是美国40年来首金。 31岁公路自行车运动员克里斯汀·福克纳(Kristen Faulkner);最近意外火了。 她毕业于哈佛大学,学的是计算机专业,在硅谷华尔街干了4年VC,24岁时因为参加俱乐部活动,才开始正式将骑车作为个人爱好。 没想到7年后,她临危受命作为替补上场,意外成为最…

    2024年8月18日
    4500
  • 4K 75帧畅玩!七彩虹推出RTX 4080《黑神话:悟空》定制显卡:9199元

    8月20日消息,国内首款3A单机大作《黑神话:悟空》正式上线,七彩虹携手英伟达,共同推出iGame GeForce RTX 4080 SUPER Advanced 黑神话:悟空定制版显卡,售价9199元。 通过《黑神话:悟空》测试工具进行测试,游戏画质设置调整至影视级,并启用了全景光线追踪,在DLSS ON的情况当中,2K和4K的帧率表现为76以及47 FP…

    2024年8月21日
    5400
  • 业界唯一!荣耀Magic7系列首发全局全天候AI自然光绿洲护眼屏

    10月30日消息,今晚,荣耀Magic7系列正式登场。 作为荣耀最强高端旗舰,荣耀Magic7系列屏幕在护眼领域有大幅升级,集齐八大荣耀AI自然光绿洲护眼技术,包括圆偏振光技术、类自然光护眼、助眠显示、自然色彩显示、4320Hz PWM零风险调光、硬件级低蓝光、AI离焦护眼以及干眼友好等八项科技,给用户更舒适的用眼体验。 具体来说,荣耀Magic7系列全系首…

    2024年10月31日
    1500
  • 8.8英寸安卓性能小钢炮!全新联想拯救者Y700发布:骁龙8 Gen 3 2899元起

    9月29日消息,今日,新一代联想拯救者Y700游戏平板正式发布,拥有碳晶黑、冰魄白两款配色,售价2899元起。 作为目前安卓市场唯一的小尺寸性能平板,新一代Y700采用8.8英寸LCD屏,支持165Hz刷新率,2560*1600分辨率。 屏幕拥有343 PPI、500nits全局高亮度、DCI-P3广色域、全局DC调光,通过莱茵硬件低蓝光认证和莱茵无频闪认证…

    2024年9月29日
    1800
  • 埃安全新车型UT正式官宣:定位10万级市场 对标比亚迪海豚

    11月12日消息,广汽埃安近日发布了旗下小型车——埃安UT的官图,该车将在11月15日开幕的广州车展上亮相。 埃安表示,宣布该车将定位于10万级市场,直接竞争比亚迪海豚等车型。 这款新车采用了全新的设计风格,封闭式前格栅与Q萌大灯组的搭配,营造出时尚感。 短前后悬的设计让整体造型圆润且充满科技感。 车身侧面,埃安UT采用内扣造型的隐藏…

    2024年11月12日
    4100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信