搜索
当前所在位置:首页 >> 风台汇

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

发布时间:2025-09-08 23:03:13 作者:ig 点击:447 【 字体:


最近谷歌发布的最i综 Gemini 格外引人注目,其号称是新研第一个在各种任务中可与 OpenAI 的 ChatGPT 相媲美的大模型。

报道显示,合不还需Gemini 的谷歌“Ultra”版本在各种任务上都优于 GPT-4,而 Gemini 的努力“Pro”版本则与 GPT-3.5 不相上下。

针对两个当红炸子鸡的最i综快手美女号塌房合集较量,美国卡内基梅隆大学近日展开了一项研究,新研深入探讨了谷歌 Gemini 的合不还需语言理解和生成能力,并将其与 OpenAI 的谷歌 GPT 系列作了对比,得到了有趣的努力结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。

CMU 最新研究:Gemini 综合不敌 ChatGPT,最i综谷歌还需努力

论文地址:https://arxiv.org/pdf/2312.11444.pdf


一、Gemini 仅媲美 GPT-3.5 Turbo

CMU 的合不还需这项研究主要探讨了两个问题:

其一,对 OpenAI GPT 和 Google Gemini 模型的谷歌能力进行了第三方客观比较,并提供了可重现的努力代码和完全透明的结果;

其二,对结果进行了更深入的研究,找出两类模型中某一类模型分别拥有的优势领域。

研究团队对测试各种语言能力的 10 个信息集进行了分析,包括推理、回答基于知识的问题、解决数学问题、抖音知识博主吐槽合集合集语言间翻译、生成代码以及充当指令遵循代理。

在所有的基准测试任务基础上,CMU 团队分析发现:

Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当,其准确度一般与 GPT 3.5 Turbo 相当,但略逊于 GPT 3.5 Turbo,比 GPT 4 差很多。

Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。

在特别长和复杂的推理任务中,Gemini 的表现优于 GPT 3.5 Turbo,包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中,Gemini 也善于使用多种语言。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

图为基准测试的主要结果(最佳模型以粗体显示,次佳模型以下划线显示。Mixtral 只对部分任务进行了评估。)


二、大模型关键能力分析

在大模型的几项关键能力上,团队的具体研究结果如下:

知识图谱问答能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在大模型的问答能力层面,从上图中可以看出每个模型在部分代表性任务上的表现,与 GPT 3.5 相比,Gemini Pro 在大多数任务上表现不佳,思维链提示降低了各子任务之间的差异。

团队又深入研究 Gemini Pro 性能低于/优于 GPT 的任务3.5 的差距,得出结论:

1)Gemini Pro 在 human_sexuality(社会科学)、formal_logic(人文科学)、elementary_mathematics(STEM)和 professional_medicine(专业领域)方面落后于 GPT 3.5。

2)在 Gemini Pro 优于 GPT 3.5 Turbo 的两项任务中,Gemini Pro 只取得了微弱的优势。

推理能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在推理能力层面, Gemini Pro 的整体准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo,但Gemini Pro 在更长、更复杂的问题上表现不佳,而 GPT 模型对此则更为稳健。

文中亦给出了 GPT 3.5 Turbo 性能超过 Gemini Pro 最多的任务:

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

数学能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

从数学推理的总体结果可以看出,在包含多种语言模式的 GSM8K、SVAMP 和 ASDIV 任务中,Gemini Pro 的准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。

在 MAWPS 任务中,所有模型的准确率都超过了 90%,但 Gemini Pro 仍略逊于 GPT 模型。

代码生成能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

代码能力生成方面,在英语任务中,Gemini Pro 在较长的输入和输出方面表现较强。分析结果可以发现,在大多数使用库的情况下,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。

不过,在 matplotlib 的情况下,它的性能要优于 GPT 3.5 和 GPT 4,这表明 Gemini 在通过代码执行绘图可视化时具有更强的能力。

机器翻译能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在翻译能力上,Gemini Pro 有 8 种语言的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下,Gemini Pro 在 20 种语言中的 8 种语言上的表现优于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 种语言上取得了最佳表现。不过,Gemini Pro 在大约 10 种语言对中表现出强烈的阻塞响应趋势。


雷峰网雷峰网(公众号:雷峰网)雷峰网

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

阅读全文
相关推荐

京产电影《捕风追影》获赞“近十年最好看的动作片” 成龙梁家辉“打”出新高度

京产电影《捕风追影》获赞“近十年最好看的动作片” 成龙梁家辉“打”出新高度
来源标题:京产电影《捕风追影》获赞“近十年最好看的动作片” 成龙梁家辉“打”出新高度电梯里的跟踪与反跟踪戏。导演杨子。京产电影《捕风追影》上映5天,票房破3亿元,被观众誉为“近十年最好看的 ...

用台湾问题绑架盟友,五角大楼在盘算什么

用台湾问题绑架盟友,五角大楼在盘算什么
英国《金融时报》7月12日报道称,五角大楼正在敦促日本和澳大利亚明确表态:如果台海爆发冲突,它们将扮演什么角色。这实际上是要逼迫日澳承诺在“台湾有事”时充当“马前卒”。报道称,此举令日澳感到“沮丧”, ...

李小璐现身KANYE上海演唱会!

李小璐现身KANYE上海演唱会!
什么情况?大量明星观看KANYE WEST的上海演唱会。李小璐也和女儿甜馨在现场观看。看来,李小璐母女都是KANYE的忠实粉丝了。除了李小璐之外,大量明星和Rapper也在现场观看KANYE演唱会。陈 ...

印度外长时隔五年访华

印度外长时隔五年访华
印度外交部长苏杰生7月13日开启为期3天的新加坡和中国之行。在访问中国期间,苏杰生将赴天津出席上海合作组织成员国外长理事会会议,并与中方举行双边会谈。这是5年来,印度外长首次访华。接受《环球时报》记者 ...

50%关税,正式生效!印度部分工厂“停工”

50%关税,正式生效!印度部分工厂“停工”
当地时间27日,美国正式开始对印度输美产品征收50%关税。印度皮革及钻石加工等行业受到严重冲击,随着美国客户陆续取消订单,不少工厂都面临经营困境。位于印度北方邦的坎普尔是该国有名的皮革加工中心,聚集着 ...

杨少华:蔫了一辈子,逗乐几代人

杨少华:蔫了一辈子,逗乐几代人
新京报记者 李冰洁 编辑 胡杰 校对 李立军生命被最终定格在94岁之前,杨少华不改恣意本色。他爱下馆子,点名要吃甲鱼,每天要来一只海参、一碗鸡汤,不要蔬菜。他抽烟很凶,每天一包起步,烟雾缭绕里,他向身 ...

乌军:史上首次,俄军人向机器人部队投降

乌军:史上首次,俄军人向机器人部队投降
据西班牙《阿贝赛报》网站7月13日报道,乌克兰冲突正在发生前所未有的变化。在一项完全由机器人部队执行的任务中,俄军作战人员首次在没有人类步兵直接干预的情况下被俘。甚至押送俘虏的也是无人系统,无需乌军士 ...

用AI声控玩原神,动动嘴皮即可打怪,代码教程已开源

用AI声控玩原神,动动嘴皮即可打怪,代码教程已开源
2016年,米哈游掏空家底,all in 游戏项目《原神》,追寻转型之路。2020年全开放式冒险游戏《原神》问世引发游戏圈现象级热议,精美的制作,3A级的画质,更是让游戏在2021年一度登顶56国排行 ...

杨幂宋佳,虞书欣,赵露思,于正林心如,辱骂粉丝的前选秀男,锤爷回复爆料贴

杨幂宋佳,虞书欣,赵露思,于正林心如,辱骂粉丝的前选秀男,锤爷回复爆料贴
1:杨幂当宋佳接班人?这次杨幂出席活动热搜出现了“地母”的评价这头衔与她的新造型,以及近期转型作品相关),同时她还被评价为“宋佳接班人”。其实扯上小宋佳的原因很简单,因为宋佳之前就被夸“地母系”意思是 ...

俄官员:美国恢复向乌克兰供武不会改变前线局势

俄官员:美国恢复向乌克兰供武不会改变前线局势
当地时间14日,俄罗斯国家杜马国际事务委员会主席列昂尼德·斯卢茨基表示,美国恢复向乌克兰供应导弹将是后退的一步,但这不会改变前线局势。△俄罗斯国家杜马国际事务委员会主席斯卢茨基资料图)斯卢茨基表示,如 ...

美国商务部正在调查无人机和多晶硅进口

美国商务部正在调查无人机和多晶硅进口
美国联邦公报通知显示,美国商务部于7月1日启动对进口无人机及其零部件的232条款调查。如果调查结果认定对国家保障构成威胁,总统可以对这些商品征收关税。美国还在另一份通知中表示,对多晶硅及其衍生产物正在 ...

陈坤,对其子失管失教

陈坤,对其子失管失教
来源:中国新闻周刊据云南昭通市纪委监委7月13日消息:日前,经昭通市委批准,昭通市纪委监委对盐津县人大常委会原党组成员、副主任陈坤已退休)严重违纪违法问题进行了立案审查调查。经查,陈坤身为党员领导干部 ...
返回顶部