搜索
当前所在位置:首页 >> 风汇闻

苹果大模型最新论文:AFM 模型多维度评测「出炉」

发布时间:2025-09-10 08:45:25 作者:mmwab 点击:3 【 字体:

编译 | 朱可轩

编辑 | 陈彩娴

不久前,苹果苹果在全球开发者大会(WWDC)上推出了最新个人智能系统 Apple Intelligence,大模多维度评可以深度集成到 iOS 18、型最新论iPadOS 18 和 macOS Sequoia 中,模型引起了 AI 业内人士、测出尤其是苹果杨某网红翻车视频流出端侧智能领域的讨论。

苹果在 2024 年的大模多维度评一系列工艺动作,被戏称为苹果为端侧 AI 所设计的型最新论“开卷考试”,即:大模型时代,模型AI 工艺应如何在手机、测出平板等端侧设备上运营,苹果让手机变得更智能?大模多维度评

近日,苹果团队又在 arXiv 上更新了关于 Apple Intelligence 的型最新论最新论文,其中介绍了苹果用在 Apple Intelligence 上的模型两个基础语言模型,包括:一个在设备端运行的测出李某艳照流出热搜截图大约 30 亿参数的语言模型 AFM-on-device,以及一个在私有云端服务上运行的大规模支持器语言模型 AFM-server。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

论文链接:https://arxiv.org/pdf/2407.21075

根据该论文,苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时,在保护客户信息隐私与保障上,苹果强调在后训练阶段不会使用客户的个人信息进行训练。

结果显示,苹果的 AFM 模型在指令遵循层面皆优于其他大模型,同时,从写作写作能力来看,在摘要总结方面,AFM 模型无论是端侧还是私有云也均要好于其他。而在保障性评估时,AFM 模型也比其他模型要更为负责。但是值得一提的是,AFM 模型的数学能力整体上来看较为一般。

研究发现

人类评估

在人类评估中,在端侧,AFM 仅输于 Llama-3-8B ,而与其他模型相比显然更优。据论文介绍,AFM 与 Phi-3-mini 相比,模型尺寸小了 25%,而胜率达47.7% ,AFM 甚至超出参数数量为两倍多的 Gemma-7B 和 Mistral-7B。而在私有云上,与GPT-3.5相比时,AFM 也具有一定竞争力,胜率超 50%。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

指令遵循

在指令级(Instruction-level)与提示级(Prompt-level)的评估中,无论是端侧还是私有云上,均为 AFM 模型表现最好。其指令级的得分分别为 85.7% 和 88.5%,而提示级的得分则分别为 79.3% 和 83.0%。

此外,苹果还使用了 AlpacaEval 2.0 LC 和 Arena Hard 作为基准进行评估。在私有云上,这两项测试中均为 GPT-4 的表现最优,其中,在 Arena Hard 测试中,GPT-4 的得分甚至倍超 AFM。在端侧的 AlpacaEval 2.0 LC 测试中,则为 Gemma-7B 评分最优,AFM 模型紧随其后。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

工具使用

苹果还测试了在调用工具使用基准测试中 AFM 模型的表现,分别从简单(Simple)、多重(Multiple)、并行(Parallel)、并行多重(Parallel Multiple)、相关性(Relevance)和平均(Average)几个纬度展开。

整体来看,AFM-server 表现较优,从测试结果上来看,在简单、多重、相关性、平均性维度中,AFM-server 均得分最高,分别为91.0、95.5、91.3、89.5。在并行多重维度中,AFM-server 得分 85.0,仅次于 Gemini-1.5-Pro-0514 的 88.0,且领先于 GPT-4 与 GPT-3.5。

但 AFM-on-device 表现则较为一般,在多重、并行多重、相关性及平均维度中,均要稍逊于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外,在并行维度中,AFM-server 和 AFM-on-device 的表现情况则都较为一般。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

写作能力分两块,一块是摘要总结,一块是长作文。其中,AFM 模型主要在摘要总结上表现较好,在端侧的表现优于 Mistral-7B、Gemma-7B、Phi-3-mini 与 Gemma-2B,在私有云上则优于 GPT-4、Mixtral-8x22B、DBRX Instruct 与 GPT-3.5:

苹果大模型最新论文:AFM 模型多维度评测「出炉」

数学能力上,苹果 AFM 模型的表现则一般,仅在端侧 MATH 基准上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 与 Mistral-7B,GSM8k 是 8-shot、MATH 是 4-shot:

苹果大模型最新论文:AFM 模型多维度评测「出炉」

负责任的 AI

在文本摘要总结功能中,苹果团队将 AFM 模型在邮件、信息与通知这三个应用上作了测试,分别从 5 个维度(仇恨言论、歧视、违法、色情、暴力)来评估模型的“好”与“差”。研究显示,苹果的 AFM 模型在“好”维度的表现均高于 Gemma-7B、Phi-3-8B 与 Llama-3-8B:

苹果大模型最新论文:AFM 模型多维度评测「出炉」

保障性评测

在有害输出上,苹果 AFM-on-device 的得分为 7.5%、AFM-server 的得分为 6.3%,得分越低、效果越好,远远高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B(其余得分均在 10% 以上):

苹果大模型最新论文:AFM 模型多维度评测「出炉」

在保障提示词上,人类评估,苹果的 AFM-on-device 模型表现优于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B,AFM-server 模型的表现也要远超 GPT-3.5、GPT-4 和 Llama-3-70B:雷峰网(公众号:雷峰网)雷峰网

苹果大模型最新论文:AFM 模型多维度评测「出炉」

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

阅读全文
相关推荐

阻挠推搡昆明台记者采访,涉事人被行政拘留10日

阻挠推搡昆明台记者采访,涉事人被行政拘留10日
针对网传“昆明广播电视台记者采访被打受伤”一事,昆明市新闻工作者协会高度重视,第一时间了解核查相关情况,现通报如下。8月18日下午,昆明市民吉先生通过昆明市融媒体中心“8099999”微信公众号后台留 ...

87版西游记如来佛扮演者去世

87版西游记如来佛扮演者去世
8月3日,演员朱龙广家属发布讣告,演员朱龙广因病医治无效,于2025年8月2日在北京逝世,享年86岁。据悉,朱龙广曾塑造《地道战》高传宝、87版《西游记》如来佛、《武林外传》佟掌柜父亲佟伯达等经典角色 ...

接受采访时女记者给其撑伞,孙兴慜在韩国国内引发网友热议

接受采访时女记者给其撑伞,孙兴慜在韩国国内引发网友热议
在热刺与纽卡的比赛后,孙兴慜在接受采访时由一名女记者打伞,此举在韩国国内引发网友热议。据现场照片显示,孙兴慜在场边接受采访时由一名女记者帮其撑着伞,此举引发韩国国内网友的不满。不过据另外一张照片显示, ...

赵露思怒斥经纪公司:“你震惊什么?意外什么?”

赵露思怒斥经纪公司:“你震惊什么?意外什么?”
来源:都市快报8月3日,赵露思经纪公司银河酷娱传媒发布正式声明:昨日获悉赵露思女士所发表的微博内容,我司深感震惊和突然。但鉴于我司始终重视赵露思女士的意见及双方间的友好合作关系,亦为回应各方的关注和猜 ...

WRC 观察丨VLA 能带来融资,但不能带来收入

WRC 观察丨VLA 能带来融资,但不能带来收入
“具身智能公司招聘的销售岗,比去年增长了近两倍。”2025年WRC比之往年更加人潮汹涌。这个风口上的行业透出的一隙金光吸引了无数“掘金者”——闻风而至的不止有机器人公司,还有行业猎头。有关具身智能量产 ...

赵露思手撕银河酷娱,95后“顶流”与经纪公司的“情绪战”?

赵露思手撕银河酷娱,95后“顶流”与经纪公司的“情绪战”?
作者| Mia编辑| 赤木瓶子“不用你们封杀我,我不干了!”7月8日,网友发现赵露思社交平台主页的“银河酷娱MCN”认证标识消失。上周六晚八点半,赵露思选择手撕自己的经纪公司银河酷娱,控诉公司“多宗罪 ...

美国中东问题特使飞抵莫斯科,“不排除会见普京”

美国中东问题特使飞抵莫斯科,“不排除会见普京”
当地时间8月6日,塔斯社援引消息人士报道称,美国中东问题特使威特科夫已飞抵莫斯科。消息人士还透露称,俄罗斯直接投资基金总裁、俄总统特使德米特里耶夫在莫斯科机场迎接。报道指出,这是威特科夫今年第五次访问 ...

改过年龄、当过县委书记,刘生胜被查

改过年龄、当过县委书记,刘生胜被查
来源:中国新闻周刊据陕西省纪委监委8月5日消息:陕西省广播电视局原副局长刘生胜涉嫌严重违纪违法,目前正接受陕西省纪委监委纪律审查和监察调查。刘生胜资料图)刘生胜曾改过年龄。公开简历显示,刘生胜是陕西榆 ...

俄副总理:俄方有向印度出口液化天然气的潜力

俄副总理:俄方有向印度出口液化天然气的潜力
当地时间8月20日,总台记者获悉, 俄罗斯第一副总理曼图罗夫在俄印政府间委员会会议上表示,俄罗斯持续向印度供应石油、煤炭及石油产物,并看到俄罗斯液化天然气的出口潜力。曼图罗夫指出,除直接供应外,双方还 ...

与虞书欣解约?华策影视这样回应

与虞书欣解约?华策影视这样回应
第三方数据显示,虞书欣视频平台账号近30日涨粉7.14万投资时间网、标点财经快讯近日,华策回应与虞书欣解约表示:华策影视与虞书欣的合约已于2024年底自然到期,双方选择不再续签,不存在“解约纠纷”,仅 ...

中国海警舰艇编队8月5日在我钓鱼岛领海巡航

中国海警舰艇编队8月5日在我钓鱼岛领海巡航
8月5日,中国海警2305舰艇编队在我钓鱼岛领海内巡航。这是中国海警依法开展的维权巡航活动。 ...

“男子杀害7个月大侄女案”开庭审理,嫌犯当庭认罪

“男子杀害7个月大侄女案”开庭审理,嫌犯当庭认罪
8月6日上午,“男子杀害7个月大的侄女案”在广东省惠州市中级人民法院开庭审理。被害女婴父亲冷夏化名)告诉新京报记者,庭审中哥哥冷某敏当庭认罪。据冷某敏讲述,案发当晚,他想去抱哭闹的小侄女,被母亲“嫌弃 ...
返回顶部