搜索
当前所在位置:首页 >> 乐讯

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

发布时间:2025-09-10 03:48:06 作者:v 点击:2 【 字体:

2025 年 1 月 20 日 Kimi k1.5 正式发布,推特伴随着工艺报告的热帖公布,有网友表示:“这应该是因为艺全球范围内,除 OpenAI 之外的作团公司首次实现 o1 正式版的多模态推理性能了吧!”

一时间,项工Kimi k1.5 成了话题王者。推特天津师范大学门事件推荐

但在一个月后的热帖 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的因为艺工艺爆料帖,博主直言 k1.5 所用到的作团强化学习运算规则,其实是项工借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的工艺。

消息一出,推特瞬间吸引了数万人关注。热帖

推特热帖:k1.5 很牛,因为艺因为借鉴了 UCLA 与 CMU 合作团队的作团这项工艺

Kimi k1.5 背后的 SPPO 工艺

在这则爆料中,博主 Yue Wu 先是项工对 SPPO 进行了简单解释,并且附上了相关论文(https://arxiv.org/abs/2405.00675),简单来说,SPPO是一种自博弈运算规则,最初的动机来源于刻画广泛意义上的人类偏好,并且使用了如下图所示的平方损失函数:

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的<strong>广州学院偷拍视频地址</strong>这项工艺

值得一提的是,点开论文链接,你会发现原来 Yue Wu  和 Zhiqing Sun 同为这篇文章的第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

紧接着,他开始对 SPPO 工艺进行解析:

通过迭代求解上式中的 theta_t,我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率(红色部分)作为奖励,并用常数近似基线(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

让我们感兴趣的是,我们发现它与 RLHF 目标的策略梯度有着深层的联系:如果我们直接用普通的策略梯度优化 RLHF (人类反馈强化学习)目标会怎样?根据策略梯度定理,策略梯度实际上也具有平方损失形式(蓝色项是策略梯度中的基线):

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

从数学上,我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体:

SPPO 中的胜率充当奖励函数(红色部分)。

分区函数项自然地成为(软)值函数(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

那么这到底意味着什么呢?

标准策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循当前策略的样本。

SPPO 在每次迭代开始时只采样一次,然后通过平方损失进行优化。

这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成!

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

上述分析揭示了大型语言模型(LLM)后训练阶段一个有趣的增长趋势:

离线 DPO(IPO、KTO 等)取代 RLHF(奖励模型 + 强化学习)

迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法

更加精细的迭代 → 回归到在线强化学习

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

鉴于 GRPO(Deepseek-R1)和平方损失(Kimi k1.5)的成功,端到端强化学习的强大作用愈发凸显,或许在大型语言模型(LLM)后训练阶段无需额外技巧——价值函数、广义优势估计(GAE),甚至梯度裁剪都无需使用。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

另一个简单但有趣的发现是,他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

在我们后续的研究 GPO 中,我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度,但它是以迭代的方式进行的。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

SPPO 工艺背后的科研大牛

除了提出助力 Kimi k1.5 大获成功的 SPPO 工艺外,Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授,博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授,目前以博士后研究员的身份在普林斯顿大学机器智能实验室继续着自己的科研之路。推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

除此之外,2023 年至今他一共参与发布了 9 篇 Paper,其中 3 篇均为第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

强大的学术背景之外,Wu Yue 的实习经历也非常加分。2022 年至 2024 年,他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间,Wu Yue 从事个性化联邦学习研究,并开发了一种基于混合模型的方法,该方法被 ICML 2023 接受发表;在字节美国 AI lab 时,他专注于药品发现领域的多构象生成,将分子动力学的物理先验纳入基于扩散的生成模型,相关成果被 ICML 2024 接受;来到 Meta 后,Wu Yue 又致力于词汇级别奖励建模和新架构设计,用于一般人类偏好和一般偏好优化,为生成式机器智能的增长做出了贡献。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺雷峰网(公众号:雷峰网)还了解到,与他同为第一作者的 Zhiqing Sun ,目前已经从 CMU 毕业,并在今年 2 月加入 OpenAI。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

阅读全文
相关推荐

美联储首次回应特朗普解雇理事库克:将尊重司法裁决

美联储首次回应特朗普解雇理事库克:将尊重司法裁决
当地时间26日,美联储发言人就美国总统特朗普解雇美联储理事丽莎·库克一事发表声明。声明称,国会通过《联邦储备法》规定,理事的任期为长期固定,总统只有在“有正当理由”的情况下才能将其免职。理事的长期任期 ...

有消息称俄美总统将会晤,外交部回应

有消息称俄美总统将会晤,外交部回应
人民财讯7月29日电,7月29日,外交部发言人郭嘉昆主持例行记者会。有外媒记者提问,有俄罗斯消息人士援引克里姆林宫发言人的话称,美国总统特朗普可能将在出席二战胜利纪念日阅兵活动期间与俄总统普京会晤。对 ...

气象部门:预计当前至今晚8时,北京降雨持续

气象部门:预计当前至今晚8时,北京降雨持续
新京报讯记者王景曦)7月28日夜间,北京出现强降雨,大部分地区达到暴雨量级,房山、大兴、顺义、海淀、朝阳、怀柔的部分地区出现大暴雨。据北京市气象台发布,7月28日20时至29日9时,全市平均降水量70 ...

坚守与希望:直击北京密云怀柔灾情一线

坚守与希望:直击北京密云怀柔灾情一线
近日,北京密云、怀柔等区遭遇极端强对流天气,连续强降雨造成重大灾害,现场图片直击灾情一线,记录下灾情中的坚守与希望。7月28日,北京密云区,航拍视角显示,台师屯村的居民楼在暴雨后被淹。视觉中国 图7月 ...

女子在麦当劳打骂工作人员,称“认识大把警察”?警方通报

女子在麦当劳打骂工作人员,称“认识大把警察”?警方通报
8月19日晚,广东惠州一家麦当劳内发生一起争执事件。8月21日,惠州市公安局惠城分局就此事发布警情通报:8月19日20时许,惠州110接群众报警称,在江北街道某餐厅内有一女子闹事。接报后,我局立即出警 ...

机构修正俄堪察加半岛地震震级为8.7级

机构修正俄堪察加半岛地震震级为8.7级
来源:金十数据金十数据7月30日讯,包括美国地质勘探局、日本气象厅及欧洲地中海地震中心等多个机构将俄罗斯堪察加半岛附近海域的地震震级修正为8.7级。点击进入专题:堪察加东岸远海发生强烈地震 ...

阿雅,成了专栏作家!

阿雅,成了专栏作家!
出走“S姐妹团”后的阿雅,活得越来越好了!继主持人、歌手、制片人之后,阿雅又有了新的身份——《世界时装之苑ELLE》的专栏作家。阿雅的人生,真正践行着“时间是艺术品”。在ELLE上,她写道:“如果失去 ...

泰国陆军指责柬埔寨违反停火协议 柬方暂无回应

泰国陆军指责柬埔寨违反停火协议 柬方暂无回应
29日,泰国陆军指责柬埔寨方面违反停火协议。柬方暂无回应。总台记者 宋焕钰)此前报道会谈不到3小时,泰柬为何能迅速达成停火这是7月28日在马来西亚总理官邸拍摄的泰柬两国边境局势特别会议现场。新华社发马 ...

星星眼要跟美瞳小花再婚了

星星眼要跟美瞳小花再婚了
喜剧校草在外有花花肠子,妻子危机感是有的。她跟夫家的人处得不算很好,可是生了孩子之后,公婆对她态度有所好转,只有大姑子会给她脸色看。她在家忙着生孩子,可对喜剧校草的防备一点没少,私下还报班学了财务,狠 ...

阿雅,成了专栏作家!

阿雅,成了专栏作家!
出走“S姐妹团”后的阿雅,活得越来越好了!继主持人、歌手、制片人之后,阿雅又有了新的身份——《世界时装之苑ELLE》的专栏作家。阿雅的人生,真正践行着“时间是艺术品”。在ELLE上,她写道:“如果失去 ...

美国内华达州一起枪击事件造成3死3伤

美国内华达州一起枪击事件造成3死3伤
美国内华达州警方28日证实,一名枪手当天早晨在里诺市朝人群开火,造成3人死亡、3人受伤。警方官员在新闻发布会上说,枪击发生在当地一家大型综合度假酒店及赌场门外。一名男性嫌疑人在到达代客泊车区时掏枪行凶 ...

北京暴雨有多大?4天下了近1年的雨

北京暴雨有多大?4天下了近1年的雨
又是一夜大雨,从7月28日夜间到29日早晨9点,北京市平均降水量70.1毫米,最大降水量出现在房山阎村195.4毫米。景区全部关闭,今年首个暴雨红色预警,密云水库泄洪……北京这轮降水有多强?受副热带高 ...
返回顶部