搜索
当前所在位置:首页 >> 今日吃瓜

彩云科技DCFormer模型架构发布,效率是Transformer的两倍!

发布时间:2025-09-08 23:00:24 作者:qrca 点击:633 【 字体:

自2017年Transformer架构诞生之后,科技到现在为止其仍然是模型机器智能领域研究和应用的基础,鲜少有团队能够在最底层架构上进行一些变革和开发且做出较大的架构成效。一方面是发布由于Transformer确实好用;另一方面,在最底层上做突破并非易事。效率

然而,两倍广州中学实拍全集彩云科技是科技那个反共识者。2024年5月22日,模型彩云科技发布了全新通用模型结构DCFormer,架构其相关论文《Improving Transformers with Dynamically Composable Multi-Head Attention 》(https://arxiv.org/abs/2405.08553)将在第41届国际机器学习大会ICML 2024正式发表。发布

在论文中,效率彩云科技实验证明了在三千亿级训练信息和70亿级模型参数量下,两倍DCFormer效率是科技Transformer的两倍。据一位评委透露,模型今年录用论文的架构平均分为4.25-6.33,而彩云科技团队的论文获得平均7分的高分。

ICML是南京中学泄露推荐国际机器学习领域的顶级会议,能够发表论文的中国初创企业屈指可数。彩云科技证实,其大模型结构DCFormer可以达到1.7~2倍算力的Transformer模型的效果,即算力智能转化率提升了1.7~2倍。在众多NLP下游任务和图像识别任务上的测评也验证了DCFormer的有效性(详见论文表格)。

DCFormer对性能算力比的提升幅度超过自2017年Transformer诞生至今被证明最普适有效并被广泛采用的两项结构改进的提升幅度之和(同时应用这两项改进的Transformer架构也叫Transformer++,如Llama)。而且随着模型规模的增大,DCFormer的提升越来越大(左图下的蓝线和绿线),而Transformer++的提升越来越小(左图下的黑线)。可以说,DCFormer让Transformer的能力又跃上一个新台阶。

彩云科技DCFormer模型架构发布,效率是Transformer的两倍! 

 彩云科技DCFormer模型架构发布,效率是Transformer的两倍!

彩云科技CEO袁行远说:"如果底层模型没有突破,机器智能的进步终将停滞不前。人人都说神经网络是个黑盒,我们需要勇气和耐心打开这个黑盒,通过分析模型运转原理,我们才能知道智能的本质规律,从而可以改进模型,提高模型的运行效率。"雷峰网雷峰网(公众号:雷峰网)雷峰网

通用大模型DCFormer将Transformer效率提升了两倍,这意味着什么?袁行远解释说:"如果 GPT-4o 能够用上DCFormer,推理一次128k上文的成本,就可能从4元变成2元。而且DCFormer 模型越大,效果越好,考虑到ChatGPT的巨大参数量,DCFormer可能在千亿、万亿模型上效果更好,因此价格甚至可能下降到1.5元、1元。Meta的100亿美元显卡训练的模型,可能50亿美元就能够用。"解开智能的科学的奥秘,实现通用机器智能——这是彩云科技10年以来孜孜不倦追求的目标。基于此,彩云科技在Github上开源了DCFormer的模型代码、权重和训练信息集(https://github.com/Caiyun-AI/DCFormer),将该模型开源给全世界。

未来彩云科技会将全新大模型DCFormer应用于旗下三款杀手级app,并将进一步增长彩云小梦,加速提升AI续写能力。袁行远说,"AI交互是前所未有的交互形式,也因此让我们有机会在AI的帮助下,建立每个人自己的'次元宇宙',而DCFormer大模型将加快这一进程。我们希望能够通过彩云小梦,帮助更多人实现现实生活中无法实现的梦想。"


雷峰网版权文章,未经授权禁止转载。详情见转载须知。

彩云科技DCFormer模型架构发布,效率是Transformer的两倍!

阅读全文
相关推荐

WAIC最强亮点:非Transformer离线AI大模型已大规模量产,大模型商业比我们想得更快

WAIC最强亮点:非Transformer离线AI大模型已大规模量产,大模型商业比我们想得更快
Rock是石头,石头是这个世界最基本的组成元素,坚硬、基础、随处可见。RockAI希望成为智能世界的石头。01离线智能据AI科技评论了解,在发布的18个月里,已经有量产设备搭载了Yan的大模型能力,这 ...

具身智能的“Z 世代”,来了

具身智能的“Z 世代”,来了
年初,DeepSeek闪亮登上大模型的银幕,镁光灯下,观众看到了一群年轻的身影。少年浩气展虹霓,日新月异的AI时代,年轻人悄然撑起了半边天。大模型的新浪潮已翩然而至,具身智能的新浪潮还有多远?我们与三 ...

天津通报21岁男子醉驾致5伤

天津通报21岁男子醉驾致5伤
【#天津通报21岁男子醉驾致5伤#】2025年7月10日5时40分许,在天津大道下行7.9公里处发生一起交通事故,1辆小客车与前方同向骑行的5辆自行车发生碰撞。接报警后,公安、卫健等部门迅速赶到现场, ...

2024 WAIC「全球创新项目路演」征集!最高可获千万算力补贴

2024 WAIC「全球创新项目路演」征集!最高可获千万算力补贴
新一代人工智能正在全球范围内蓬勃兴起,为经济社会发展注入了新动能,我国正以开放的胸襟拥抱 AI,上海更以包容的氛围滋养 AI,持续打造更加融通开放的生态、更加活跃的创新集群、更加泛在的超级场景、更加安 ...

电影中的抗战——华中根据地新四军铁骨战强敌

电影中的抗战——华中根据地新四军铁骨战强敌
全连82人全部壮烈殉国!1943年,为抵抗日伪军的扫荡,新四军的一个连队在苏北抗日根据地的刘老庄浴血奋战,全连82名勇士全部壮烈殉国。今天我们就结合《刘老庄八十二壮士》这部电影,回顾新四军战史上这场极 ...

试用期刚过半年,黄裕东任上被查

试用期刚过半年,黄裕东任上被查
来源:北京青年报7月11日,据中央纪委国家监委驻水利部纪检监察组、湖北省纪委监委消息:水利部长江水利委员会汉江集团党委副书记、总经理黄裕东涉嫌严重违纪违法,目前正接受中央纪委国家监委驻水利部纪检监察组 ...

王晶曝成龙被同一个粉丝扇了3次耳光,曝刘德华粉丝父亲跳海自尽

王晶曝成龙被同一个粉丝扇了3次耳光,曝刘德华粉丝父亲跳海自尽
7月10日凌晨,王晶和成龙的名字登上了热搜,引发网友热议。这一次他们之所以登上热搜,是因为王晶在最新录制的一期视频中爆料了成龙的一段往事。翻看王晶的这条视频可知,他这期视频的主题是为什么大牌明星都会隐 ...

马方称中国将签署《东南亚无核武器区条约》议定书,外交部回应

马方称中国将签署《东南亚无核武器区条约》议定书,外交部回应
在7月10日外交部例行记者会上,有记者提问称,马来西亚媒体援引马来西亚外交部长的话说,只要所有的文件准备就绪,中国将签署《东南亚无核武器区条约》议定书。请问中方预计何时签署?毛宁 资料图外交部网站)对 ...

资本明牌撑腰?黄杨钿甜争议中复出试探舆论风向

资本明牌撑腰?黄杨钿甜争议中复出试探舆论风向
作者 | 十三妹沉寂了近两个月的,突然杀回了公众视野。有网友发现,黄杨钿甜现身横店,为其新剧《冰湖重生》补拍戏份。从现场视频可以发现,黄小姐全程口罩遮面、低头疾行,身边工作人员簇拥护航。大量粉丝围堵片 ...

河北首衡集团涉嫌利用员工骗贷10亿元

河北首衡集团涉嫌利用员工骗贷10亿元
来源:经济参考网6月24日,《经济参考报》刊发《首衡农批市场“圈地模式”遭质疑》一文,揭露河北首衡集团有限公司以下简称“首衡集团”)短时间内依靠融资建成的多家农批市场,经营状况欠佳,收入无法覆盖经营成 ...

清华大学博士生涂锋斌:设计神经网络硬件架构时,我们在思考些什么?(上)

清华大学博士生涂锋斌:设计神经网络硬件架构时,我们在思考些什么?(上)
基于神经网络的人工智能近年取得了突破性进展,正在深刻改变人类的生产和生活方式,是世界各国争相发展的战略制高点。神经网络作为实现人工智能任务的有效算法之一,已经在各种应用场景获得广泛的应用。从云端到移动 ...

韩国女星嫁性犯罪者!婚前约定丁克,婚后试管还想生二胎?

韩国女星嫁性犯罪者!婚前约定丁克,婚后试管还想生二胎?
正文开始啊,她原本想丁克啊……本月9日,韩国歌手兼演员孙淡妃在油管节目《炯秀是K.Will》中透露自己本没有生育计划。节目中孙淡妃自爆与丈夫李奎赫结婚时原本打算做丁克族。她称:“原本计划丁克,丈夫比我 ...
返回顶部