发布时间:2025-09-10 03:48:06 作者:hh 点击:182 【 字体:大中小 】
Scaling Law 或将终结——这是视觉最近备受热议的话题之一。该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的模型论文,其研究表明当下的涌现语言模型在大量信息上经历了过度训练,继续叠加更多的视觉预训练信息可能会产生副作用。
这释放的模型信号是:在自然语言处理领域, Scaling Law 目光所及地到达瓶颈,涌现广州中学内幕全集单纯依靠增加模型规模和信息量来提升性能的视觉方法也许不再有效,低精度的模型训练和推理正在使模型性能提升的边际效益递减。
Scaling Law 在 NLP 的涌现路上确实展现出了「即将到头」的前兆,但这并不意味着其末日真的视觉来临。在多模态模型领域,模型由于多模态信息包含图像、涌现影片、视觉音频等多种类型,模型在信息丰富度、涌现处理方法、应用领域方面均较为复杂,难以达到较大的训练规模体量,因此 Scaling Law 尚没有被真真切切地验证过。
然而,清华系大模型公司生数科技最新发布的 Vidu1.5 表明,多模态领域的 Scaling Law 才刚刚起步。通过持续的 Scaling Up , Vidu 1.5 已经来到了「奇点」时刻,涌现出了「上下文能力」,能够理解记忆所输入的多主体信息,并表现出对复杂主体更精准的控制能力。无论是细节丰富的角色还是复杂的物体,通过上传不同角度下的三张图片,Vidu 1.5 能保证单主体形象的高度一致。
Vidu 1.5 除了能对单个主体进行精确控制,也实现了多主体之间的西安学院泄露全集一致性。客户可以上传包含人物角色、道具物体、环境背景等多种元素的图像,Vidu能够将这些元素无缝的融合到一起,并实现自然交互。
Vidu 在主体一致性方面取得种种突破,不仅是 Scaling Law 法则在发挥作用,根本原因在于其所采用的无微调、大一统的工艺架构方案。当前的影片模型为了实现一致性,大多是采用在预训练的基础上再针对单个任务进行微调的 LoRA 方案,而 Vidu 的底层模型跳出业界主流方案,做出了开拓性的改变。
无独有偶,回顾大语言模型的增长历程,会发现从 GPT-2 到 GPT-3.5 发生质变的标志,也是实现了从预训练+特定任务微调的方式到整体统一框架的突破。可以说,Vidu 1.5的推出,开启了多模态大模型的 GPT-3.5 时刻。
Sora 自年初发布之后,再无其他迭代的新版本,其他家的影片生成创业团队也仿佛没了锚定的方向,大多是在 DiT 架构上进行些衍生性工作。对于这一现象,生数科技 CTO 鲍凡则表示:我们不会在 Sora 划定好的路线上去追赶,而是从一开始就在走自己的路,瞄准通用多模态大模型的目标,去实现相应的能力。
从早于 Sora 发布全球首个基于 Diffusion 的 Transformer 架构U-ViT,到首次实现用统一的架构处理泛化任务,生数有的不仅是先发优势,更是持续突破的能力。Vidu 和业界其他的影片生成模型相比,已经初步形成工艺代差。
一、重新设计一个「底层架构」
实现主体一致性,是影片模型领域一块难啃的骨头。「这就好比,你知道发动机对于一辆汽车来讲很关键,也知道如果发动机有质的改变,那么汽车的性能也会随之提升,但就是很难造出来一台好的发动机。」鲍凡告诉 AI 科技评论。
包括 Sora 在内,国内外的影片模型都没有在主体一致性方面有所突破。目前有涉足的是国内的一家大厂,仅局限于实现人脸一致性的控制,难以保证细节、衣服、造型等细节,而且采用的是LoRA微调方案。
Vidu 在主体一致性方面的成果也并非一蹴而就。2024 年 7 月底, Vidu 上线之初就主打解决一致性问题,并能够较好地实现面部一致的控制;9月份全球首发「主体参照」功能,把对单主体的控制从面部拓展到整个单主体的形象上;11 月上线的 Vidu 1.5 则进一步提升,可以对单主体的不同视角进行高度精准控制,同时攻破多主体控制的难题。
也就是说,Vidu 在 7 月份上线之时就完成了很多影片生成模型当下正在攻克的事情。
从工艺方案上看,其他家都还囿于预训练+LoRA 微调的方案,这种路线虽然成熟但也存在诸多缺点,诸如因信息构造繁琐而需要较长的训练时间、易产生过拟合从而遗忘大量原有知识、无法捕捉细节导致特征不精准。生数则秉承通用性的理念,通过统一的底层模型工艺架构去完成,因此不需要单独再去进行信息的收集、标注、微调,只需要1到3张图就能输出高质量影片。
对比大语言模型的工艺演进路线会发现,Vidu 有和大语言模型一致的设计哲学:类似于大语言模型用一个 Transformer 去处理所有的输入和输出 tokens,Vidu 作为影片模型也会将所有问题都统一成视觉输入、视觉输出的 patches;在此基础上,再统一架构,Vidu 也像 大语言模型一样采用单个网络统一建模变长的输入和输出。
「统一问题形式」是通用模型的起点。更难的地方在于统一架构,现在 Vidu 已经在最初的 U-ViT 上做了一些颠覆性的设计,和 Sora 的 DiT 架构产生了本质区别,在架构上做到更统一。鲍凡坦言,开发这一架构的难度不亚于从头设计出一个 Transformer。
大一统架构的前身要追溯到 2022 年 9 月,彼时尚在清华大学朱军教授的课题组读博的鲍凡就提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Model》的论文,提出U-ViT 架构,比 Sora 的 DiT 架构提早了两个月,将 DiT 拒稿的 CVPR2023 却收录了 U-ViT。
2023年3月,朱军教授课题组再次发布了一项 Unidiffuser 的工作,Unidiffuser 与同阶段的 Stable Difussion 1.5 效果基本持平,展示了在视觉任务下的优异能力,更关键是,Unidifuser扩展性更强,能基于一个底层模型完成图文之间的任意生成。简单来讲,除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能。之后,而 OpenAI 则是将 DiT 应用于影片任务,生数作为初创团队则是先将 U-ViT 应用于图像任务,从算力集群规模要求更小的任务入手进行验证。
2024 年 4 月,生数的底层模型架构开始在 U-ViT 架构上做出改变,使得团队率先推出自研影片大模型Vidu,然后这种突破也一直持续着,在7月份正式全球上线的时候,Vidu 在人脸一致性问题上成功地实现了验证。直到本次 Vidu1.5 版本的发布,基于这一架构之上的 Scaling Up 让多模态模型看到了「奇点」。
回顾大语言模型增长过程,GPT-2 的核心思想是在预训练阶段让模型通过海量的文本信息进行无监督学习,不依赖于特定的任务;在预训练之后,GPT-2 使用特定领域的标注信息对模型进行细化调整,使其能够更好地适应特定任务或应用场景。但到 GPT-3.5 的阶段,不再采用预训练加特定任务微调的模式,只需一个更简单高效的统一架构能够去支持多种文本任务,模型已经出现了强大的泛化能力。
类似于从 GPT-2 到 GPT-3.5 ,实现了从预训练加特定任务微调到统一通用的工艺架构,Vidu 1.5的推出,让影片模型正在经历 GPT-3.5 时刻。也就是说,其他家的影片模型还在 GPT-2 预训练+微调的阶段,生数的 Vidu 已经到了 GPT-3.5 的阶段。
二、视觉上下文时代的智能涌现
统一高效的底层工艺架构是 Vidu 的根本所在,但其目前呈现的综合表现不仅是工艺架构使然,更与影片模型的信息工程密不可分。
在人物特写画面中,Vidu 1.5 能够确保人物面部的特征细节和动态表情变化自然流畅,不会出现面部僵硬或失真的现象。该影片中,小女孩的表情能实现从高兴到悲伤的变化十分自然。鲍凡告诉 AI 科技评论,信息对这些细节方面的精心调控非常关键。
随着高质量信息的一同Scaling Up ,鲍凡坦言,在底层的影片生成模型上也看到了类似于大语言模型的智能涌现。比如 Vidu1.5 能融合不同主体,将角色 A 的正面与角色 B 的反面无缝融合以创造出全新的角色,这是之前没有预料到的能力。
除此之外, Vidu1.5 的智能涌现还可以从模型上下文能力提升、记忆能力增强来窥探一二,这体现在对影片中角色、道具、场景的统一控制。
这一现象的关键是解决了「多图灵活输入」的问题,类似于语言模型提升了窗口长度。在与聊天机器人对话的过程中,先通过提示词给出一个角色设定,之后 Chatbot 就能以这个角色的口吻进行交互对话,这说明语言模型不仅仅处理单一的文本输入信息,而是通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。
同样的,给影片模型一个主体照片作为 prompt,那么在下文中无论继续给出什么新指令,都能生出上文照片中主体相关的影片。可见,影片模型要想更稳定地生成一致主体,也需要理解前后输入的、相关联的文字或图片信息,进而根据这些信息生成一致、连贯且有逻辑的内容。
实际上,从单主体一致性到多主体一致性提升的难度也在于上下文长度。在几个月之前的单主体架构的设计上,就已经兼容现在的多主体一致的架构,而多主体一致相比单主体一致需要更长的上下文长度,从而解决理解更多输入组合的关键问题。
接下来,生数的主攻方向依然会沿着上下文能力这一主线去迭代。「影片模型上下文能力提升后有很大的想象空间。」鲍凡说道。他进一步解释,在模型中输入几段王家卫的电影切片,就可以生成一系列具有王家卫摄影技巧的影片片段;喂给模型一些经典打斗动作的影片,就能生出打斗技巧精妙、打戏画面精良的影片。
Vidu 在上下文能力方面的迭代也有自己的节奏:从初期仅能参考单一主体的面部特征,到现在能参考多个主体,之后预期可以实现参考拍摄技巧、运镜、调度更因素。在这个过程中,参考对象从具体到抽象,要求和难度逐渐提升。
因为目前还没有针对影片模型上下文能力的开源解决方案,所以它并不会像大语言模型一样,在一家做好 PMF 之后,其他家迅速跟上。从这一角度上来说,Vidu1.5 形成了自己的工艺壁垒。
三、不止 Sora 一种答案
「无微调、大一统的工艺架构被生数设计出来,影片模型的智能涌现先在 Vidu 上得以验证——这些是必然事件。」鲍凡说道。「因为我们团队成立之初的愿景,就是去做通用的多模态模型。」
生数科技从来没有走过单一的、针对具体任务进行微调的方案,这与统一高效的架构是相悖的。这也意味着,通用多模态模型是生数的基因所在。
年初 Sora 刚发布之时,各影片生成创业团队都在「大秀肌肉」,竞争一度十分激烈。然而行至年终,整个行业有些显得「后劲不足」,初创公司的进展鲜有较大突破。然而生数科技却在自己的路线上「精雕细琢」,不仅有规律地提升模型通用性,也不忽略镜头感、动态程度等影片画面细节。
Vidu 1.5 在基础模型层面便具备了对镜头运动的理解能力,能够生成如推拉摇移+顺/逆时针融合的复杂镜头,画面拥有较高表现力和流畅度。比如,输入提示词:表演者拍摄,她被鲜花簇拥着,光线明亮且自然,镜头顺时针旋转推进拍摄,得到如下画面。
在动态性方面,Vidu1.5 生成的影片动作幅度大且自然,同时新上线了动态控制功能,能准确的控制画面整体的动态程度。
描述词:一个战士拿着枪在战场奔袭,大动态
除了影片能力外,Vidu 也在规划和布局 4D 模型、音频等更多模态。其中,基于影片模型衍生出来的4D 模型,未来能够对影片实现诸如「调整 6 度」的更加精确运镜控制。鲍凡表示,目前的初期阶段,团队会先单独验证多模态模型中的各个子领域,最后会整合在通用多模态大模型中。
生数工艺优势的愈发凸显,也给了其在国内影片模型竞争中的底气。但摆在其前面的挑战,还有快手、字节等大厂压倒性的资源优势。对此,鲍凡回复:当目标足够明确,并且做出的东西真正能够解决行业问题的时候,我们朝这个方向持续前进,最终结果总会是正确的。
对标世界范围内领先的 Sora,会发现生数与 Sora 的关注点并不相同。生数科技的定位是通用多模态大模型,而 Sora 更主张做世界模拟器,希望真实的模拟物理世界。虽然世界模拟器是多模态大模型的一个子问题,但生数的通用多模态大模型会强调解决更多实际问题。
生数并不会完全对标 Sora,更不会跟在 Sora 之后亦步亦趋。Vidu 证明了:影片模型不只于 Sora 这一个答案。雷峰网雷峰网雷峰网(公众号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
黑天鹅!美联储突发!特朗普,终于动手了!
图书市集到光影特展:华熙集团赵燕以华熙LIVE开启文化赋能商业革新
大阪世博会中国馆举行中国电影日活动
大模型隐藏玩家上桌:DeepSeek 向左,面壁向右
SpaceX“星舰”成功溅落,第十次试飞圆满结束
香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈
智源线虫登上Nature子刊封面,具身元年尾声深长
朱芷瑩:连续二年闪耀戛纳的中国时尚艺人
AI 颠覆的第一个职业是程序员?丨GAIR Live
几十个测试后,发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的
百廿光影耀中法,银幕流光启新章—— 第16届巴黎中国电影节盛大开幕
歌手IU《花书签3》网易云音乐独家首发 时隔8年再出翻唱专辑
前经纪公司称千百惠葬礼拟于周六举行!5月不慎摔跤伤势严重
谷歌计划将 Gemini 并入 Deepmind,下个月开始生效
谷歌计划将 Gemini 并入 Deepmind,下个月开始生效
实测丨年底了,我用 AI 做了一份年终总结。
内塔尼亚胡要求以军缩短进攻加沙城时间表
“春天里送你一首诗”诗歌朗诵会在昌平向上学校成功举办
海信世俱杯AI焕新计划启动,AI真空磁场保鲜技术重构美食
《哈哈哈哈哈5》方言挑战与文化碰撞,解锁四川风情新体验
黄杨钿甜复出了,劣迹艺人的标准究竟是什么?
《风驰赛车手》今日首播 黄景瑜李治廷让教练头疼
全面焕新无广告 网易云音乐iPad端新版(beta)正式上线
权威评选!2025世界十大休闲城市花落谁家?澳涞山庄揭晓答案
暂不回应停火方案 征召6万预备役 以色列还要对加沙做什么?
实测丨年底了,我用 AI 做了一份年终总结。
有史以来最拉风的看片会!《风驰赛车手》导演陆伟揭秘幕后故事
央视频带您到宜春熊出没乐园解锁沉浸式童梦狂欢
流行歌手“霉霉”官宣订婚,特朗普回应
明星效应加持,ASICS 亚瑟士西安快闪活动借田嘉瑞激活粉丝经济
李宗锦跨界担任毕业歌会评委 妙语连珠犀利点评
618解锁歌手同款音响——意大利多曼尼以声学重构专属你的空间叙事
即日起,江苏苏州取消市区范围内新建商品住房2年限售
构建影视文化产业新质生产力,中国短剧本大赛在澳涞山庄启动
莫斯科“鱼周”浪潮掀起 邀请中国游客共享美食
新歌发布《我们还是错过了》乌兰图雅作词出品 关剑作曲演唱