比 Sora DiT 架构早两个月的 U-聚焦资讯台- 领略话题，感受独特风采

当前所在位置:首页 >> 找番

比 Sora DiT 架构早两个月的 U

发布时间：2025-09-09 08:44:57 作者：dfieq 点击：9 【字体：大中小】

「Sora 出来之后，架构团队就开始连轴转，早两没休息过。个月」这是架构 AI 科技评论了解到的，目前国内诸多 AIGC 创业公司的早两现状。

Sora 的个月空姐与客户见面聊天记录确让世界范围内的创业公司措手不及。随之而来的架构，有一种悲观论调和怀疑态度：创业公司和 OpenAI 拼术是早两否有意义？是否有必要做同样的事情？有多大的生存空间？

诚然，要弥合和 OpenAI 的个月差距并非易事，基于算力、架构投资等前提条件，早两 OpenAI 的个月效果自然不是短期内可以达到，但是架构也不见得到了工艺层的创业公司无路可走的地步。

清华系创业团队生数科技提出的早两工艺路线，和 Sora 在架构路线上完全一致，个月均是提出了将Transformer 与扩散模型融合的思路，在具体的实验路径上也一致。并且，生数科技的 U-ViT 比 OpenAI 的 DiT 早了两个月。

甚至，彼时的 CVPR2023 选择收录了U-ViT，而将 DiT 拒稿。律师下班后被流出合集

目前，生数科技的多模态大模型全链路均自主训练、自主研发，是全球首个将Transformer架构引入扩散模型的骨干网络。在文生图、文生影片、文生3D、图生3D等多项任务中已经初见成效。

近来，也完成了由启明创投领投，达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投的数亿元融资，是目前国内多模态大模型赛道的最高融资额。

生数科技 CEO 唐家渝表示，面对国内多模态大模型的竞争，生数科技会承担引领国内底层工艺创新的角色。

即使在 Sora 的笼罩下，国内的多模态大模型也不无机会。

全栈自研的 MaaS

2023年3月，团队开源了全球首个基于Diffusion Transformer架构（U-ViT）的多模态扩散大模型 UniDiffuser，在参数量和训练信息规模上，与Stable Diffusion直接对齐。在架构上，UniDiffuser 比最近才采用 DiT 架构的 Stable Diffsion 3 领先了一年。

除了单向的文生图以外，Unidiffuser支持更通用的图文任务，能够实现图生文、图文联合生成、图文改写等多种功能。

在统一化架构的思路下，生数科技持续 Scale up。在图文模型的训练中，参数量从最早开源版的1B不断扩展至3B、7B、10B及以上。同时在此基础上，通过拓展空间维度和时间维度，逐步实现 3D 生成与影片生成。同时面向应用层推出了视觉创意设计平台PixWeaver与3D 资产创建工具 VoxCraft。

PixWeaver是一款自动化的视觉创作工具，支持AI生图、AI生影片功能，中英文输入、秒级生成，融合多元风格，具备出色的语义理解和丰富的画面表现。（体验地址：https://pw.shengshu-ai.com/，目前AI影片功能由于新版本迭代暂关闭试用）

在图像生成方面，支持高质量的文生图，在画面联想丰富度、美观性等方面优于业内同类模型。

比 Sora DiT 架构早两个月的 U-ViT，由这家中国 AIGC 公司提出

并且，其语义理解能力尤其突出。

比 Sora DiT 架构早两个月的 U-ViT，由这家中国 AIGC 公司提出

（描述词：公园里的竹林里挂着红色灯笼，旁边盛开着粉红色的梅花，远处是一座亭台楼阁，夕阳洒在蜿蜒的公园小路呈现出温暖的感觉，宝丽来照片风格，真实摄影）

比 Sora DiT 架构早两个月的 U-ViT，由这家中国 AIGC 公司提出

在3D 生成方面，VoxCraft可实现高精度与最快10秒级的模型生成。

比 Sora DiT 架构早两个月的 U-ViT，由这家中国 AIGC 公司提出

并推出全球首个4D动画生成，基于影片和描述词，输出逐帧的运动3D动画，自动绑定骨骼动作，支持360°全景视角。

此外，该模型还可以通过文本对话或手动调参的方式灵活编辑3D场景，包括添加物体、删除物体等，可实时查看变化。

VoxCraft 相较于同类型的3D资产创建的自动化工具，核心优势在于：

精度高：贴图分辨率可达到2048*2048，几何结构的规整度高，色彩与材质质感真实度高；

速度快：在单卡设备上，单个3D模型生成最快可在数分钟内生成；

可用性强：支持Mesh的同步生成，支持高模、低模的定制，可直接对接工业管线；

丰富度高：覆盖资产类型多，通用性强，支持文本或图像引导。

最接近 Sora 工艺架构的中国团队

从工艺架构来看，生数科技是最接近于 Sora 的中国团队。

OpenAI推出的Sora模型，其核心工艺点之一，是将视觉信息转化为Patch的统一表示形式，并通过Transformer和扩散模型结合，展现了卓越的scale特性。无独有偶，最近发布的Stable Diffusion 3采用了同样的架构。

Transformer架构被熟知应用于大语言模型，该架构的优势在于scale特性，参数量越大，效果越好；而在传统视觉任务（图像和影片生成）中，业内普遍采用常规的卷积路线的扩散模型（基于SD开源的思路），该路线能实现一定的效果，但扩展性不好。DiT将Transformer架构与扩散模型融合，把大语言模型的扩展性、涌现性复制到了视觉任务上。

其实早在2022年9月，生数科技团队早期成员就提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Model》的论文，这篇论文提出了基于transformer的网络架构U-ViT。

对比来看，两项工作采用了相同的patch embedding、patch size，都得出了同样的结论patch size为2*2是最理想的，在模型参数量上两者都在50M-500M左右的参数量上做了实验，最终都证实了scale特性。

不过DiT仅在ImageNet上做了实验，U-ViT在小信息集（CIFAR10、CelebA）、ImageNet、图文信息集MSCOCO均做了实验。此外，相比传统的 Transformer，U-ViT提出了一项“长连接”的工艺，大大提升了训练收敛速度。

但U-ViT同样展示了在视觉任务下的优异能力，与当时同阶段的SD1.5 比较，Unidiffuser效果是基本持平的。更关键是，Unidifuser扩展性更强，能基于一个底层模型完成图文之间的任意生成。

生数团队的几位核心成员近几年于ICML、NeurIPS、ICLR 等机器智能顶会发表相关论文近30篇，是现阶段在该领域发表论文成果数最多的国内团队。

抱持着底层运算规则原始创新、从零开始自主训练的态度，生数科技团队也形成了多项能与其他公司拉开差距的工艺成果。

无训练推理框架Analytic-DPM

扩散模型的一大局限是计算速度缓慢，研究加速运算规则是提升扩散模型应用效果的难点。

2022年，团队核心成员提出了一种无训练推理框架：Analytic-DPM，使用蒙特卡洛方法和预训练的基于得分模型来估计方差和 KL 散度的分析形式。该方法可以在无需额外训练的情况下，直接估计得到最优方差，该成果在理论贡献方面具有关键意义。

另外从应用效果看，免训练推理框架的提出大大加速了模型的采样效率，经对比，Analytic-DPM经过 50 步采样的效果优于 DDPM 采样 1000 步的效果，加速了近 20 倍。

该论文被评选为ICLR2022杰出论文，也是该会议首篇由中国大陆单位独立完成的获奖论文，此外该成果也被OpenAI 应用于 DALL·E2 模型处理方差的策略中。

多模态基础大模型 UniDiffuser

2023年3月，团队开源国内首个基于Transformer的多模态扩散大模型UniDiffuser，采用了基于transformer的网络架构U-ViT，在开源的大规模图文信息集LAION-5B上训练了一个十亿参数量的模型，实现基于一个底层模型能够高质量地完成多种生成任务。雷峰网(公众号：雷峰网)雷峰网雷峰网

除了单向的文生图，还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能，能够实现任意模态之间的转化，大幅提升文图内容的生产效率，也进一步提升了生成式模型的应用想象力。

更值得一提的是，从工艺路线看，生数科技是国内唯一的原生多模态大模型厂商，原生多模态是基于通用的融合架构对文本、图像、影片等多模态信息进行统一范式的训练，简单类比就是基于一个底层架构实现“GPT4+DALLE3+GPT4V”的统一，而不是通过接口调用不同的模型。生数科技坚持融合架构的原生路线，致力于提升对开放域下复杂交互场景的信息生成能力。

本文作者长期关注 AIGC 落地应用、大模型和数字人领域，欢迎添加微信：s1060788086，交流认知，互通有无。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。