大阳城app注册下载字节会师何恺明！开源集结扩散话语模子Cola DLM

发布日期：2026-05-19 05:34 来源：未知作者：admin 浏览次数：

假话语模子确实只可走"推断下一个 token "的门道吗？

继何恺明之后，字节也给出了相同的复兴：NO。

而且，双方都殊途同归地盯上了团结个场地——在集结语义空间中建模话语。

更关节的是，字节此次顺利开源开到底，论文、代码、模子权重、汉文博客通通释出。

帮全球快速回忆一下。就在上周，何恺明团队推出首个扩散话语模子 ELF ——

它跳过 token 层，把整个生成流程留在集结 embedding 空间里完成，仅用 105M 参数就跑赢一众主流扩散话语模子，第一次阐述集结道路在话语生成上真有后劲。

而字节此次带来的 Cola DLM（Continuous Latent Diffusion Language Model），则进一步佐证了这一趋势。

他们相同弃取跳出冲突 token 的不停，把生成流程交给集结空间，终端是：

在 ~2B 参数、约 2000 EFLOPs 的严格对照实验下，Cola DLM 展现出了比自总结模子和主流冲突 DLM 更踏实的 scaling 趋势。

关连词，正大你觉得这不外是又一个"把图像扩散模子搬进话语界限"的故事时，字节却告诉你：错了。

Cola DLM 的 motivation 从来不是 diffusion。

啊？？不是为了 diffusion，终端作念了个 diffusion language model？

字节：Token ≠语义，表征才是实在的主角

事实上，实在的主角藏在这句话的后半段：

Cola DLM 的 motivation 从来不是 diffusion，而是representation（表征）。

在字节看来，实在紧迫的是表征，Token 这种 tokenizer 工程和历史演化的副居品，只是是表征被竣事出来的一种体式长途。他们还斗胆给出了一个暴论：

Token 是东说念主类话语系统的上层载体，不是语义本人。

浅陋看一个例子你就懂了，比如咱们用不同的话抒发团结个真谛：

我今天很焕发。

今天我气象很好。

今天过得挺景色。

token 差了一大堆，但语义照旧那一个。

放在以前，主流大模子常常会把这些不同说法，当成几套不同的抒发离别去学——明明背后是团结个语义，模子偏专爱在 token 这个上层挨个对王人。

是以字节的判断是，要是模子里面存在一种更踏实、更概述的"语义情状"，那这些本色相通、只是说法不同的句子，其实没必要被离别牵记，而是不错在里面管理到附进的示意。因此本色上而言：

Cola DLM 的 diffusion 不是在收复 token，而是在 transport 一个 latent prior。

若何" transport 一个 latent prior "？字节弃取顺利把语义和竣事分层。

具体纪律论指路论文 3.1.1，这里咱们浅陋翻译过来等于：

Cola DLM 的生成模子，本色上独一两部分。一个 latent prior，认真生成"潜在语义"；一个 decoder，认真把这些语义翻译成具体翰墨。看上去就像是把"生成一句话"拆成了两件相对落寞的事。

而且关节在于，整个 diffusion/flow matching 流程，其实都发生在 latent 空间里，而不是 token 空间里。

等于说，Cola DLM 干的不是把一堆脏 token 缓缓去噪成干净 token，而是先在集结语义空间里，把一团未必语义缓缓组织成独特旨的潜在抒发，临了再长入翻译成翰墨。

是以在它的生成旅途里，其实压根莫得 token 的渐渐生成流程，token 只在临了一步才出现，前边学的都是"语义若何酿成"。

这亦然 Cola DLM 和许多扩散话语模子最大的不同。

许多 DLM，本色上照旧围绕 token 在作念"修修补补"，比如收复被 mask 的 token、渐渐还原冲突文本。但 Cola DLM 顺利把 diffusion 从"翰墨层"搬到了"语义层"，diffusion 不再认真"生成 token "，而是认真"组织语义"。在字节看来：

这不是包装上的相反，而是转变了 diffusion 在模子里到底干什么。

Cola DLM 背后关节细节

纪律论咱们知说念了，那 Cola DLM 实在"和传统集结 DLM 拉开差距"的地方到底在哪？

谜底，就藏在几个很工程化但很关节的联想弃取里。

关节 1：latent 不是浅陋的 embedding 替代品

当先是 latent 是若何来的。许多东说念主一听"集结话语模子"，第一反映是——不等于在 word embedding 上作念扩散嘛。

但 Cola DLM 偏巧没这样作念，它专门搭了一套 Text VAE：

Encoder：把冲突文本压缩成集结 latent（相等于索求"语义指纹"）；

Decoder：把 latent 再还原回环本。

死别在哪？token embedding 照旧和 token 逐个绑定的，每个 token 一个向量，本色上照旧 token 序列。

而 Cola DLM 要的 latent，是一个不错集结变化、可被概率建模的未必变量。

这样一来，模子处理的对象就不再是"下一个 token "，而是"整段文本对应的语义情状"。

关节 2：prior 不是平庸的 diffusion

Cola DLM 用的不是全球熟练的"加噪→去噪"那种 diffusion，而是一个叫 block-causal DiT+Flow Matching 的组合。

组合看不懂没关系，知说念这个组合作念的事就行了：

从一个浅陋漫衍（比如高斯）动身；

在集结期间里学习一个 vector field（向量场）；

把这个漫衍"运载"成实在数据对应的 latent 漫衍。

说白了等于，不靠反复去噪，而是顺利学一条"最优旅途"，把噪声平滑地引向独特旨的语义。

更妙的是，它在这个语义旅途上还引入了 block 结构——

块内并行处治局部语义的快速组织，块间按因果规矩保证全体逻辑不乱。

全体相等于在语义层从新搭了一套生成框架，"局部快、全体顺"，两样都没丢。

关节 3：锻真金不怕火时变装单干明确

集结扩散话语模子有一个常见问题：

语义示意 latent 很容易被 diffusion 带偏，临了退化成一个"穿了马甲的 token "，即名义是集结向量，但骨子里照旧在记词，压根没酿成实在的语义概述。

是以 Cola DLM 的作念法是——把两个任务澈底分开。

Encoder/Decoder：只管"若何把翰墨变谚语义示意，再变回来"；

Prior（DiT+FM）：只管"若何从噪声生谚语义示意"。

而且锻真金不怕火时，Encoder 在 diffusion 阶段基本"冻结不动"。

为什么不让它也随着学？因为一朝让 Encoder 去适合 diffusion，它就会为了裁汰 loss 而偷懒，把语义示意暗暗滑向"好推断的 token 体式"，临了又回到老路上。

字节想要的是一个踏实的语义空间，而不是一个被任务耻辱的中介层。是以他们反治其身，让 prior 去适合语义空间，大阳城app注册下载(SuncityGroup)而不是让语义空间谄谀 prior。

此外，他们还加了一个语义管理（BERT-style mask loss），贯注 encoder 在重建时"语义崩塌"。

实考据明，莫得这个管理，latent 照实会为了降 loss 而漂走。

关节 4：把锻真金不怕火宗旨拆成了三块不错离别会诊的子任务

要是说前边三点更像工程上的巧念念，而这第四点等于 Cola DLM 在表面上的硬功夫。

字节把锻真金不怕火宗旨拆成了三个不错单独看、单独会诊的子任务：

重建能力：给了 latent，Decoder 能不可把原文还原出来？

压缩能力：这个语义示意到底压缩了几许原文信息？

拟合能力：Prior 能不可学出 latent 的实在漫衍？

这样拆的平允在于，传统自总结把所有这个词东西都糊在一个"推断下一个词"的吃亏函数里。

生见效果不好时，你压根不知说念是那边出了问题，不知说念是交融错了、牵记不够，照旧生成旅途歪了。

而 Cola DLM 把账算得清默契爽，那边不行离别看方针就知说念。

这也它能跑出踏实 scaling 趋势的底层原因——

不是瞎蒙，而是每一个门径都能单独会诊、单独优化。

临了鉴于篇幅原因，这里咱们顺利放上字节 Cola DLM 规划的恶果省流版（详备内容指路博客）：

团结个追问，两种谜底

而说到这里，咱们很难不把字节 Cola DLM 与何恺明团队的 ELF 放在通盘看。

很独特念念的是，两份责任简直同期，都在挑战一个被默许了二十年的假定——

话语模子必须拓荒在冲突 token 上。

为什么这个假定启动受到质疑？

一方面，自总结大模子走到今天，"推断下一个 token "这条路的瓶颈越来越显著——推理慢、长程依赖弱、锻真金不怕火宗旨和实在生成质料之间存在结构性 gap。

另一方面，扩散模子在图像、视频生成上的奏凯，让全球启动反念念：冲突 token 确实是话语智能必须依附的载体吗？照旧只是历史弃取的一种风俗？

这两年扩散话语模子的探索（LLaDA、Dream-7B、MDLM 等）一经把这个问题拉到了台面上，但大大都责任还停留在"冲突派"——照旧在 token 上作念扩散。

直到 ELF 和 Cola DLM 出现，双方简直同期给出了团结个谜底——不消绑在 token 上。

只不外具体解法上有所不同。

我也去对比了两项规划之前的区别，用图片展示如下：

浅陋说，ELF 像一个东说念主从新干到尾，在原长度 embedding 空间里反复讨论，到临了一步才落笔成字。

Cola DLM 则像两个单干部门，语义部先商议"要抒发什么"，翰墨部再认真"具体若何写"。

两条道路纪律上自然不同，但底层眷注全都一致——

让建模发生在最得当话语本色的示意空间里，不要被" token= 语义"这个默许框架限度。

本色上而言，它们其实是团结个问题的两种复兴。

而这也代表着一种趋势——是时候从新意志集结扩散话语模子了。

夙昔两年，扩散话语模子的舞台简直一直由"冲突派"占据。但 ELF 和 Cola DLM 这一前一后两次起初，让"集结道路"第一次以一种严肃、可被对比、可被复现的姿态站到了台前。

更值得把稳的是，Cola DLM 还顺遂指出了一件更大的事——永远以来"长入多模态"卡住的中枢报复之一，等于文本是冲突的，而图像、视频、音频自然偏集结。

要是想让它们实在参加团结个" latent 天下"，必须有一个把文本映射到集结语义 latent 的接口。

而 Cola DLM 恰好饰演了这样的变装。而这，八成才是字节此次起初的实在贪心——

不是在扩散话语模子的赛说念里再添又名选手，而是为话语模子造一座桥，把它接入集结多模态的天下。

自然，Cola DLM 团队我方也很克制，他们在博客临了写说念：

Cola DLM 只是这条路上的一次早期尝试，但这条路本人值得持续走下去。

作家先容

临了按照常规先容一下这项规划的作家。

整个团队由字节跨越 Seed 团队主导，聚拢了来自港大、东说念主大、北大、北邮、澳国立多所高校的规划者，笼罩话语建模、扩散模子、视频生成等多个场地。

第一签字 Hongcan Guo（郭泓灿），现在是北邮东说念主工智能学院大四本科生，从 2025 年 6 月起在字节 Seed 实习。

规划酷好集合在生成模子与推理模子的数学基础和学习能源学，Cola DLM 的博客恰是出自他手。

通信作家 Yan Zeng（曾妍）则是字节 Seed 里面的"大牛级"东说念主物，她是字节爆款视频生成模子 Seedance 系列的研发认真东说念主。有汉典清楚，这位西安交大学友 2021 年以校招生身份加入字节后，仅用了五年就从算法工程师擢升至 4-2 职级。

此次 Cola DLM 里许多"分层潜变量 +diffusion prior "的念念路，与视频生成界限永远遴荐的 latent diffusion 道路存在显著类似之处。

团队里还有一位很独特念念的"跨界选手"—— Shen Nie。他是东说念主大高瓴 AI 学院李崇轩组的代表性规划者，同期亦然冲突扩散话语模子 LLaDA 的第一作家。而 LLaDA 赶巧亦然 Cola DLM 在论文里要点比拟的一条冲突扩散道路。

某种意旨上，这件事本人就挺独特念念：一位冲突扩散道路的代表东说念主物，也参与到了集结 latent 道路的规划里。某种进度上也阐述，Cola DLM 此次实在想商议的，一经不单是"扩散若何生成文本"，而是更底层的：

文本智能到底应该拓荒在什么样的情状空间之上？

其他几位中枢作家相同来头不小。

Hengshuang Zhao 是香港大学谋略机系助理栽种，曾在 MIT CSAIL、牛津 Torr Vision Group 作念博士后，永远活跃于谋略机视觉与生成建模界限。

Qiushan Guo 则来自港大 MMLab 羅平组，同期亦然字节 Seedream 图像生成模子的紧迫研发成员之一。

其他签字作家还有：Qinyu Zhao、Yian Zhao、Rui Zhu、Feng Wang、Tao Yang、Guoqiang Wei。

金佰利国际娱乐官网入口

施行上，要是把整份作家名单放在通盘看，其实会发现一个相等独特念念的气象——

字节此次作念话语模子，某种进度上简直是把"视频 / 视觉生成"那套中枢念念路全体带了进来：

作念 latent diffusion 的、作念视频生成的、作念图像 prior 的、作念冲突 DLM 的，临了通盘从新念念考"文本到底该若何建模"。

这八成亦然为什么 Cola DLM 全体看上去，会和传统话语模子道路呈现出相等不同的气质。

因为它从一启动关注的，就不单是"若何更好地生成文本"，而是在尝试把话语从新放回集结语义空间里，变成一种能够与图像、视频、音频自然对王人的模态。

而这，也许才是 Cola DLM 最值得关注的地方：

当文本不再只是 token 序列，而成为集结天下中的一种语义情状后，多模态智能又会长成什么样。

抱抱脸地址：https://huggingface.co/ByteDance-Seed/Cola-DLM

GitHub 地址：https://github.com/ByteDance-Seed/Cola-DLM

论文：https://arxiv.org/abs/2605.06548

博客：https://hongcanguo.github.io/posts/2026-cola-dlm-zh.html

一键三连「点赞」「转发」「留心心」

接待在驳斥区留住你的想法！

— 完 —

中国 AIGC 产业峰会全气势发布！� �张望议程

从底层架构到爆款欺诈，从软件到硬件，从创作到投资 ... 这一次，咱们但愿聚王人AI 赛说念的实战派，聊透 AI 到底若何落地、若何收获、若何转变责任。

5 月 20 日，北京 · 金茂万丽货仓，@所有这个词东说念主，未必 AI 起来！� �

一键关注 � � 点亮星标

科技前沿推崇逐日见大阳城app注册下载

上一篇：上一篇：大阳城(SuncityGroup) 北京时分5月17日！广东宏远最新3音信，崔永熙现身新行止

大阳城app注册下载(SuncityGroup)

大阳城app

大阳城app注册下载 字节会师何恺明！开源集结扩散话语模子Cola DLM

大阳城app注册下载字节会师何恺明！开源集结扩散话语模子Cola DLM