大阳城app

大阳城APP

大阳城app注册下载 字节会师何恺明!开源集结扩散话语模子Cola DLM

发布日期:2026-05-19 05:34 来源:未知 作者:admin 浏览次数:

大阳城app注册下载 字节会师何恺明!开源集结扩散话语模子Cola DLM

假话语模子确实只可走"推断下一个 token "的门道吗?

继何恺明之后,字节也给出了相同的复兴:NO。

而且,双方都殊途同归地盯上了团结个场地——在集结语义空间中建模话语。

更关节的是,字节此次顺利开源开到底,论文、代码、模子权重、汉文博客通通释出。

帮全球快速回忆一下。就在上周,何恺明团队推出首个扩散话语模子 ELF ——

它跳过 token 层,把整个生成流程留在集结 embedding 空间里完成,仅用 105M 参数就跑赢一众主流扩散话语模子,第一次阐述集结道路在话语生成上真有后劲。

而字节此次带来的 Cola DLM(Continuous Latent Diffusion Language Model),则进一步佐证了这一趋势。

他们相同弃取跳出冲突 token 的不停,把生成流程交给集结空间,终端是:

在 ~2B 参数、约 2000 EFLOPs 的严格对照实验下,Cola DLM 展现出了比自总结模子和主流冲突 DLM 更踏实的 scaling 趋势。

关连词,正大你觉得这不外是又一个"把图像扩散模子搬进话语界限"的故事时,字节却告诉你:错了。

Cola DLM 的 motivation 从来不是 diffusion。

啊??不是为了 diffusion,终端作念了个 diffusion language model?

字节:Token ≠语义,表征才是实在的主角

事实上,实在的主角藏在这句话的后半段:

Cola DLM 的 motivation 从来不是 diffusion,而是representation(表征)。

在字节看来,实在紧迫的是表征,Token 这种 tokenizer 工程和历史演化的副居品,只是是表征被竣事出来的一种体式长途。他们还斗胆给出了一个暴论:

Token 是东说念主类话语系统的上层载体,不是语义本人。

浅陋看一个例子你就懂了,比如咱们用不同的话抒发团结个真谛:

我今天很焕发。

今天我气象很好。

今天过得挺景色。

token 差了一大堆,但语义照旧那一个。

放在以前,主流大模子常常会把这些不同说法,当成几套不同的抒发离别去学——明明背后是团结个语义,模子偏专爱在 token 这个上层挨个对王人。

是以字节的判断是,要是模子里面存在一种更踏实、更概述的"语义情状",那这些本色相通、只是说法不同的句子,其实没必要被离别牵记,而是不错在里面管理到附进的示意。因此本色上而言:

Cola DLM 的 diffusion 不是在收复 token,而是在 transport 一个 latent prior。

若何" transport 一个 latent prior "?字节弃取顺利把语义和竣事分层。

具体纪律论指路论文 3.1.1,这里咱们浅陋翻译过来等于:

Cola DLM 的生成模子,本色上独一两部分。一个 latent prior,认真生成"潜在语义"; 一个 decoder,认真把这些语义翻译成具体翰墨。 看上去就像是把"生成一句话"拆成了两件相对落寞的事。

而且关节在于,整个 diffusion/flow matching 流程,其实都发生在 latent 空间里,而不是 token 空间里。

等于说,Cola DLM 干的不是把一堆脏 token 缓缓去噪成干净 token,而是先在集结语义空间里,把一团未必语义缓缓组织成独特旨的潜在抒发,临了再长入翻译成翰墨。

是以在它的生成旅途里,其实压根莫得 token 的渐渐生成流程,token 只在临了一步才出现,前边学的都是"语义若何酿成"。

这亦然 Cola DLM 和许多扩散话语模子最大的不同。

许多 DLM,本色上照旧围绕 token 在作念"修修补补",比如收复被 mask 的 token、渐渐还原冲突文本。但 Cola DLM 顺利把 diffusion 从"翰墨层"搬到了"语义层",diffusion 不再认真"生成 token ",而是认真"组织语义"。在字节看来:

这不是包装上的相反,而是转变了 diffusion 在模子里到底干什么。

Cola DLM 背后关节细节

纪律论咱们知说念了,那 Cola DLM 实在"和传统集结 DLM 拉开差距"的地方到底在哪?

谜底,就藏在几个很工程化但很关节的联想弃取里。

关节 1:latent 不是浅陋的 embedding 替代品

当先是 latent 是若何来的。许多东说念主一听"集结话语模子",第一反映是——不等于在 word embedding 上作念扩散嘛。

但 Cola DLM 偏巧没这样作念,它专门搭了一套 Text VAE:

Encoder:把冲突文本压缩成集结 latent(相等于索求"语义指纹");

Decoder:把 latent 再还原回环本。

死别在哪?token embedding 照旧和 token 逐个绑定的,每个 token 一个向量,本色上照旧 token 序列。

而 Cola DLM 要的 latent,是一个不错集结变化、可被概率建模的未必变量。

这样一来,模子处理的对象就不再是"下一个 token ",而是"整段文本对应的语义情状"。

关节 2:prior 不是平庸的 diffusion

Cola DLM 用的不是全球熟练的"加噪→去噪"那种 diffusion,而是一个叫 block-causal DiT+Flow Matching 的组合。

组合看不懂没关系,知说念这个组合作念的事就行了:

从一个浅陋漫衍(比如高斯)动身;

在集结期间里学习一个 vector field(向量场);

把这个漫衍"运载"成实在数据对应的 latent 漫衍。

说白了等于,不靠反复去噪,而是顺利学一条"最优旅途",把噪声平滑地引向独特旨的语义。

更妙的是,它在这个语义旅途上还引入了 block 结构——

块内并行处治局部语义的快速组织,块间按因果规矩保证全体逻辑不乱。

全体相等于在语义层从新搭了一套生成框架,"局部快、全体顺",两样都没丢。

关节 3:锻真金不怕火时变装单干明确

集结扩散话语模子有一个常见问题:

语义示意 latent 很容易被 diffusion 带偏,临了退化成一个"穿了马甲的 token ",即名义是集结向量,但骨子里照旧在记词,压根没酿成实在的语义概述。

是以 Cola DLM 的作念法是——把两个任务澈底分开。

Encoder/Decoder:只管"若何把翰墨变谚语义示意,再变回来";

Prior(DiT+FM):只管"若何从噪声生谚语义示意"。

而且锻真金不怕火时,Encoder 在 diffusion 阶段基本"冻结不动"。

为什么不让它也随着学?因为一朝让 Encoder 去适合 diffusion,它就会为了裁汰 loss 而偷懒,把语义示意暗暗滑向"好推断的 token 体式",临了又回到老路上。

字节想要的是一个踏实的语义空间,而不是一个被任务耻辱的中介层。是以他们反治其身,让 prior 去适合语义空间,大阳城app注册下载(SuncityGroup)而不是让语义空间谄谀 prior。

此外,他们还加了一个语义管理(BERT-style mask loss),贯注 encoder 在重建时"语义崩塌"。

实考据明,莫得这个管理,latent 照实会为了降 loss 而漂走。

关节 4:把锻真金不怕火宗旨拆成了三块不错离别会诊的子任务

要是说前边三点更像工程上的巧念念,而这第四点等于 Cola DLM 在表面上的硬功夫。

字节把锻真金不怕火宗旨拆成了三个不错单独看、单独会诊的子任务:

重建能力:给了 latent,Decoder 能不可把原文还原出来?

压缩能力:这个语义示意到底压缩了几许原文信息?

拟合能力:Prior 能不可学出 latent 的实在漫衍?

这样拆的平允在于,传统自总结把所有这个词东西都糊在一个"推断下一个词"的吃亏函数里。

生见效果不好时,你压根不知说念是那边出了问题,不知说念是交融错了、牵记不够,照旧生成旅途歪了。

而 Cola DLM 把账算得清默契爽,那边不行离别看方针就知说念。

这也它能跑出踏实 scaling 趋势的底层原因——

不是瞎蒙,而是每一个门径都能单独会诊、单独优化。

临了鉴于篇幅原因,这里咱们顺利放上字节 Cola DLM 规划的恶果省流版(详备内容指路博客):

团结个追问,两种谜底

而说到这里,咱们很难不把字节 Cola DLM 与何恺明团队的 ELF 放在通盘看。

很独特念念的是,两份责任简直同期,都在挑战一个被默许了二十年的假定——

话语模子必须拓荒在冲突 token 上。

为什么这个假定启动受到质疑?

一方面,自总结大模子走到今天,"推断下一个 token "这条路的瓶颈越来越显著——推理慢、长程依赖弱、锻真金不怕火宗旨和实在生成质料之间存在结构性 gap。

另一方面,扩散模子在图像、视频生成上的奏凯,让全球启动反念念:冲突 token 确实是话语智能必须依附的载体吗?照旧只是历史弃取的一种风俗?

这两年扩散话语模子的探索(LLaDA、Dream-7B、MDLM 等)一经把这个问题拉到了台面上,但大大都责任还停留在"冲突派"——照旧在 token 上作念扩散。

直到 ELF 和 Cola DLM 出现,双方简直同期给出了团结个谜底——不消绑在 token 上。

只不外具体解法上有所不同。

我也去对比了两项规划之前的区别,用图片展示如下:

浅陋说,ELF 像一个东说念主从新干到尾,在原长度 embedding 空间里反复讨论,到临了一步才落笔成字。

Cola DLM 则像两个单干部门,语义部先商议"要抒发什么",翰墨部再认真"具体若何写"。

两条道路纪律上自然不同,但底层眷注全都一致——

让建模发生在最得当话语本色的示意空间里,不要被" token= 语义"这个默许框架限度。

本色上而言,它们其实是团结个问题的两种复兴。

而这也代表着一种趋势——是时候从新意志集结扩散话语模子了。

夙昔两年,扩散话语模子的舞台简直一直由"冲突派"占据。但 ELF 和 Cola DLM 这一前一后两次起初,让"集结道路"第一次以一种严肃、可被对比、可被复现的姿态站到了台前。

更值得把稳的是,Cola DLM 还顺遂指出了一件更大的事——永远以来"长入多模态"卡住的中枢报复之一,等于文本是冲突的,而图像、视频、音频自然偏集结。

要是想让它们实在参加团结个" latent 天下",必须有一个把文本映射到集结语义 latent 的接口。

而 Cola DLM 恰好饰演了这样的变装。而这,八成才是字节此次起初的实在贪心——

不是在扩散话语模子的赛说念里再添又名选手,而是为话语模子造一座桥,把它接入集结多模态的天下。

自然,Cola DLM 团队我方也很克制,他们在博客临了写说念:

Cola DLM 只是这条路上的一次早期尝试,但这条路本人值得持续走下去。

作家先容

临了按照常规先容一下这项规划的作家。

整个团队由字节跨越 Seed 团队主导,聚拢了来自港大、东说念主大、北大、北邮、澳国立多所高校的规划者,笼罩话语建模、扩散模子、视频生成等多个场地。

第一签字 Hongcan Guo(郭泓灿),现在是北邮东说念主工智能学院大四本科生,从 2025 年 6 月起在字节 Seed 实习。

规划酷好集合在生成模子与推理模子的数学基础和学习能源学,Cola DLM 的博客恰是出自他手。

通信作家 Yan Zeng(曾妍)则是字节 Seed 里面的"大牛级"东说念主物,她是字节爆款视频生成模子 Seedance 系列的研发认真东说念主。有汉典清楚,这位西安交大学友 2021 年以校招生身份加入字节后,仅用了五年就从算法工程师擢升至 4-2 职级。

此次 Cola DLM 里许多"分层潜变量 +diffusion prior "的念念路,与视频生成界限永远遴荐的 latent diffusion 道路存在显著类似之处。

团队里还有一位很独特念念的"跨界选手"—— Shen Nie。他是东说念主大高瓴 AI 学院李崇轩组的代表性规划者,同期亦然冲突扩散话语模子 LLaDA 的第一作家。而 LLaDA 赶巧亦然 Cola DLM 在论文里要点比拟的一条冲突扩散道路。

某种意旨上,这件事本人就挺独特念念:一位冲突扩散道路的代表东说念主物,也参与到了集结 latent 道路的规划里。某种进度上也阐述,Cola DLM 此次实在想商议的,一经不单是"扩散若何生成文本",而是更底层的:

文本智能到底应该拓荒在什么样的情状空间之上?

其他几位中枢作家相同来头不小。

Hengshuang Zhao 是香港大学谋略机系助理栽种,曾在 MIT CSAIL、牛津 Torr Vision Group 作念博士后,永远活跃于谋略机视觉与生成建模界限。

Qiushan Guo 则来自港大 MMLab 羅平组,同期亦然字节 Seedream 图像生成模子的紧迫研发成员之一。

其他签字作家还有:Qinyu Zhao、Yian Zhao、Rui Zhu、Feng Wang、Tao Yang、Guoqiang Wei。

金佰利国际娱乐官网入口

施行上,要是把整份作家名单放在通盘看,其实会发现一个相等独特念念的气象——

字节此次作念话语模子,某种进度上简直是把"视频 / 视觉生成"那套中枢念念路全体带了进来:

作念 latent diffusion 的、作念视频生成的、作念图像 prior 的、作念冲突 DLM 的,临了通盘从新念念考"文本到底该若何建模"。

这八成亦然为什么 Cola DLM 全体看上去,会和传统话语模子道路呈现出相等不同的气质。

因为它从一启动关注的,就不单是"若何更好地生成文本",而是在尝试把话语从新放回集结语义空间里,变成一种能够与图像、视频、音频自然对王人的模态。

而这,也许才是 Cola DLM 最值得关注的地方:

当文本不再只是 token 序列,而成为集结天下中的一种语义情状后,多模态智能又会长成什么样。

抱抱脸地址:https://huggingface.co/ByteDance-Seed/Cola-DLM

GitHub 地址:https://github.com/ByteDance-Seed/Cola-DLM

论文:https://arxiv.org/abs/2605.06548

博客:https://hongcanguo.github.io/posts/2026-cola-dlm-zh.html

一键三连「点赞」「转发」「留心心」

接待在驳斥区留住你的想法!

—  完  —

中国 AIGC 产业峰会全气势发布!� �张望议程

从底层架构到爆款欺诈,从软件到硬件,从创作到投资 ... 这一次,咱们但愿聚王人AI 赛说念的实战派,聊透 AI 到底若何落地、若何收获、若何转变责任。

5 月 20 日,北京 · 金茂万丽货仓,@所有这个词东说念主,未必 AI 起来!� �  

一键关注 � � 点亮星标

科技前沿推崇逐日见大阳城app注册下载