123,123,123

快看點(diǎn)丨Transformer親爹痛斥：當(dāng)前AI陷死胡同，微調(diào)純屬浪費(fèi)時(shí)間！

2026-01-17 13:28:25來(lái)源： 新智元

新智元報(bào)道

編輯：KingHZ

(資料圖片)

【新智元導(dǎo)讀】Transformer曾是AI革命的巔峰之作，但其發(fā)明者Llion Jones警告：它并非終點(diǎn)。就像RNN被取代一樣，當(dāng)前無(wú)數(shù)微調(diào)研究可能只是局部?jī)?yōu)化，而真正的AGI突破或藏在生物啟發(fā)的全新架構(gòu)中。

Transformer是AI的終點(diǎn)嗎？

不是，絕對(duì)不是。

那Scaling是唯一通向AGI的路徑嗎？

在Transformer架構(gòu)上研究最久的人，告訴你：不是。

Sakana AI的創(chuàng)始人、研究科學(xué)家Llion Jones，和其他7位合著者，一起發(fā)明了Transformer。

除了那七位共同作者，沒(méi)有人比他在Transformer上的研究更久。

盡管如此，去年，他做出了一個(gè)重要決定：大幅減少自己在Transformer上的研究投入。

不是因?yàn)檫@個(gè)領(lǐng)域沒(méi)有新鮮事，而是因?yàn)樗呀?jīng)被擠得水泄不通。

他直言，他成了自己成功的受害者：

我不認(rèn)為T(mén)ransformer就是終點(diǎn)，也不相信我們只需要繼續(xù)無(wú)限擴(kuò)大規(guī)模。

某一天，我們會(huì)再次迎來(lái)突破，然后回頭發(fā)現(xiàn)，現(xiàn)在很多研究其實(shí)在白白浪費(fèi)時(shí)間。

Transformer或重演RNN的悲劇

在Transformer出現(xiàn)之前，RNN是主流。

RNN的確是AI歷史上的重大突破。

突然間，所有人都開(kāi)始致力于改進(jìn)RNN。

但結(jié)果總是對(duì)同一架構(gòu)做些微調(diào)，比如把門(mén)控單元換個(gè)位置，將語(yǔ)言建模的性能提升到 1.26、1.25 比特每字符。

在Transformer出現(xiàn)后，當(dāng)我們把非常深的僅解碼器Transformer應(yīng)用于同一任務(wù)時(shí)，立刻就達(dá)到了1.1 比特/字符。

于是，所有關(guān)于RNN的研究突然之間顯得白費(fèi)了。

而現(xiàn)在的論文，似乎又回到了老路子：在同一個(gè)架構(gòu)上，做無(wú)數(shù)微小的改動(dòng)——比如調(diào)整normalization層的位置，或略微改良訓(xùn)練方式。

2020年，時(shí)任谷歌DeepMind的研究員Sarah Hooker提出了「硬件彩票」：

通往AGI的道路不止一條，深度神經(jīng)網(wǎng)絡(luò)剛好碰上了GPU這樣的硬件彩票。

論文鏈接：https://hardwarelottery.github.io/

「硬件彩票」這一術(shù)語(yǔ)，描述了某種研究思路之所以勝出，是因?yàn)樗『闷鹾犀F(xiàn)有的軟件和硬件條件，而非因?yàn)樵撍悸吩谒袀溥x研究方向中具有普遍優(yōu)越性。

而Llion Jones則認(rèn)為，Transformer是一種架構(gòu)彩票，而業(yè)界恐怕重蹈RNN的覆轍。

哪怕已經(jīng)有一些架構(gòu)在論文中表現(xiàn)得比Transformer還好。但問(wèn)題在于，新架構(gòu)還不足夠好到讓整個(gè)行業(yè)放棄Transformer。

原因很現(xiàn)實(shí)：大家對(duì)Transformer的理解已經(jīng)非常成熟，訓(xùn)練方法、微調(diào)方式、配套軟件工具一應(yīng)俱全。

你要大家從頭換一套，除非新架構(gòu)好到「碾壓式勝出」，否則不可能。

Transformer取代RNN，是因?yàn)椴罹啻蟮綗o(wú)法忽視。

深度學(xué)習(xí)的興起也是一樣。曾經(jīng)大家還相信符號(hào)主義更靠譜，直到神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別上展現(xiàn)出壓倒性的優(yōu)勢(shì)。

Llion Jones認(rèn)為T(mén)ransformer太成功了，反而讓大家陷入了「陷阱」：

這就像有個(gè)巨大的「重力井」，所有嘗試離開(kāi)的新方法都會(huì)被拉回來(lái)。

哪怕你真的做出了一個(gè)效果更好的新架構(gòu)，只要OpenAI再把Transformer擴(kuò)大十倍，那你的成果就被比下去了。

現(xiàn)在的LLM并非通用智能

Llion Jones進(jìn)一步指出，目前的大語(yǔ)言模型并非通用智能，呈現(xiàn)出「鋸齒狀智能」（jagged intelligence）的特性。

也就是說(shuō)，它們能在某些任務(wù)上表現(xiàn)得像天才一樣，但轉(zhuǎn)眼就能犯出低級(jí)錯(cuò)誤，讓人出戲。

它剛才還解出了一個(gè)博士級(jí)的問(wèn)題，下一秒?yún)s說(shuō)出一個(gè)連小學(xué)生都不會(huì)錯(cuò)的答案，這種反差非常刺眼。

他認(rèn)為，這其實(shí)揭示了當(dāng)前架構(gòu)中某種根本性的問(wèn)題。

問(wèn)題在于，它們太「萬(wàn)金油」了。

你可以讓它們做任何事，只要訓(xùn)練足、調(diào)參準(zhǔn)。

但正因?yàn)檫@樣，我們反而忽視了關(guān)鍵問(wèn)題──「有沒(méi)有更好的方式來(lái)表示知識(shí)、思考問(wèn)題」。

現(xiàn)在，大家把所有東西都往Transformer里堆，把它當(dāng)成萬(wàn)用工具來(lái)用，缺什么功能，就往上面硬加模塊。

我們明明知道要有不確定性建模、要有自適應(yīng)計(jì)算能力，但我們卻選擇把這些特性外掛上去，而不是從架構(gòu)本身去重新思考。

為了逃脫這個(gè)循環(huán)，Jones在2025年初大幅減少Transformer相關(guān)研究，轉(zhuǎn)向更具探索性的方向。

他和Sakana AI的同事Luke Darlow等人，借鑒生物學(xué)和自然啟發(fā)，設(shè)計(jì)了連續(xù)思維機(jī)（Continuous Thought Machines，CTM）。

傳送門(mén)：https://sakana.ai/ctm/

這不是天馬行空的發(fā)明，而是對(duì)大腦運(yùn)作的簡(jiǎn)化模擬。

大腦里的神經(jīng)元不是靜態(tài)的開(kāi)關(guān)，而是通過(guò)同步振蕩來(lái)傳遞信息。

CTM捕捉了這個(gè)精髓：它用神經(jīng)動(dòng)態(tài)作為核心表示，讓模型在「內(nèi)部思考維度」上逐步展開(kāi)計(jì)算。

他說(shuō)，「我們并沒(méi)有追求完全生物學(xué)可行性，因?yàn)榇竽X并不是靠有線方式讓所有神經(jīng)元同步的。但這種思路帶來(lái)了全新的研究可能。」

重要的是，他們?cè)谧鲞@項(xiàng)研究時(shí)，并沒(méi)有任何學(xué)術(shù)圈常見(jiàn)的「搶發(fā)壓力」。

因?yàn)闆](méi)人做這個(gè)方向。他們有充分的時(shí)間去打磨這篇論文，把研究做實(shí)，把對(duì)照實(shí)驗(yàn)做足。

他希望這項(xiàng)研究能成為一個(gè)「示范案例」，鼓勵(lì)其他研究者去嘗試那些看似風(fēng)險(xiǎn)高、但更可能通向下一個(gè)大突破的研究方向。

后人哀之而不鑒之

這是近期AI領(lǐng)域最坦誠(chéng)的言論之一。

Llion Jones承認(rèn)，當(dāng)前多數(shù)研究可能只是在局部最優(yōu)解上修修補(bǔ)補(bǔ)，而真正的突破或許在完全不同的方向。

他對(duì)此深有體會(huì)——畢竟他曾親手讓上一代研究者的成果黯然失色。

令人不安的是：如果他是對(duì)的，那么所有埋頭改進(jìn)Transformer變體的人都在浪費(fèi)時(shí)間。

所有混合專家模型、所有架構(gòu)微調(diào)、所有注意力機(jī)制變體——都可能在新范式出現(xiàn)時(shí)瞬間過(guò)時(shí)。

但陷阱在于：除非有人真正突破，否則你永遠(yuǎn)無(wú)法確定自己是否困在局部最優(yōu)里。

身在局中時(shí)，一切看似都是進(jìn)步。直到Transformer出現(xiàn)前，RNN的改進(jìn)不也看起來(lái)勢(shì)不可擋嗎？

同樣， Ilya近期也評(píng)論道，僅靠Scaling當(dāng)前架構(gòu)并不足以實(shí)現(xiàn)AGI：

Scaling時(shí)代的一個(gè)后果是：Scaling吸走了房間里所有的氧氣。

正因如此，所有人開(kāi)始做同樣的事。我們走到了今天這個(gè)局面——公司數(shù)量多于創(chuàng)新電子的世界。

那么該如何抉擇？

Llion Jones并未聲稱知道未來(lái)方向，只是坦言Transformer可能不是長(zhǎng)期答案。這很誠(chéng)實(shí)，卻缺乏可操作性。

這個(gè)難題在于：每次范式轉(zhuǎn)移，在事后看來(lái)都像是徒勞，但在當(dāng)時(shí)卻是必要的探索。我們無(wú)法跳過(guò)這個(gè)階段，只能祈禱有人能更快找到出口。

Transformer已死？DeepMind正在押注另一條AGI路線

谷歌祭出Transformer殺手，8年首次大突破！掌門(mén)人劃出AGI死線

終結(jié)Transformer統(tǒng)治！清華姚班校友出手，劍指AI「災(zāi)難性遺忘」

一封來(lái)自Transformer之父的分手信：8年了！世界需要新的AI架構(gòu)

參考資料：

https://www.youtube.com/watch?v=DtePicx_kFY&t=1s

關(guān)鍵詞：方向 rnn 大模型神經(jīng)網(wǎng)絡(luò) transformer

相關(guān)新聞

權(quán)威數(shù)讀｜新年伊始，央行八項(xiàng)舉措助力逆周期跨周期調(diào)節(jié)力度|精選

交警進(jìn)校園安全伴成長(zhǎng) 快資訊

專題新聞

熱點(diǎn)新聞

拉鋸戰(zhàn)！快船落后14分展開(kāi)反撲：小卡因傷缺席，哈登13中3低迷

PriceSeek重點(diǎn)提醒：鐵礦石建筑鋼材成交環(huán)比下滑

好利科技：股東擬減持不超過(guò)1%股份

被武漢的黃昏狠狠驚艷！1號(hào)線，這一幕絕了

東莞理工學(xué)院攜手散裂中子源完成原位打印試驗(yàn)

隔夜酒不是“護(hù)身符”二次酒駕代價(jià)高

廣西南寧斯庚食品有限責(zé)任公司成立注冊(cè)資本10萬(wàn)人民幣當(dāng)前關(guān)注

東莞市鴻木自動(dòng)化設(shè)備有限公司成立注冊(cè)資本10萬(wàn)人民幣-前沿資訊

當(dāng)前熱點(diǎn)湖北23歲女孩被逼嫁39歲男子，喝農(nóng)藥以死抗婚？婦聯(lián)回應(yīng)：已找到相關(guān)當(dāng)事人

焦點(diǎn)速遞！明明給了收款碼卻被盜刷999元小心！有騙子靠“視頻截屏”設(shè)下陷阱