川觀智庫研究員 黃愛林
自2017年Transformer模型(深度學(xué)習(xí)領(lǐng)域的一項(xiàng)革命性架構(gòu))出現(xiàn),徹底改變了自然語言處理(NLP)并擴(kuò)展至多個(gè)人工智能領(lǐng)域。而今7年過去,量子位智庫認(rèn)為Transformer架構(gòu)面臨的挑戰(zhàn)嚴(yán)峻,其最新發(fā)布的《大模型架構(gòu)創(chuàng)新研究報(bào)告》(下簡(jiǎn)稱報(bào)告)指出,大模型架構(gòu)創(chuàng)新呈現(xiàn)雙軌并行、混合突圍的鮮明趨勢(shì),工業(yè)級(jí)的落地成了關(guān)鍵突破口。
Transformer是一個(gè)超級(jí)高效的“單詞社交網(wǎng)絡(luò)處理器”,它讓句子里的每個(gè)單詞同時(shí)和其他所有單詞“交流”,通過計(jì)算“誰和誰關(guān)系更密切”(注意力權(quán)重),來深度理解每個(gè)單詞在上下文中的真實(shí)含義和彼此之間的關(guān)系。這種全局的、并行的理解方式,讓它成為了最強(qiáng)大的自然語言處理模型的基礎(chǔ)架構(gòu)。
不過上述報(bào)告認(rèn)為,Transformer架構(gòu)算力消耗過大;預(yù)訓(xùn)練范式見頂,即數(shù)據(jù)瓶頸出現(xiàn)預(yù)訓(xùn)練邊際效益遞減;且存在部署瓶頸——Transformer架構(gòu)的注意力機(jī)制二次計(jì)算復(fù)雜度阻礙長(zhǎng)文本處理,同時(shí)其較大的內(nèi)存壓力也會(huì)給資源受限的邊緣設(shè)備落地帶來挑戰(zhàn)。
隨著AI行業(yè)對(duì)Transformer的路徑依賴討論熱度增高,也體現(xiàn)出日漸迫切的架構(gòu)創(chuàng)新需求。量子位智庫的報(bào)告指出,目前行業(yè)主要存在兩條架構(gòu)層創(chuàng)新技術(shù)路徑,一是基于Transformer架構(gòu)的深度改造,特別是針對(duì)其核心組件——Attention機(jī)制(注意力機(jī)制)的優(yōu)化與變體探索,例如較為主流的稀疏注意力(Sparse Attention)路線,旨在提升計(jì)算效率和內(nèi)存利用率,以更好地適應(yīng)大規(guī)模訓(xùn)練場(chǎng)景;二是對(duì)非Transformer架構(gòu)探索,如新型循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu),簡(jiǎn)單理解就是通過“極簡(jiǎn)設(shè)計(jì)”和“動(dòng)態(tài)進(jìn)化”兩大路線,讓AI像人類一樣高效記憶長(zhǎng)內(nèi)容,且學(xué)習(xí)速度更快。這類架構(gòu)試圖從根本上擺脫對(duì)Attention機(jī)制的依賴,并在長(zhǎng)序列建模、并行計(jì)算和推理效率上展現(xiàn)出獨(dú)特優(yōu)勢(shì)。
盡管技術(shù)路線分野,頭部機(jī)構(gòu)聚焦“突破智能天花板”(DeepSeek、OpenAI),創(chuàng)業(yè)公司傾向“壓縮智能密度”(優(yōu)化推理成本),但是未來幾年AI架構(gòu)將進(jìn)入“混合時(shí)代”已成為業(yè)界共識(shí)。而能否突圍成為下一代主流架構(gòu),最終還得看是否能走向工業(yè)落地。
【未經(jīng)授權(quán),嚴(yán)禁轉(zhuǎn)載!聯(lián)系電話028-86968276】