在大模型快速迭代、算力需求指數(shù)級攀升的背景下,算力產(chǎn)業(yè)似乎正在經(jīng)歷一場路徑層面的調整。
過去幾年,全棧能力一度被視為國產(chǎn)芯片廠商縮短差距、提升競爭力的關鍵路徑,從芯片設計到整機系統(tǒng),芯片廠商曾試圖以一家之力構建起算力閉環(huán)。但在最新的行業(yè)共識中,這一路線正被越來越多廠商主動反思甚至修正。
在近日舉行的光合組織2025人工智能創(chuàng)新大會上,多位來自芯片、服務器、整機和系統(tǒng)廠商的核心人物強調:算力競爭已經(jīng)從單點性能轉向系統(tǒng)效率,從全棧路線轉向多方協(xié)同的系統(tǒng)工程。
這一轉向并非理念變化,而是大模型時代真實工程約束下的必然結果。
正如中國科學院院士周成虎所言,數(shù)字社會需要一個超級大腦來支配其發(fā)展,計算正是這大腦背后的核心支撐,GPU(圖形處理器)、CPU(中央處理器)、TPU(張量處理器)等讓我們能夠通過暴力計算來理解數(shù)據(jù)的實質。但與此同時,隨著大模型參數(shù)量向萬億級甚至十萬億級跨越,過去那種依靠單一芯片性能提升的暴力計算模式正在觸碰物理與效率的極限。
光合組織2025人工智能創(chuàng)新大會現(xiàn)場圖片來源:主辦方從芯片性能到系統(tǒng)效率,單點突破正在失效
“人工智能產(chǎn)業(yè)(鏈條),從芯片到系統(tǒng)到應用,整體鏈條非常長,但是現(xiàn)在整體的趨勢又需要這些東西緊耦合在一起,不是某一個環(huán)節(jié)做好就可以的。”中科曙光高級副總裁李斌判斷,今天的大模型對算力的要求已經(jīng)不是某一顆芯片算得快不快,而是整個系統(tǒng)能不能長期、穩(wěn)定、高效地跑起來。
在人工智能發(fā)展的初級階段,算力的提升主要依賴于GPU、CPU等單一處理器性能的迭代。但當任務的復雜度實現(xiàn)跨越式提升、處理時長高速增長時,單一芯片的優(yōu)化已顯得杯水車薪。
隨著模型規(guī)模向萬億參數(shù)演進,算力系統(tǒng)面臨的挑戰(zhàn)已不再局限于算力峰值,而是延伸至互連帶寬、存儲層級、供電制冷、系統(tǒng)穩(wěn)定性等系統(tǒng)性指標。
李斌指出,隨著算力規(guī)模的不斷擴大,首先需要保障可擴展性,避免計算效率下降,同時,規(guī)模擴大意味著可能導致系統(tǒng)可靠性下降的原因也會變多,而可擴展性、可靠性以及系統(tǒng)的能效和能耗都是決定系統(tǒng)是否可用的關鍵因素。
這也意味著,如果不能從系統(tǒng)層面解決能效和推理效率問題,AI的規(guī)?;涞貙㈦y以為繼。
IDC中國區(qū)副總裁兼首席分析師武連峰表示,為了支持萬億規(guī)模的大模型,傳統(tǒng)的計算節(jié)點已無法適應,行業(yè)共識正轉向超節(jié)點和超集群模式,即通過超高速總線將不同的GPU焊接在一起,形成高密度的計算單元,以更好地滿足用戶的需求。
武連峰表示,傳統(tǒng)集群在節(jié)點規(guī)模擴大后,通信開銷往往占用30%~50%的資源,使得算力不能被充分利用,而超集群本質上是把算力從硬件工程升級為系統(tǒng)工程,需要在算、存、網(wǎng)、電、冷、管、軟等多個維度協(xié)同融合,而非簡單堆疊芯片。
這也意味著,過去依賴單點性能突破來彌補系統(tǒng)短板的思路正在失效。即便芯片性能持續(xù)提升,如果互連協(xié)議不統(tǒng)一、系統(tǒng)軟件不兼容、運維可靠性不足,整體算力效率依然會被迅速稀釋。
海光信息副總裁吳宗友在接受包括《每日經(jīng)濟新聞》記者在內的媒體采訪時也指出,在國產(chǎn)化快速推進的過程中,芯片種類的快速增加反而給用戶帶來了新的負擔,每一種芯片都需要單獨適配、優(yōu)化和維護,性能并不能直接轉化為用戶的實際收益。
全棧模式的代價:生態(tài)內耗與用戶痛點
在市場發(fā)展初期,不少國產(chǎn)廠商選擇全棧自研模式,試圖通過緊耦合的技術架構建立競爭圍墻。
李斌在接受采訪時表示,這種現(xiàn)象的背后是廠商的普遍焦慮:由于人工智能產(chǎn)業(yè)鏈極長,廠商擔心只做某一個環(huán)節(jié)無法掌控市場,于是紛紛開啟全棧模式。然而,這種嘗試帶來的結果卻是“內卷”加劇,各家都想做全套,卻在每一層上都難以做到極致,最終形成了多個封閉的小生態(tài)。
這種割裂的生態(tài)給最終用戶帶來了巨大的困擾。吳宗友指出,過去幾年國產(chǎn)芯片行業(yè)發(fā)展迅速,但也讓用戶陷入了適配的難題中。面對眾多的芯片路線,用戶需要投入高額成本進行重復的適配和優(yōu)化,每個芯片的接口、總線各不相同,這種適配難度極大降低了開發(fā)效率。
武連峰也證實,目前生態(tài)挑戰(zhàn)依然嚴峻,算法和算子往往錨定在某個特定生態(tài),移植過程短則數(shù)月,這不僅浪費了時間成本,也造成了人才資源的消耗。
整機廠商的感受更加直接。
雷神科技董事長路凱林提到,國產(chǎn)AI工作棧發(fā)展的瓶頸之一正是生態(tài)資源的豐富度。相比英偉達積累數(shù)年的海量生態(tài),國產(chǎn)算力在硬件與軟件的無縫銜接上仍有差距,“生態(tài)的打通和生態(tài)的豐富度應該是制約我們快速發(fā)展一個很重要的瓶頸,但是好在現(xiàn)在也在快速突破?!?/p>
對于廠商而言,維持全棧同樣意味著資源的極度分散。
光合組織秘書長任京暘坦言,以前產(chǎn)業(yè)內各自為戰(zhàn),廠商在不見面的情況下互相揣摩、對抗。
參會的行業(yè)人士絡繹不絕圖片來源:主辦方開放計算被推上前臺,但執(zhí)行成本同樣不低
在反思全棧路線的同時,開放計算被推到了舞臺中央。但多位受訪者也強調,開放并非一條低成本路徑。
任京暘表示,今天的開放計算意味著廠商要從“一家通吃”中跳出來,往多廠商各司其職、相互協(xié)作、共贏的方向走。這種轉變的核心在于分層解耦,即在芯片、存、液冷、網(wǎng)絡等每一層都由多個優(yōu)秀廠商集群式地攻關,打破以自我為中心的緊耦合架構?!耙郧爱a(chǎn)業(yè)內各自為戰(zhàn)的情況比較多,初期的時候是可以的,大家反正也不知道路在哪兒,摸著石頭過河?,F(xiàn)在道路比較清晰了,所以就需要整合”。
然而,走向開放并非易事,它首先要求廠商讓渡一部分控制權和利潤空間。
任京暘指出,真正的開放意味著在關鍵接口和能力上讓渡控制權和部分利潤空間,同時還要建立一套可執(zhí)行的協(xié)調機制,而不是停留在口號層面。在他看來,開放計算的難點不在技術,而在組織和協(xié)作分配。
具體到執(zhí)行層面,開放計算首先要求對產(chǎn)業(yè)鏈進行分層解耦。芯片、互連、存儲、散熱等環(huán)節(jié)由多家廠商并行推進,在各自層面形成競爭與合作并存的格局;與此同時,各層之間又必須通過統(tǒng)一標準重新緊耦合,否則系統(tǒng)效率同樣難以保障。
這種模式對平臺方提出了更高要求。任京暘認為,需要有具備公信力的平臺來承擔協(xié)調角色,確保制度保障和資源保障,在供需對接、標準制定和沖突調解中發(fā)揮作用。
吳宗友則從市場格局角度提出,開放架構實際上為AI產(chǎn)業(yè)的進化提供了一種路徑選擇。在他看來,如果繼續(xù)各自為戰(zhàn),最終開放架構之外的生態(tài)很容易跟不上時代。
在路凱林看來,場景正在倒逼技術升級。隨著國產(chǎn)算力增強,垂直小模型在本地工作站部署的需求激增,這種由場景驅動的協(xié)同賦能,讓硬件與應用實現(xiàn)了真正的相互咬合。而這種基于生態(tài)的開放架構,正實實在在地降低不同行業(yè)適配AI的成本。
不過,轉向也并不意味著路線之爭的終結。任京暘在采訪中也談到,緊耦合的封閉體系與開放協(xié)同的體系,在國內豐富的應用場景中仍將長期并存。
在大模型和超集群成為常態(tài)之后,能否構建一個高效、可協(xié)同、可持續(xù)演進的系統(tǒng),將成為決定廠商生存空間的關鍵變量。
(文章來源:每日經(jīng)濟新聞)