科技日報記者 張夢然
英國愛丁堡大學與英偉達的聯合團隊開發出一種新方法,能夠壓縮人工智能(AI)模型運行時所依賴的內存,從而在保持響應速度不變的情況下,提升模型處理復雜任務的準確性,或顯著降低其能耗。這也意味著,更小的內存將帶來“更強的AI”,有望打破大語言模型(LLM)性能瓶頸。

團隊發現,將LLM所使用的內存壓縮至原有大小的1/8后,模型在數學、科學和編程等專業測試中的表現反而更好,且推理時間并未延長。這一方法亦有助于模型同時響應更多用戶請求,從而降低單個任務的平均功耗。除了節能優勢,這項改進還有望使AI更適用于處理復雜問題的系統,或存儲速度較慢、內存容量有限的終端設備,例如智能家居產品和可穿戴技術。
AI模型通常通過“思考”更復雜的假設,或同時探索更多可能性來尋找答案。在此過程中,模型需要將已生成的推理線程內容暫存于一種稱為“KV緩存”的內存中。隨著線程數量增多或線程長度增加,KV緩存的體積會迅速擴大,成為性能瓶頸,拖慢模型輸出響應的速度。
為突破這一限制,團隊提出了一種名為“動態記憶稀疏化”(DMS)的內存壓縮技術。該方法并非保留所有生成的標記(即AI模型處理的基本數據單元),而是動態判斷哪些標記對后續推理至關重要、哪些可以剔除。由于從決定刪除某個標記到實際刪除之間存在的微小延遲,使模型有機會將待刪除標記中的有用信息轉移至保留的標記中。通過這種方式,DMS使AI模型能夠在相同計算資源下進行更深入的“思考”,或探索更多可能的解決方案路徑。
測試中,在一項基于美國數學奧林匹克資格賽(AIME 24)設計的數學測試中,壓縮模型在相同內存讀取次數下,平均得分比未壓縮模型高出12分;在由博士級專家編制的專業科學題庫中,其表現優于原模型;在評估代碼編寫能力的平臺上,壓縮模型的平均得分也提高了10分。
這項研究打破了人們“計算資源越多,AI越強”的慣性認知。DMS內存壓縮技術就像給AI裝上了過濾器,讓它學會抓住思考的重點,而非盲目堆砌數據。這種“更少內存,更強智能”的路徑,可能從根本上改變AI的研發方向,讓高性能AI真正輕量化。未來,復雜的科學計算或許在智能手表上就能運行,家用機器人也可以同時處理多項復雜指令而不卡頓。其實,這也暗合了人類的高效思考邏輯——我們不會記住每個細節,而是提煉關鍵信息進行推理。這種向人腦學習的選擇性記憶機制,也許會比單純擴大模型規模更早觸及通用AI的門檻。