8月12日下午,華為正式發布AI推理“黑科技”UCM(推理記憶數據管理器),助力解決AI推理效率與用戶體驗的難題。
AI推理是AI產業在下一階段的發展重心。AI產業已從“追求模型能力極限”轉向“追求推理體驗最優化”,推理體驗直接關聯用戶滿意度、商業可行性等核心需求,成為衡量AI模型價值的黃金標尺。
據悉,華為計劃在9月開源UCM。屆時,華為將在魔擎社區首發,后續逐步貢獻給業界主流推理引擎社區,并共享給所有Share Everything(共享架構)的存儲廠商和生態伙伴。
UCM是一款以KV Cache(鍵值緩存)為中心的推理加速套件,融合多類型緩存加速算法工具,可以分級管理推理過程中產生的KV Cache記憶數據,擴大推理上下文窗口,以實現高吞吐、低時延的推理體驗,從而降低每個Token(詞元)的推理成本。
KV Cache是一種用于優化計算效率、減少重復運算的關鍵技術,但是需要占用GPU(圖形處理器)的顯存存儲歷史KV(鍵值)向量,生成的文本越長,緩存的數據量越大。
隨著AI產業的發展邁入代理式人工智能時代,模型規模化擴張、長序列需求激增,以及推理任務并發量增長,導致AI推理的KV Cache容量增長,超出了顯存的承載能力。
目前,國外領先芯片廠商通過從硬件迭代到軟件優化,再到生態綁定,構建起AI推理時代的“鐵三角”,短期內難以被代替。中國企業在單點硬件技術上有所突破,但國產軟件及生態適配仍有較大差距。
隨著信息技術應用創新產業的國產化改造提速,各行業逐步意識到需要加速構建國產推理生態。UCM的核心價值在于提供更快的推理響應、更長的推理序列等。
以提供更長的推理序列為例,UCM通過動態KV逐層卸載、位置編碼擴展等組合技術,將超長序列的Cache(緩存)分層卸載至外置專業存儲,利用算法突破模型和資源限制,實現10倍級推理上下文窗口擴展。
據悉,UCM可根據記憶熱度在HBM、DRAM、SSD等存儲介質中實現按需流動,同時融合多種稀疏注意力算法實現存算深度協同,使長序列場景下TPS(每秒處理token數)提升2至22倍,從而降低每個Token的推理成本。
Token是AI模型中的基本數據單位。在訓練過程中,AI大模型會學習標記Token之間的關系,從而執行推理并生成準確、相關的輸出。
數據顯示,國外主流AI大模型的單用戶輸出速度已進入200 Tokens/s區間(時延5ms),而我國主流AI大模型的單用戶輸出速度普遍小于60 Tokens/s(時延50至100ms)。
同時,隨著AI應用向各類實際場景深度滲透,用戶規模和請求量急劇攀升,模型分析和生成的Token數呈現指數級增長態勢。
巨大的Token處理量意味著高昂的運營成本,包括服務器維護、電力消耗持續攀升等,而保障流暢推理體驗需要加大算力投入。
最大化的單Token智能承載力和優化成本,成為眾多廠商的核心目標,并且Token經濟時代來臨,訓練、推理效率與體驗量綱都以Token為表征。
目前,華為AI推理加速方案結合UCM與華為AI存儲(OceanStor A系列)技術,與中國銀聯開展智慧金融AI推理加速應用試點,三大落地業務場景分別是客戶之聲、營銷策劃、辦公助手。雷火競技
以辦公助手場景為例,通過應用華為AI推理加速方案,可支持用戶輸入超過17萬Tokens的超長序列推理,避免超長序列模型推不動的問題。
《中國基金報》對本平臺所刊載的原創內容享有著作權,未經授權禁止轉載,否則將追究法律責任。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
遼寧一景區上演“搶灘登陸”?景區稱已派出全部快艇,網友:知道的是去上島,不知道的以為搞軍事演習
杭州高一男生住校一個月,天天崩潰到給媽媽打電話!這件很重要的事,有家長小學階段就開始做準備
洞察金融市場,傳播中國價值——《中國基金報》社官方賬號(《中國基金報》社有限公司運營管理)
季前賽-文班亞馬9+10+7馬刺31分大勝廣州 陳國豪13分奧迪20分
《編碼物候》展覽開幕 北京時代美術館以科學藝術解讀數字與生物交織的宇宙節律
299元首批秒售罄!小米金沙江磁吸充電寶今日開售:兼容小米17、iPhone 17全系
華為MatePad mini勁敵!蘋果iPad mini 8要來了:A19 Pro+OLED屏