香港商報
-- 天氣
華為發布AI推理技術UCM 實現高吞吐低時延

華為發布AI推理技術UCM 實現高吞吐低時延

責任編輯:程向明 2025-08-12 14:54:16 來源:香港商報網

 8月12日,在2025金融AI推理應用落地與發展論壇上,華為正式發布AI推理創新技術UCM(推理記憶數據管理器)。該技術是一款以KV Cache為中心的推理加速套件,集成了多類型緩存加速算法工具,實現推理過程中KV Cache記憶數據的分級管理,從而擴大推理上下文窗口,提升推理效率。

 UCM通過優化推理過程,可顯著改善用戶與AI交互時的體驗,包括降低回答問題的時延、提升答案準確度以及增強複雜上下文的推理能力。這一技術方案有助於實現高吞吐、低時延的推理效果,並有效降低每Token的推理成本。

 HBM是解決「數據搬運」的關鍵技術。當HBM不足時,用戶使用AI推理的體驗會明顯下降,導致出現任務卡頓、響應慢等問題。華為此次技術突破有望緩解這一瓶頸。

 華為數據存儲產品線副總裁樊傑在接受央廣財經記者專訪時指出,AI下一階段的突破將高度依賴高質量行業數據的釋放,而存力正是激活數據價值、賦能垂直行業的關鍵基礎設施。華為通過技術優化,推出的高性能AI存儲,能夠將小時級數據加載縮短至分鐘級,使算力集群效率從30%提升至60%。在推理環節,通過長記憶存儲能力,避免重複運算,大幅降低推理成本。

 當前,AI產業發展重心已從「追求模型能力的極限」轉向「追求推理體驗的最優化」,推理體驗成為影響用戶滿意度和商業可行性的關鍵因素,也是衡量模型價值的重要標準。

 據悉,華為計劃於今年9月正式開源UCM,屆時將在魔擎社區首發,後續逐步貢獻給業界主流推理引擎社區,並共享給業內所有Share Everything(共享架構)存儲廠商和生態夥伴。

責任編輯:程向明 華為發布AI推理技術UCM 實現高吞吐低時延
香港商報PDF

友情鏈接

承印人、出版人:香港商報有限公司 地址:香港九龍觀塘道332號香港商報大廈 香港商報有限公司版權所有,未經授權,不得複製或轉載。 Copyright © All Rights Reserved
聯絡我們

電話:(香港)852-2564 0768

(深圳)86-755-83518792 83518734 83518291

地址:香港九龍觀塘道332號香港商報大廈