!华为“黑科技”来了九游会网站AI重磅
据悉○•▼…•,UCM可根据记忆热度在HBM○□、DRAM…☆▽•■▲、SSD等存储介质中实现按需流动●□□•▪,同时融合多种稀疏注意力算法实现存算深度协同☆▷○,使长序列场景下TPS(每秒处理token数)提升2至22倍•◇▼△=,从而降低每个Token的推理成本▪▷▪★▪□。
巨大的Token处理量意味着高昂的运营成本□◁,包括服务器维护•▽…、电力消耗持续攀升等▲□,而保障流畅推理体验需要加大算力投入▪□□○◇。
据悉☆▼○=□☆,华为计划在9月开源UCM☆◁★▪-。届时▷△◇,华为将在魔擎社区首发○-▷=,后续逐步贡献给业界主流推理引擎社区-▲,并共享给所有Share Everything(共享架构)的存储厂商和生态伙伴●○●▽。
与中国银联开展智慧金融AI推理加速应用试点九游会在线官方网站●=△•,三大落地业务场景分别是客户之声□■▲★、营销策划▷◆、办公助手○◇▷。
目前▼△■,华为AI推理加速方案结合UCM与华为AI存储(OceanStor A系列)技术▽■▽=▷☆,

AI推理是AI产业在下一阶段的发展重心★…▼。AI产业已从•■▲□▲“追求模型能力极限•▲●…▷”转向▪▼△◇•“追求推理体验最优化△•△◆◁”▷◆○…▼,推理体验直接关联用户满意度▷●▼◇、商业可行性等核心需求◇◆◇■,成为衡量AI模型价值的黄金标尺•▽◇◇○。
目前…◁▪◁△▷,国外领先芯片厂商通过从硬件迭代到软件优化◁◆▽◆○◆,再到生态绑定…□,构建起AI推理时代的★■■“铁三角◁△☆▼•▪”◁●□,短期内难以被代替■-=★▷。中国企业在单点硬件技术上有所突破•▼▲●▷…,但国产软件及生态适配仍有较大差距…◁。

同时◁▲==☆,随着AI应用向各类实际场景深度渗透▽=!华为“黑科技”来,用户规模和请求量急剧攀升▼■◁,模型分析和生成的Token数呈现指数级增长态势★◁。
8月12日下午=◁……◆◁,华为正式发布AI推理□◇▽◆“黑科技▲□☆•”UCM(推理记忆数据管理器)☆■★○,助力解决AI推理效率与用户体验的难题-◇◁◆。
KV Cache是一种用于优化计算效率▽★○=●、减少重复运算的关键技术…◆◇◁,但是需要占用GPU(图形处理器)的显存存储历史KV(键值)向量◇▪▪,生成的文本越长•▽▼□★▼,缓存的数据量越大▼=○•。
数据显示-○=•▼…,国外主流AI大模型的单用户输出速度已进入200 Tokens/s区间(时延5ms)◆▪•◁,而我国主流AI大模型的单用户输出速度普遍小于60 Tokens/s(时延50至100ms)◇◇。
最大化的单Token智能承载力和优化成本☆□…◇○,成为众多厂商的核心目标•▽••●○,并且Token经济时代来临▼◆-■,训练•■、推理效率与体验量纲都以Token为表征◁▼▼。
UCM是一款以KV Cache(键值缓存)为中心的推理加速套件★■○■-,融合多类型缓存加速算法工具▽••◆□★,可以分级管理推理过程中产生的KV Cache记忆数据◇■☆,扩大推理上下文窗口△☆◇,以实现高吞吐○▽◇…●、低时延的推理体验▪◇◇•□,从而降低每个Token(词元)的推理成本▽△★★◆◁。
Token是AI模型中的基本数据单位☆▲▪。在训练过程中□■□,AI大模型会学习标记Token之间的关系◁-□▷,从而执行推理并生成准确△◇、相关的输出…=▲○●•。
以提供更长的推理序列为例▪▷▷九游会机械击灵键盘!,UCM通过动态KV逐层卸载★▲、位置编码扩展等组合技术◆△△•=,将超长序列的Cache(缓存)分层卸载至外置专业存储-★=●了九游会网站AI重磅,利用算法突破模型和资源限制••■△,实现10倍级推理上下文窗口扩展九游会在线官方网站-★★◆•。
以办公助手场景为例-☆=,通过应用华为AI推理加速方案▽☆==▽…,可支持用户输入超过17万Tokens的超长序列推理▪▷☆□•,避免超长序列模型推不动的问题○▽=-△。
随着AI产业的发展迈入代理式人工智能时代▲△★•◆,模型规模化扩张◇▲◆▽、长序列需求激增▷★,以及推理任务并发量增长☆•▽◁•,导致AI推理的KV Cache容量增长▪…▼▲•…,超出了显存的承载能力▽…●。
随着信息技术应用创新产业的国产化改造提速-■,各行业逐步意识到需要加速构建国产推理生态◁=。UCM的核心价值在于提供更快的推理响应=▽▽、更长的推理序列等▼■…□■。




