首页 > 手机> 正文

腾讯云X荣耀:打造高性能AI底座,吞吐最高提升2倍

Blue 编辑:Blue 发布于:2025-12-29 22:14 PConline原创
由华为云驱动

2025年,腾讯云基于TencentOS Server AI底座,为荣耀推理平台部署TACO-LLM加速模块。该模块采用“投机采样”技术,大幅提升推理速度和系统稳定性,使DeepSeek-R1场景下响应时间最高降低12.5倍,吞吐量翻倍。此优化满足荣耀AI多任务高并发需求,显著提升用户交互体验。

去年12月,腾讯云公开了一个秘密在评论区,有留言说:

小半年过去了,如何让荣耀推理平台性能效率更高、推理速度更快,我们一直在努力——

基于腾讯云TencentOS Server AI底座,我们为荣耀部署大模型提供了TACO-LLM加速模块,提升了推理效率和系统稳定性。

具体来说,主要做了两件事:

一是提升推理平台的整体性能和稳定性。

荣耀的AI功能越来越多,后台往往是多个任务同时在跑,大模型调用频繁、并发量高,对AI底座的要求越来越高。

TACO-LLM加速模块采用「投机采样」技术,简单理解就是让大模型先「大胆预测一波,再快速修正」,跳过「一个字一个字计算推理」的低效流程,大幅提升推理速度,也更好地利用了GPU算力。

看看效果——

在DeepSeek-R1 满血版场景下,相对于荣耀原始线上业务性能,TTFT(首Token延迟)P95的响应时间最高降低6.25倍,吞吐提升2倍,端到端延迟降低 100%。在社区最新版本 sglang 场景下,TTFT P95 的响应时间最高降低 12.5 倍。模型运行更平稳,系统调度更顺畅。

二是优化意图识别场景的响应速度。

像这些交互类功能,对「即时反馈」要求特别高。

TACO-LLM加速模块针对这类高频调用场景进行了定向优化,在高性能GPU平台上,最大限度压缩了推理耗时。

在荣耀,TACO-LLM 让DeepSeek的推理速度:在 A平台上提升 70%,在B平台上提升 20%。

网友评论

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部