【干货分享】腾讯专有云吴伟:腾讯云TCS:提升异构算力管理效益,加速云原生AI构建

2025-05-29 16:43:10  来源:

摘要:近日,由CIO时代主办,新基建创新研究院作为智库支持的“科技至卓,同行至远 | 2025 CIO百人会高峰论坛”在北京重磅举行。腾讯专有云TCS首席架构师吴伟带来“腾讯云TCS:提升异构算力管理效益,加速云原生AI构建”主题演讲。
关键词: 干货分享
AI正加速驱动全球产业变革,面对数据治理、技术应用与生态协同等方面挑战。企业亟需通过智能化升级把握发展先机,实现从“量变”到“质变”的跨越。

近日,由CIO时代主办,新基建创新研究院作为智库支持的“科技至卓,同行至远 | 2025 CIO百人会高峰论坛”在北京重磅举行。腾讯专有云TCS首席架构师吴伟带来“腾讯云TCS:提升异构算力管理效益,加速云原生AI构建”主题演讲。



\
腾讯专有云TCS首席架构师 吴伟


精彩观点
腾讯专有云PaaS平台TCS通过云原生技术重构算力管理体系,帮助企业突破传统算力管理的局限,实现对异构甚至异地的不同算力资源的统一管理、调度与运营能力。未来将持续深化与行业大模型的融合,助力企业在AI时代构建敏捷、高效、安全的算力底座。

在AI技术迅猛发展的今天,算力作为核心生产要素,其管理与调度效率成为企业AI应用落地的关键瓶颈。腾讯专有云PaaS平台TCS异构算力管理平台通过云原生AI技术提升异构算力管理效益,加速云原生AI的构建,助力行业企业在AI时代构建敏捷、高效、安全的算力底座。



算力市场趋势与挑战

随着AI技术的广泛应用,加速服务器和加速芯片市场规模迅速扩大。据市场研究报告显示,中国加速服务器市场规模在近年来持续扩大,加速芯片出货量也屡创新高,其中GPU卡占据主导地位,但非GPU服务器市场也在快速增长,预示着算力市场正朝着多元化方向发展。

在算力资源分散、供应不稳、需求激增的背景下,企业面临着异构算力资源难以统一管理、资源配置和调度复杂、缺乏智能化监控运维及故障自愈能力、资源利用率低下等挑战。这些问题导致企业运营成本上升,业务创新能力受限。



腾讯专有云PaaS平台TCS
异构算力管理平台
云原生技术驱动的算力革命


针对上述挑战,腾讯云推出腾讯专有云PaaS平台TCS(Tencent Cloud-native Suite,简称Tencent TCS)异构算力管理平台,通过提供一站式的异构算力资源整合、调度、运营服务,显著提升资源使用的效率和灵活性,有效控制并优化成本。其核心能力包括:

异构算力统一管理:支持多种类型加速芯片的接入,实现算力资源的统一管理和调度。
异构算力灵活调度:根据应用需求及拓扑感知动态分配算力资源,提高资源利用率及性能。
智能运维与故障自愈:提供自动扩缩容、故障自愈、可观测性等功能,提升运维效率。
资源利用率提升与成本优化:通过内核态GPU共享、GPU在离线混部等技术手段,降低运营成本。

腾讯专有云PaaS平台TCS支持多集群扩展能力,能够实现对多种异构算力资源(如CPU、GPU、NPU等)的统一接入和集中管理。通过注册集群的扩展能力,平台可以无缝管理异地的云外集群,构建真正一体化的算力资源池。

针对各家加速芯片厂商提供的部署方式各异的问题,腾讯专有云PaaS平台TCS基于TAD(Tencent Application Definition)云原生应用声明式部署规范,提供了标准化的接入接口与适配框架,并实现了快速集成与高效部署,显著降低了适配成本,大幅缩短了部署周期。平台通过DevicePlugin框架+扩展资源的机制,高效管理第三方加速设备(如GPU、NPU等),支持全面的调度策略,满足不同应用场景下的算力需求。

腾讯专有云PaaS平台TCS  qGPU支持多个容器共享GPU卡,并提供显存和算力的精细隔离。在精细切分GPU资源的基础上,平台将GPU利用率“压榨”到极致,最终帮助客户大幅节约GPU资源成本。同时,平台还支持在离线混部技术,通过任务的优先级实现抢占调度功能,支撑训推一体业务部署。

FinOps成本中心:基于腾讯开源项目Crane开发的FinOps成本中心,提供资源可视化、分析及智能优化三大核心能力,旨在提升集群的资源利用率。Crane算法在腾讯内部自研业务中实现了大规模落地,成功部署至数百个容器集群,整体核数减少约 25%,为企业带来了显著的降本增效效果。目前,TCS FinOps已在多家头部金融及政企客户中成功应用,极大提升了集群的资源使用率。

大规模集群运维实践与全面监控管理:平台提供全面的集群监控管理功能,支持对基础设施、应用负载等场景下各类资源的全面监控运维,快速发现并定位运行异常。

GPU故障检测与自愈:平台内置GPU故障检测与自愈机制,能够及时发现并告警GPU故障,同时基于业务运行状态智能执行授权自愈操作。

统一运维运营门户:腾讯专有云PaaS平台TCS提供统一的运维运营门户,集成监控中心、日志平台、巡检、变更发布、运维工具、安全中心、容灾管理、故障演练等功能模块。



行业实践
从金融到半导体的算力优化升级


腾讯专有云PaaS平台TCS(专有云TCS)异构算力管理平台凭借其卓越的技术实力与灵活的管理能力,在多个行业领域取得了显著成效。

某头部商业银行云原生AI智算平台案例
某头部商业银行面对国内智算平台尚处于起步阶段、无成熟经验可借鉴的现状,决定通过采用腾讯专有云PaaS平台TCS作为云原生AI异构算力管理平台,提供的高性能、可扩展和稳定的容器编排调度、GPU虚拟化、多机多卡推理等关键能力,对英伟达、国产GPU/NPU卡的异构算力进行统一管理,构建了满足业务需求的智算平台。该平台成功支撑了银行数十个AI应用场景服务的稳定运行,涵盖了零售数字化服务、经营管理服务、风险管理服务及内部运营服务等多个领域。

某头部半导体厂商云原生PaaS平台案例
某头部半导体厂商在数字化转型过程中,面临着应用部署复杂、运维效率低下等问题。为提升业务运营效率,该厂商决定构建统一的云原生PaaS平台,以支撑其智慧园区、自主MES、协同办公、数字营销等创新业务的发展。该云原生PaaS平台成功支撑了该半导体厂商上百个应用的稳定运行,通过qGPU共享技术将GPU资源利用率提升60%,显著提升了业务运营效率。


结束语

腾讯专有云PaaS平台TCS将继续深耕云原生AI领域,不断优化异构算力管理平台,为企业提供更加高效、智能的AI开发与部署解决方案。同时,腾讯专有云PaaS平台TCS也将积极探索AI技术在更多行业的应用场景,推动AI技术的普及和发展。


✦精彩推荐✦
(点击下方图片查看详情)

\


\


联系我们
\

 

小  希:15701060895

第四十一届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhanghy

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。