红帽推出llm-d社区,赋能大规模分布式生成式AI推理
红帽推出llm-d社区,赋能大规模分布式生成式AI推理
2025-05-26 10:43:33 来源:CIO时代
抢沙发
2025-05-26 10:43:33 来源:CIO时代
摘要:该项目让生产型生成式AI像Linux一样无处不在,与创始贡献者CoreWeave、Google Cloud、IBM Research和NVIDIA合作打造,携手行业领导者AMD、思科、Hugging Face、英特尔、Lambda和Mistral AI,并获得了来自加州大学伯克利分校和芝加哥大学的支持
关键词:
红帽
红帽公司近日宣布启动全新开源项目llm-d,以满足生成式AI(gen AI)未来最关键的需求:大规模推理。llm-d采用原生Kubernetes架构、基于vLLM的分布式推理和智能AI感知网络路由,利用突破性的大规模生成式AI推理技术,让强大的大语言模型(LLM)推理云能够满足最苛刻的生产服务级目标(SLO)。
虽然训练仍然至关重要,但生成式AI的真正影响取决于更高效和可扩展的推理——将AI模型转化为可操作洞察和用户体验的引擎。根据Gartner[1]数据,“到2028年,随着市场的成熟,80%以上的数据中心工作负载加速器将专门部署用于推理,而不是训练用途。”这强调了生成式AI的未来在于执行能力。随着推理模型日益复杂和规模不断扩大,其对资源需求的持续攀升限制了集中式推理的可行性,并有可能因成本过高和延迟过长而使AI创新陷入瓶颈。
通过llm-d满足可扩展生成式AI的推理需求
红帽及其行业合作伙伴正通过llm-d应对这一挑战。llm-d是一个前瞻性项目,它能增强vLLM的能力,从而超越单台服务器的限制,为AI推理解锁大规模生产。使用Kubernetes久经考验的编排能力,llm-d将先进的推理能力集成到现有的企业IT基础设施中。该统一平台使IT团队能够满足关键业务工作负载的各种服务需求,同时部署创新技术以最大限度地提高效率,并显著降低与高性能AI加速器相关的总体拥有成本(TCO)。
llm-d提供了一套强大的创新,其中包括:
vLLM已迅速成为开源领域的事实标准推理服务器,为新兴的前沿模型提供Day 0模型支持,并支持各种加速器,现已包括Google Cloud张量处理器单元(TPU)。
预填充和解码分离将AI的输入上下文和token生成阶段分离成离散操作,然后将它们分布到多个服务器上。
键值缓存卸载,基于LMCache,将键值缓存的内存负担从GPU内存转移到更具成本效益且容量更大的标准存储,如CPU内存或网络存储。
由Kubernetes驱动的集群和控制器可在工作负载需求波动时更高效地调度计算和存储资源,同时确保性能和较低的延迟。
AI感知网络路由,用于将传入请求调度到最有可能拥有过去推理计算热缓存的服务器和加速器。
高性能通信API可实现服务器之间更快、更高效的数据传输,支持NVIDIA推理传输库(NIXL)。
llm-d:受到行业领导者的支持
该全新开源项目已经获得了由领先的生成式AI模型提供商、AI加速器先驱和主要AI云平台组成的强大联盟的支持。CoreWeave、Google Cloud、IBM Research和NVIDIA是该项目的创始贡献者,而AMD、思科、Hugging Face、英特尔、Lambda和Mistral AI是该项目的合作伙伴,这也表明,业界在构建大规模LLM服务的未来方面开展了深入合作。加州大学的Sky Computing Lab(vLLM的发起者)和芝加哥大学的LMCache Lab(LMCache的发起者)作为创始支持者加入llm-d社区。
基于对开放合作的坚定承诺,红帽认识到,在快速发展的生成式AI推理领域,充满活力且易于访问的社区至关重要。红帽将积极推动llm-d社区的发展,为新成员营造一个包容的环境,并促进其持续发展。
红帽的愿景:任意模型,任意加速器,任意云,自由部署
AI的未来应当充满无限机遇,而不应受到基础设施孤岛的限制。红帽认为,未来,企业可以在任意云环境中的任意加速器上部署任意模型,提供卓越且更加一致的用户体验,而无需高昂的成本。为了释放生成式AI投资的真正潜力,企业需要一个通用推理平台——一个用以推动当下以及未来数年中,更加无缝、更高性能AI创新的标准。
正如红帽通过将Linux转变为现代IT的基石,开创了开源企业先河,如今红帽正构建AI推理的未来。vLLM拥有成为标准化生成式AI推理核心的潜力,红帽致力于构建一个繁荣的生态系统,不仅围绕vLLM社区,还包括用于大规模分布式推理的llm-d。红帽的愿景非常清晰:无论采用何种AI模型、底层加速器或部署环境,vLLM都能成为新型跨混合云环境推理的开放标准权威。
第四十一届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:lijj
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。