· · ·

世界杯赛程

世界杯赛程

FIFA世界杯官方合作指定网站 国产GPU组了个开源局,把SGLang等中枢开辟者齐摇来了!

发布日期:2026-05-15 14:05 来源:未知 作者:admin 浏览次数:

FIFA世界杯官方合作指定网站 国产GPU组了个开源局,把SGLang等中枢开辟者齐摇来了!

莫得大厂高管站台,一房子却挤满了开源圈的熟面容。

马虎往台下扫一眼,就能对上好几个GitHub上的明星 ID:

有现时大模子推理框架顶流SGLang的中枢开辟者BBuf(Xiaoyu Zhang);

有主导下一代算子编程生态TileLang的贯注者唐正举;

有操刀 KVCache 解耦与传输神器Mooncake的中枢孝顺者马腾;

有来自智源东谈主工智能考虑院、围绕Triton/FlagOS死磕 AI 编译器的肖航;

还有像R0CKSTAR这样在 GitHub 上特地活跃的硬核开辟者。

这场看似是开源圈极客们的面基会,却真实是有点反差在身上的——

行动的攒局者,是国产 GPU玩家,摩尔线程。

这事确乎有点道理。

因为当年提到国产 GPU,外界最容易思到的关键词,每每如故硬件参数、显存容量、算力盘算、生态替代、模子能不成跑起来。

但这场SGLang × MUSA Meetup真实抛出的问题照旧变了:

如何让国产 GPU 真实参预大模子推理的主流开源工程链路?

说得更径直极少,就是让 SGLang、Triton/FlagOS、TileLang、Mooncake、KVCache、P/D 分手、散布式通讯、CI/CD、upstream PR 这些东西,能够围着国产 GPU 通盘转起来。

有一说一,在全体听下来之后,有一个相配直不雅的感受。

那就是国产 GPU 的竞争,照旧不单是芯片参数之争,转而开动迈向生态坐标之争。

为什么这样说?咱们链接往下看。

国产 GPU 开动"扩圈"了

先看这场 Meetup 自己。

它的主题很明确:SGLang × MUSA。

SGLang 是当下大模子推理 serving 领域温雅度很高的开源框架,面向 LLM 和多模态模子,中枢场合是低延伸、高婉曲,障翳从单卡到大界限散布式集群的部署场景。

这类框架之是以遑急,是因为今天的大模子落地,早就不是"模子西宾好了,放上去跑"这样浅易。

真实参预出产环境后,系统要处理的是一整套复杂问题。

举例 prefill 和 decode 如何拆,KVCache 如何复用,长崎岖文如何省钱,多轮对话如何降 TTFT,大界限集群如何蜿蜒,新模子发布后如何 day-0 support,出了性能 gap 如何定位到具体 kernel。

第一个上台的是 SGLang 中枢开辟者BBuf。

△SGLang 中枢开辟者 BBuf

这个在 GitHub 上领有 27k 星的开源推理框架,当今照旧是全球开辟者部署大模子的首选。

他带来的 SGLang 2026 Q2 Roadmap,每一条齐踩在行业的痛点上:

针对 DeepSeek V4 的全链路优化,包括 W4A16 量化、MegaMoE 加快和寥落贯注力守旧;

jit_kernel 全面替代传统的 sgl-kernel,用 TVM-FFI 把编译速率晋升了数倍,再也毋庸等几个小时的 wheel 包;

Vibe Coding 全面落地,用 AI agent 自动分析 profiler、定位性能瓶颈、提交 PR,5 月前照旧完成了进步 60 个优化任务;

多模态才气全面升级,守旧 LTX2、Wan、混元视频等最新模子,性能比其他框架最高快 5 倍。

最让东谈主印象深入的是他展示的一组数据。

SGLang 通过 P/D 分手架构,在 12 个 H100 节点上跑出了 52.3k 输入 token/s/node、22.3k 输出 token/s/node 的成绩,比 DeepSeek 官方 API 还低廉 5 倍,这个脱色照旧被全球 10 多个团队复现。

紧接着上台的摩尔线程 Contributor  R0CKSTAR,带来了全场最硬核的工程推论分享。

△摩尔线程工程师 R0CKSTAR

他用一句话回来了当年半年的使命:

SGLang on MUSA 照旧完成了从环境构建到 CI 测试的全链路买通。

这意味着什么?

当今你唯有克隆 SGLang 的官方仓库,装配 sgl-kernel 和 sglang,就能在摩尔线程 MTT S5000 显卡上径直运行简直所有主流大模子。

DeepSeek、通义千问 3.5、GLM-4.5、FLUX、Wan 这些热点模子,齐照旧完成了深度优化。

他绝顶提到了 MUSA 的三层 CUDA 兼容栈。

当年适配一个推理框架要改几千行代码,当今唯有在着手加一转 import torchada,99% 的 CUDA 代码就能径直运行。这个看似浅易的编削,处理了国产 GPU 生态的一大痛点。

据了解,限制 5 月 12 日,摩尔线程在 SGLang 干线累计提交 47 个 PR,其中 41 个已合入,完成了从环境构建到散布式推理的全链路买通。

智源的肖航则带来了 DeepSeek V4 在 MUSA 上的 Day0 适配效果。

△智源 AI 编译器考虑员

通过 FlagOS 的 Triton 算子优化和摩尔线程的 SQMMA 张量加快引擎,okooo澳客APP2026世界杯中国官网他们把 DeepSeek V4 的首 token 延伸缩短了 56.7%,婉曲量晋升了 23%。

对此,肖航示意:

咱们莫得作念什么黑魔法,就是把两个最关键的算子优化到了极致。

FP8 矩阵乘算子平均加快 8.85 倍,寥落贯注力算子平均加快 6.01 倍,这两个占了推理时候 80% 的算子一优化,端到端性能当然就上去了。

TileLang 贯注者唐正举的分享,则让所有东谈主看到了下一代算子编程的畴昔。

△TileLang 贯注者唐正举

这个 2025 年 2 月才开源的口头,短短一年多就得益了 6k 星和 133 位孝顺者,连 DeepSeek V4 的中枢 kernel 齐是用 TileLang 写的,正如唐正举所说:

用 TileLang 写 FlashAttention,唯有 50 行 Python 代码,性能和各人手写的 CUDA 一模一样。

况且从他在现场展示的对比图来看,一样的 GEMM 算子,TileLang 用 15 行代码达到了 CUTLASS 的性能,代码量减少了 90%。

终末上台的阿里云马腾,带来了 Mooncake 口头的最新证据。

△Mooncake Contributor 马腾

这个专注于 KVCache 解耦的口头,当今照旧是 SGLang、vLLM 等主流推理框架的标配。

他展示的一组较为吸睛的数据:

通过 RDMA P2P 权重更新,Kimi K2 1T 模子的权重同步时候从 53 秒降到了 7.2 秒,加快了 7.37 倍;EPD 三级解耦架构让多模态模子的首 token 延伸缩短了 6-8 倍;HiCache + Mooncake 后端让多轮对话的缓存射中率进步 90%。

至此,这场 Meetup 的拼图基本完好——

SGLang 是推理框架主链路,MUSA 是国产 GPU 底层平台,FlagOS/Triton 处理关键算子优化,TileLang 缩短高性能 kernel 编程门槛,Mooncake 补上 KVCache 和出产部署。

这,2026世界杯官网入口就是一条较为完好的工程链路。

为什么摩尔线程能把他们摇来?

这个问题的谜底不成只归结为办了一场行动。

开源圈很现实,各人欢跃来,中枢原因不是谁会讲故事,是这件事确切和他们正在作念的工程问题关联。

最初看 MUSA 自己的设想初心。

摩尔线程 CTO张钰勃在开场中解释,MUSA 是 Meta-computing Unified System Architecture。

△摩尔线程 CTO 张钰勃

Meta-computing 指向通用诡计,摩尔线程但愿 GPU 尽量拥抱通用诡计,而不是给畴昔可诡计的领域设限;Unified 则意味着摩尔线程产物但愿罢免归拢套融合步调,幸免不同产物线使用不同辅导集和架构,导致软件生态无法累积。

更关键的一句话是,MUSA 不但愿开辟者为了使用 MUSA 而从新学习一套东西。

这句话看似朴素,其实直指国产 GPU 生态的痛点。

开辟者最怕什么?

滚球app(中国)官网下载

不是新硬件自己,是为了新硬件,学习一整套新 API,重写一堆代码,改完还进不了上游,社区一更新又要从新补丁。

要是一个国产 GPU 生态条目开辟者从新学一遍,那它濒临的就是巨大的移动阻力。

是以 MUSA 的阶梯,是尽量迫临开辟者照旧熟悉的 GPU 编程表情、API 接口和使用民俗。底层扫尾不错不同,但表层体验尽可能一致。

三层 CUDA 兼容栈的道理就在这里。

torch_musa 负责把 PyTorch 和 MUSA 的基础才气接起来;torchada 负责让 CUDA-first 生态链接使命;mthreads-ml-py 负责把诞生料理、拓扑、显存、MTLink、P2P 等信息清晰给表层框架。

用一句更等闲的话说,摩尔线程在尽量把本来的路修到我方门口。

这径直影响到开源社区融合的可行性。

因为上游口头最垂青的是低侵入、可贯注、可复用。要是一个适配决议需要大面积编削干线代码,后续每次 rebase 齐祸害,上游很难摄取。

反过来,要是适配不错通过更透明的表情完成,PR 就更容易被 review,也更容易不时随同社区迭代。

这就是从"我我方贯注一个分支"到"我参预干线"的区别。

再看生态结合。

SGLang × MUSA,是推理主链路买通。

摩尔线程从旧年开动把 SGLang 动作重心接入和孝顺的开源口头,经由泰半年勇猛,MUSA 后端近期照旧合入 SGLang 干线。后续不单是随同 feature,也但愿在框架层面孝顺更多才气。

这件事的道理在于,国产 GPU 不再只是某个框架的外部适配对象,照旧开动成为干线生态的一部分。

FlagOS × MUSA,是关键算子和新模子适配。

大模子推理的性能竞争,越来越多发生在 kernel、编译器、蜿蜒、低精度和通讯层。DeepSeek V4 day-0 适配这样的使命,践诺上持重的是从模子发布到工程落地之间的反映速率。能不成第一时候跑通,能不成快速调优,能不成在真实 shape 上找到更好的设立,决定了生态跟不跟得上。

Mooncake × MUSA,是推谀媚耦和出产部署。

KVCache 的价值在 Agent、多轮对话、长崎岖文时期被进一步放大。Mooncake 与 MUSA 的结合,不单是让某个缓存后端能跑在国产 GPU 上,更是在探索跨实例 KVCache 分享、弹性扩缩容、缓存复用、原地升级这类出产级问题。

TileLang × MUSA,则是下一代算子生态的提前布局。

要是畴昔更多模子和硬件齐需要定制 kernel,算子编程不成始终停留在少数各人手里。TileLang 这类 DSL 的价值,是把高性能 kernel 编程酿成更多开辟者能上手的工程用具。

这四条线合在通盘,才是摩尔线程能组局的底气。

它把我方放进了大模子推理的真实工程辘集里,包括框架、算子、缓存、通讯、部署、CI/CD、upstream 等等。

而这,亦然国产 GPU 生态真实要补的课。

国产 GPU 的生态位,正在走向融合

要是把这场 Meetup 从更遍及的算力发展角度来看,它的价值粗略远超时刻分享自己。

当年几年,国产 GPU 的生态窘境是比拟昭彰的。

很多厂商民俗了闭门觅句,我方从新写一套深度学习框架,我方攒一套算子库,脱色因为不相宜主流开辟者的民俗,鲜有东谈主问津。

又或者,有的厂商只是拉一个独有 Fork 作念适配,从来不向开源上游提顶住码,导致主流框架一更新,我方的适配版块就成了无东谈主贯注的孤品。

而当今,摩尔线程给出了一个十足不同的谜底:

全面融入全球开源生态,去和全国上最灵敏的一批东谈主通盘作念事。

在这场行动中,咱们时常听到几个词:Day-0 Support、Upstream PR、CI/CD。

这讲明国产 GPU 的生态位正在发生质变。摩尔线程不再只炫耀于作念一个被迫的适配者,它要的是主动出击,成为中枢代码的"孝顺者",以致是畴昔架构的"共建者"。

他们不单是是丢一个单点的 Patch 当年,而是把一整套包含环境构建、PR 提交、CI 自动化测试、Release 发布、文档贯注在内的工程闭环,深深地镶嵌到了 SGLang 等顶级口头的血脉中。

这种可不时的 Upstream 模式,才是真实掌捏生态语言权的表情。

这场开源局还讲明注解了一件事,国产 GPU 照旧走上了大模子推理开源生态的各人牌桌。

在这个牌桌上,照旧坐着风头正劲的 SGLang,坐着死磕底层编译的 Triton/FlagOS,坐讲求塑算子生态的 TileLang,坐着主导解耦架构的 Mooncake。

而当今,国产 GPU,也不错拉开椅子,平安地坐下来,和这群明星玩家们通盘打好大模子时期最关键的这把牌。

一键三连「点赞」「转发」「防御心」

迎接在辩驳区留住你的思法!

—  完  —

� � 点亮星标 � �

科技前沿证据逐日见FIFA世界杯官方合作指定网站