3767 字
19 分钟
再谈 AI Infra

之前在初识 AI Infra 中,我基于自己的调研和有限的实习经历,写下了对这个方向的初步认识:核心命题是什么、和应用开发有什么区别、为什么选它、以及可能的风险。

最近又和两位朋友分别深聊了一次。一位是工业界的朋友,目前在头部大厂做 AI Infra,之前做过传统 Infra,近期转到了 AI Infra;另一位是同校的博士学长,方向是算子开发。两个人的背景完全不同,但聊完之后我发现,他们对很多问题的判断出奇地一致,同时也有些有趣的分歧。

本文主要分享一下我们讨论的部分问题、他们的观点、以及我的一些看法。由于样本数也比较少,本文只能算是访谈复盘,无法代表整个工业界或学术界的看法,需要辩证看待。如果你也在考虑要不要做 AI Infra,或者对这个方向好奇,希望能有一点参考价值。

为什么是 AI Infra#

工业界的朋友觉得 AI Infra 的角色是整个 AI 产业链的”效率因子”——它不直接产出模型,但能显著提升模型迭代的效率、降低训练和使用模型的成本。在他看来,目前 AI 领域有三大值得关注的方向:基模、数据和 AI Infra。其中 AI Infra 是那个让前两者跑得更快的加速器。

同校学长的研究方向是存算一体,他选择做 AI Infra 也是因为看好这个领域的前景,而且做算子和他的研究方向不算冲突。他个人是古法编程的支持者,而目前 AI Infra 暂时还没有被 Vibe Coding 占领,虽然他也承认这种局面可能很快就会被打破,但 AI Infra 本身的难度和壁垒可见一斑。

从工业界到学术界,不同角度指向同一个判断:AI Infra 是目前少数既有足够技术深度、又有持续增长需求的方向之一。

我和他们有类似的判断,不过是从推导方式不太相同。我之前做过传统后端开发,也做过当前非常流行 Agent,我觉得这些工作没有本质区别——说白了都是写业务代码。Vibe Coding 的出现让这个问题更加尖锐:一个本科生只要用上 Claude Code,就能在短时间内上手大部分后端和 Agent 开发。而我近期接触了一些 Infra 的工作后,感受很直接:AI Infra 不一样,光是推理框架就已经很有难度了,更别说训练和算子。这些门槛是能够实实在在构建出壁垒的。

之前在字节做后端时的部门业务就与 Infra 相关,虽然不是 AI 方向,但能感受到整个公司的重心在明显往 AI 倾斜。传统 Infra 很成熟,学习曲线平缓,而 AI Infra 还在快速演化中——这意味着机会,也意味着需要持续学习。

此外,我个人认为,相比做基模,能把 AI Infra 做到顶尖的人更少。有一句话我认为比较能支撑这个观点:”想教一个 Engineer 做 Research 会比较简单,但想教一个 Researcher 做 Engineering 会很难”。底层原因是 Researcher 对技术的深度要求很高,他们没有那么善于将自己的注意力分散到多个维度;而工程师解决问题通常是需要同时考虑多个维度的。而做 AI Infra 你需要在有多维度思考的能力的基础上,还需要能够深入各个角度,对知识的广度和深度都有比较高的要求。

这个领域到底在做什么#

聊到 AI Infra 的技术全景时,工业界的朋友根据他的理解,给了一个很清晰的分层,大致可以用下图表示:

AI Infra 技术全景

  • 硬件层:通常做的是适配不同厂商的 GPU,比如英伟达、华为、寒武纪等
  • SRE / MLOps 层:偏向运维方向,主要做采购、上架、装机、K8s 集群管理等
  • 算子 / Kernel 层:一般是单个 Pod 内的具体计算优化,最接近硬件
  • 框架层:需要解决数据并行、计算并行、分布式通信等问题
  • 调度与编排层:实现资源池化,模型的部署、调度与编排,为上层提供便利
  • 平台层:API 封装、计费,偏产品侧,可能会直接对接具体产品

在他看来,这些方向的价值排序大致是:Kernel > 框架 > 编排 > 产品 > SRE。越靠近底层、越接近计算本质的方向,技术含量越高,也越核心。

博士学长把这些粗略分成了三个赛道:

  • 训推框架:对数学和竞赛功底要求高,有 ACM 金奖将会很加分
  • 业务推理框架:特定场景的内存/通信/数据优化,以及分布式训推,需要对传统 Infra 有经验
  • 算子开发:最底层的算子优化,对数学理论功底的要求很高,也需要熟悉各家硬件

两个人的分法不一样,但本质上描述的是同一片领域。如果说工业界的视角是”从公司组织架构看这条链路上有哪些团队”,学术界的视角就是”从一个想入行的人看有哪些方向可以选”。

行业走到哪了#

这是我最好奇的问题之一。

工业界朋友的判断是一句话:没那么毛糙了,但还远不够精细化。AI 本身发展太快,业务需求变化大,Infra 层面来不及做深度的精细化优化。目前很多场景下,用简单策略就能带来很大的性能提升——这本身就说明行业还处于中早期,有大量的低垂果实可以摘。

我自己也预期 AI Infra 至少三到五年内还处于需求持续增长期,这和十五五的大战略方向是吻合的,AI Infra 可以说就是人工智能领域在计算机层面的“能源基础”,只不过能源基础设施带来的是更多的电,而 AI Infra 带来的是更多算力。

综合起来判断,画面就比较清楚了:这个领域还没到精耕细作的阶段,但已经过了最初的蛮荒期。 行业会向好,窗口还在;但对于想入场的人来说,窗口正在收窄。

Vibe Coding 会取代我们吗#

这个话题很有意思,因为两个人的关注点完全不同。

我和学长聊的更多的是「Vibe Coding 替代了谁」。我们的共识很明确:后端开发和 Agent 开发已经被大幅降低了门槛,但 AI Infra 暂时还没有。推理框架、训练框架、算子优化——这些工作的复杂度不是 Vibe Coding 目前能处理的。选择 AI Infra,某种意义上是在选一个 AI 暂时够不着的方向。

工业界的朋友想的更远一步。他承认人目前仍然不可或缺,但认为人的角色会发生变化——不是被取代,而是需要更擅长使用 AI。AI Infra 的性能指标和优化需求持续随业务变化,天然不那么适合模型一揽子解决,但这不意味着 AI 永远做不到。近期通过 Agent 直接端到端解决 AI Infra 的研究越来越多,字节近期推出的 Cuda Agent 就是一个典型的案例。

我自己比较认同 Andrej Karpathy 的观点:凡是能够以某种方式被验证的问题,迟早能被 AI 自动化。Ion Stoica 的团队也在积极探索用 AI 自动化地提升系统整体性能。AI 或许不只是解决现有问题,更能做到以往人类无法做到的事情。但要实现这些,关键在于人更擅长使用 AI,而不是靠 AI 独立完成。

所以我的结论是:不要因为觉得 AI Infra”安全”就选它,要因为你对这个方向本身感兴趣,能够支撑你深挖这个领域。 安全感是暂时的,兴趣才能支撑你走远。

什么能力最重要#

这个话题上,两个人的回答形成了有趣的互补。

工业界的朋友非常强调一点:对 AI 的深入理解远比传统 Infra 技能重要。他举了很具体的例子——你得理解 Transformer 架构、KV Cache、Attention 机制这些底层原理,才有可能做出 KV Cache 优化、PagedAttention 这样的工程创新。做训练需要懂 Pre-training 的优化原理,做 Post-training 需要了解 RL。通俗来说:想做好 AI Infra,尤其要做到极致,对 AI 算法的理解必须足够深——不要求你在算法上有直接创新,但一定要有理解当前 SOTA 算法的能力。

而传统的 K8s、分布式系统这些?他觉得上手门槛不高,学就行了。

这个观点和我在网上看到的很多说法不一样。不少人认为 AI 只需要过一个入门门槛,重点在 Infra 本身。但我更认同他的看法:传统 Infra 已经非常成熟了,学习资源到处都是,而真正深入理解 AI 的人反而稀缺。

学长则从”怎么学”的角度补充了具体路径。他的建议是:找一个代码量在 5000 到 10000 行的训推框架项目来学习,比如 SGLang、minitorch、nanovllm、tiny-flash-attention 这些。通过研读这些项目,间接学会 CUDA、Triton 等底层工具。然后实现两到三个硬核项目——不需要大而全,小而精就行,有深度最重要。

两个人的建议放在一起,路径就比较清晰了:先建立对 AI 算法的深入理解,再通过具体项目把理解转化成工程能力。 传统 Infra 的技能可以在过程中自然习得,不需要刻意优先。

AI Infra 学习路径

人才市场现在什么样#

工业界的朋友说得很直白:极度缺人,每个方向都缺。人才流动性也不错,跳槽机会多。

但门槛在变化。2024 到 2025 年,有传统 Infra 经验的人还可以跨方向转入 AI Infra。到了 2026 年,对 AI 相关经验的要求明显提高了——不是说完全不要没有 AI 背景的人,但门槛确实高了不少。

晋升方面,相比传统研发方向,AI Infra 的机会多得多。用他的原话说——“机会简直太多了,简直就是机会本身”。

压力当然也不小。很卷,大家都很努力。

我自己近期在创业公司接触 AI Infra 后也有类似的感受——这个方向的 bar 明显比做业务要高很多。但也正因为如此,才有更大的发展空间。

创业公司适合做 AI Infra 吗#

这个问题是我在和工业界朋友聊天时抛出来的,因为当时看到硅谷有不少 AI Infra 方向的 startup。

他不太看好。理由很朴素:AI Infra 是需求驱动的。没有明确的业务需求,很难做出好的 Infra。小公司没必要花大钱自建,老老实实用已有的服务做应用,效益最高。

聊完之后我也认同这个判断。Infra 恰恰是一个需要针对各家业务特化才容易优化的方向——你想做通用方案让所有人都用,不是技术上做不到,而是事实上很难让各家接受你的框架而舍弃已有建设。

我之前在字节时听过架构师的分享,他说我们可以参考 Meta、Google 的 Infra——它们确实更优秀,但没法直接照搬,因为已有建设差异太大,这是路线不同导致的。硅谷有 Databricks 这样的成功案例,但那是数据 Infra,赛道不完全一样。更多的 AI Infra startup,可能只是风口上的杂音。

要不要读博#

这个话题主要是和博士学长聊的,但我觉得对很多在犹豫的人有参考价值。

他分享了一个很实在的判断标准:如果没有任何资源支持,你能不能靠自己的能力毕业? 要接受自己可能没有产出。没有好坏之分,只有适不适合。

他还提到了两种导师风格:一种偏美式,平时几乎不管,但要求产出,实验室竞争氛围很强;另一种偏国内传统,一个博士带一群硕士一起做。选导师本质上是在选一种你愿意接受的科研生活方式。

对我来说,这段对话让我更加确认了一件事:不管最终选不选读博,最重要的是先把技术实力建立起来。方向选对了,路径可以再调整。

写在最后#

两场对话,两个完全不同背景的人,但聊完之后拼出来的图景比任何一方单独描述的都要完整。

工业界的朋友让我看到了 AI Infra 在实际生产环境中的复杂度和价值排序——什么方向最核心、什么能力最稀缺、行业发展到了哪个阶段。博士学长让我看到了一条从零开始的学习路径——怎么选方向、怎么建项目、怎么积累到足以入场的能力。

相比初识时的认知,这两场对话让我有了一些新的理解:对 AI 算法的深入理解比传统 Infra 技能更重要、行业还处在有大量低垂果实可摘的中早期、以及不要因为”安全”选 AI Infra,而要因为兴趣。尤其是最后一点——初识时我更多是从「壁垒」和「不容易被替代」的角度看问题,现在觉得那只是起点,真正能走远的还是对这个方向本身的热情。

如果把这些浓缩成一句话,大概是:

AI Infra 的窗口还在,但正在从”敢转就行”变成”得有真东西”。 理解 AI 的深度、动手做项目的密度、以及持续学习的耐心——这三样东西,比任何学历或标签都重要。

我自己也还在路上。写这篇文章的过程,也是在整理自己的思路。希望下次再写 AI Infra 相关的内容时,我已经不只是在聊别人告诉我的事,而是在分享自己做出来的东西。

博客桌宠