初识 AI Infra - 夜羽的小作坊

近期接触了一些偏架构层面的工作，发现了 AI Infra 这个方向。碰巧之前在字节实习的团队做的就是成本性能优化，对这块产生了一些兴趣。在 B 站搜了一下 AI Infra，刷到了 WhynotTV Podcast #4 采访翁家翌那期，对 AI Infra 有了初步的认识。

经过几天的调研，以及对学术界、工业界一些人的咨询，我对 AI Infra 有了更多的认识。由于本人对 AI Infra 的理解尚浅，文中可能会有较大的 bias。但还是想先记录一下当前对 AI Infra 的认知，希望几年后的自己不要嫌弃现在的自己太幼稚。

AI Infra 是在做什么#

个人看来，如果要用一句话概括什么是 AI Infra，我认为就是”让 AI 系统更高效地跑起来”。具体覆盖训练基础设施、推理基础设施、数据与 Eval Infra、GPU 集群管理，以及近年比较新的 Agent Runtime。

最容易被外界看到的部分是成本与性能优化——KV cache、量化、PagedAttention、algorithm-aware kernel 这类硬指标——但这只是其中一个维度。可靠性、可扩展性、易用性、可观测性同样是 AI Infra 工程师要负责的事，只不过对外不那么”性感”。

我自己最感兴趣的还是性能/成本这一支，所以本系列后续会偏向这个角度。但写在前面，避免给读者”AI Infra = 写 kernel + 抠性能”的错觉。

和传统应用开发的差异#

真正的区别在于性能卡点不同：

传统后端 / Agent：松耦合分布式，通过 RPC、消息队列、CDN 把无状态服务横向扩展。性能瓶颈来自 IO、序列化、网络往返。
AI Infra：紧耦合分布式，通信原语是 NCCL 的 allreduce / allgather / broadcast 这类 collective communication，性能瓶颈是显存带宽、片间互联、通信与计算的重叠。

本质的差异在于关注的资源不同：

前后端工程师面临性能卡点时，主要手段是做好技术选型——换更快的中间件，加缓存，用更并发的运行时。
AI Infra 工程师面临的更多是”这台 H100 我只用到了 30%，剩下 70% 怎么压出来”——是对硬件本身的压榨。

不过 AI Infra 上层也并不是纯粹的”非业务”工作。推理框架的请求路由、batch 策略、调度器，本质上都是给上层算法/产品团队提供的平台能力。只不过这个”业务”的用户是公司内部的工程师而不是终端用户。

为什么选 AI Infra#

我选 AI Infra 的理由可以分两层：需求侧——市场本身有强烈的成本优化诉求；供给侧——应用层工程师价值正在被 AI 稀释。两者叠加，构成了选这个方向的核心动机。

先说需求侧。在 AI 应用开销极大的背景下，成本性能优化本身的价值比以往任何时候都大。 模型 serving 的 GPU 成本、训练的算力和电费比传统软件高出几个量级——这种开销结构下，单 token 成本哪怕只压下几个百分点，对一家有规模的 AI 公司都是显著的盈亏差异。

尤其是等 AI 市场逐步走向红海，行业本身的增长跟不上成本的增大，光靠”开源”已经不够，还要狠狠地节流。这种环境下，成本性能优化会从”锦上添花”变成”生死线”，AI Infra 工程师的价值也会被进一步放大。

再说供给侧。在 AI 时代，写应用类代码的工程师价值正在被快速稀释。

我自己之前在工业界做过一段时间 Agent，体感是它和做前后端没拉开多大距离。

需要说明的是，我并不是要贬低 Agent，也不是说 Agent 就是在后端的基础上加一层模型 API 调用——实际上做 Agent 和做前后端要学的技术几乎完全不同。我说的”没拉开多大距离”，指的是入门门槛和能构筑的壁垒在同一个数量级，而不是”技术栈一样”。

可以拿前端和后端来类比：前端用 React、Vue，后端用 SpringBoot、Gin，技术栈几乎没有重叠，难度也不完全一样——后端要懂的东西通常比前端多一些。但这种差异是一个数量级以内的差异，没人会因此把后端摆在比前端”高一阶”的位置上。

Agent 和前后端的关系类似：要学的框架从 http、rpc 换成了 langchain、langgraph，要了解的中间件从 Redis、MySQL 换成了 MCP、Skills、Harness 等上下文工程；门槛确实又比后端高一些，但仍然在同一个数量级里。三者大致排成前端 < 后端 < Agent 的阶梯，但都属于”做应用”这条线——核心都是把具体业务跑通。

而把业务跑通这件事，目前 SOTA 的模型已经非常擅长，甚至比绝大多数初级工程师做得更好。即使有新概念出现，只要把文档塞进上下文，大概率也能跑出可用结果。

需要补充的是，任何方向做到最顶尖都是有壁垒的——最顶尖的前端、后端、Agent 工程师同样很难被 AI 替代。但在 AI 时代，门槛本身或许也是壁垒的一部分：门槛低的赛道，AI 追上从业者中位水平的速度更快，普通玩家被稀释得也越早。所以选方向时，不只是看天花板能到哪里，也要看下限是否够稳。

当然，Agent 工程也有它自己的硬骨头——eval 体系、不确定性管理、context engineering——这些是传统前后端没有的问题。把 Agent 完全等同于前后端会低估它。但从”什么样的工作会更快被 AI 替代”这个角度看，Agent 和前后端一起，都是更靠近应用层的那一侧。

相比之下，底层优化目前还是模型不太擅长的领域——至少暂时如此。算子自动生成、编译器自动调优 torch.compile、TVM auto-scheduler、AlphaTensor，甚至直接用 LLM 直接写 CUDA kernel，这些工作其实一直在推进，AI Infra 的护城河不是永久的。但它会比应用层晚一些被侵蚀，给我留出时间窗口。

门槛与技能栈#

AI Infra 是个高门槛方向，几个维度都需要补齐：

编程语言：算子 / 编译器 / kernel 那一支必须 C/C++ + CUDA / Triton。但推理框架上层、调度系统、训练框架的 user-facing API 依然以 Python 为主——vLLM、SGLang、Megatron 的上层都是 Python。Rust 在 AI Infra 现状下其实比较小众（candle、tch-rs 都不主流），不必为它专门花时间。对 Java、Python 起手的玩家来说，最大的挑战是 C++ 和 CUDA。
硬件认知：GPU 架构（SM、warp、memory hierarchy、tensor core）、片间互联、显存模型，这部分纯软件出身的人确实需要重新学。
深度学习与 LLM：至少要能讲清楚一个 token 是怎么生成的、attention 的计算流程、KV cache 在做什么。

门槛高的另一面是壁垒高。一旦入行，被替代的风险会比应用层小一些。

入门方向的选择#

AI Infra 内部其实分支不少，入门方向选择影响后续的卷度：

推理引擎 + 算子：最直接也最卷的路线。vLLM / SGLang 是热门，flash-attention 类的 toy project 已经成了 AI Infra 八股。
训练基础设施：DeepSpeed / Megatron 调参、调度系统、checkpoint、容错。相对没那么拥挤，对工程能力的要求更全面。
Agent Runtime：新兴方向，Anthropic 的 Harness / Skills、各家的 agent framework 都属于这一支。不强制要求 CUDA，对 Agent 工程有经验的人切入会比较顺。

我自己当前的 Roadmap 走的是第一条路线，主要是因为它和我感兴趣的”成本/性能优化”重叠度最高。但如果是从 Agent 那边过来想转 Infra，第三条路线可能更顺。

一个需要承认的风险#

高门槛 = 高壁垒，但也 = 高集中度。目前国内 AI Infra 的需求主要在头部几家——大模型公司（DeepSeek、月之暗面、智谱、阶跃、MiniMax）和大厂 Infra 团队（字节豆包、阿里通义、腾讯混元）。如果未来模型训练规模见顶，相关岗位会快速收敛到少数几家公司，机会反而比应用层更稀缺。

这是一个高方差选择：选对了路径 + 选对了公司，回报会比应用层好得多；但如果行业景气度下来，或者自己卡在了某个细分赛道里，路径会比应用层窄。值得选，但要明白在赌什么。

接下来做什么#

先把规划好的 AI Infra Roadmap 走完，验证一下当前的判断。本系列后续每个阶段都会有一些笔记和实践记录。