算力范式迁移:AI竞争正从芯片性能走向系统效率

2024年初,我曾坚信GPU数量决定一切。彼时行业共识清晰:OpenAI带起的大模型浪潮里,谁拥有更多H100,谁就更接近AGI。谁敢砸钱建训练集群,谁就是AI时代的赢家。算力范式迁移:AI竞争正从芯片性能走向系统效率 IT技术

判断失误的起点

这个逻辑在训练阶段成立,在2024年也足够解释大部分股价波动。但它有一个致命盲区:把AI竞争简化成了“算力军备竞赛”,忽视了从模型训练到商业落地之间那道巨大的鸿沟。

三个信号让我重新校准认知

第一个信号来自一组数据。Deloitte估算推理负载占AI总算力的比例:2023年约1/3,2025年接近1/2,2026年预计达到2/3。IDC则预测,到2027年中国推理算力占比将突破70%。这组数字揭示了一个基本事实:AI的成本中心正从“训练一次”转向“运行无数次”。

第二个信号来自郑纬民院士的成本拆分。他指出,大模型推理成本中,人力占3%,数据占2%,算力占95%。ChatGPT日均推理开销约70万美元,DeepSeekV3约8.7万美元。当推理成为持续性运营开支而非一次性资本投入,企业必须开始追问ROI。

第三个信号来自Intel和AMD的财报。Intel2026年Q1数据中心与AI业务同比增长22%,AMDEPYC服务器CPU在2025年Q4营收份额突破41%。GPU巨头和传统CPU厂商同时获得市场重新定价,这不是偶然。

被长期低估的系统瓶颈

MLPerf基准测试显示,数据加载、预处理、参数同步等环节占大模型训练总时间的35%到60%。IDC调研表明,头部互联网企业AI推理集群GPU平均利用率长期低于40%,中小企业甚至不足15%。这不是GPU性能不足的问题,而是数据流动、任务调度、内存管理、I/O协同、网络处理等系统层环节跟不上。

在真实AI工作流里,GPU前面有数据准备,后面有结果处理,中间有任务调度、缓存维护、上下文切换、网络通信、容器管理、数据库交互。承担这些控制流和系统协同的,主要是CPU。

智能体场景下的CPU价值重估

康奈尔大学的研究提供了更直接的证据:在五类代表性Agent工作负载中,CPU端的工具处理、逻辑调度和数据预处理占总端到端延迟的比例高达43.8%到90.6%。在RAG场景中,CPU处理占比甚至超过90%。当智能体成为AI落地主流形态,瓶颈已经从“GPU算得快不快”变为“CPU能不能把整条任务链顺畅跑完”。

TrendForce指出,当前AI数据中心CPU与GPU配比约为1:4到1:8,智能体AI时代将逐步演变为1:1到1:2。这不是CPU多卖几颗的问题,而是AI基础设施从“计算中心化”转向“系统中心化”。

对从业者的方法论启示

首先,重新评估GPU利用率的优先级。买更多GPU之前,先诊断现有系统的资源浪费点在哪里。数据加载瓶颈、调度效率低下、I/O阻塞——这些系统层问题往往比单卡性能更能决定整体效率。

其次,重新理解成本结构。训练是研发问题,推理是利润问题。运营成本的可控性,才是AI商业化的真正门槛。

最后,关注整机系统能力而非单点性能。当英伟达和Arm同时宣布进军服务器CPU市场,所有顶级玩家都在补系统能力,说明竞争维度已经升维。