Key Points
- AI基础设施相关的硬件包括专用芯片、AI嵌入式设备、数据中心、高性能互连技术和边缘计算硬件。
- 研究表明,这些硬件在全球范围内需求强劲,尤其是在AI模型训练和推理方面。
- 在中国,数据中心建设规模庞大,但存在闲置问题,GPU市场受出口限制影响显著。
- 证据倾向于显示,效率和可持续性是未来硬件发展的重点,特别是在数据中心冷却和能源使用上。
硬件概述
AI基础设施相关的硬件是支持AI应用的核心,包括专门为AI任务设计的芯片和设备。这些硬件确保了从模型训练到实时推理的高效运行。
全球趋势
全球范围内,AI基础设施硬件正朝着更高效、更可持续的方向发展。例如,微软与AMD、Intel和NVIDIA合作,开发如Azure Maia和Cobalt的定制硅芯片,并采用液态冷却系统以提高效率。
中国情况
在中国,尽管政府和企业(如阿里巴巴和字节跳动)投入巨资建设数据中心,但许多资源闲置,约80%的新建计算能力未被充分利用。此外,美国对高性能GPU的出口限制推动了中国开发本土替代方案。
调查报告
AI基础设施相关的硬件是支持人工智能(AI)和机器学习(ML)应用的基础设施的关键组成部分,涵盖了从专用芯片到数据中心的一系列物理设备。这些硬件在全球范围内需求强劲,尤其是在AI模型训练和推理的背景下。以下是详细分析,涵盖全球趋势和中国的特定情况。
AI基础设施硬件的定义与组成部分
AI基础设施通常包括硬件和软件,支持AI/ML应用的开发、训练和部署。从硬件角度来看,主要组成部分包括:
- 专用芯片:如图形处理单元(GPU)和神经处理单元(NPU),这些芯片专门设计用于加速AI任务。GPU(如Nvidia H100和H20)在训练大型语言模型(LLM)和内容生成中至关重要,而NPU则适合低功耗的本地AI处理。
- AI嵌入式设备:包括AI PC和智能手机,这些设备集成了AI能力,可以在本地运行AI工作负载,增强隐私性并减少对云计算的依赖。预计到2026年,AI PC将占PC出货量的40%以上,2024年15%的智能手机出货量能够运行LLM和图像生成任务。
- 数据中心:AI的高计算需求推动了数据中心的发展,这些中心需要先进的冷却系统(如液态冷却)和高效能源管理。全球数据中心的电力需求预计到2026年将相当于瑞典或德国的年需求,可能在未来十年内翻三倍。
- 高性能互连技术:如NVIDIA的NVLink,用于在高级GPU和芯片之间实现高效通信,以及6G技术,支持全球连接性。
- 边缘计算硬件:支持在数据源附近处理AI工作负载,减少延迟,特别适用于制造业和零售等行业。
这些硬件通常通过资本支出(CapEx)或运营支出(OpEx)模型交付,包括云服务形式,如AI基础设施即服务(AIaaS)。
全球趋势与发展
全球AI基础设施硬件市场预计到2029年将达到2238.5亿美元,年复合增长率(CAGR)为31.9%,主要由数据流量激增和计算需求推动。以下是主要趋势:
- 效率与可持续性:企业如微软正在与AMD、Intel和NVIDIA合作,开发更高效的硬件,如Azure Maia和Cobalt定制硅芯片。这些芯片旨在优化AI工作负载的性能,同时降低能耗。新数据中心计划实现零水冷却,并扩大使用高效液态冷却系统,如冷板技术。此外,微软承诺到2030年实现碳负、水正和零废物目标,投资低碳建筑材料(如近零碳钢、混凝土替代品和交叉层压木材)以及碳中和能源来源(如风能、地热能、核能和太阳能)。例如,2020年数据中心工作负载约为2010年的九倍,但电力需求仅增加10%,显示效率显著提升 (Global Trends in Internet Traffic, Data Centres Workloads and Data Centre Energy Use 2010-2020).
- 云计算优先:云提供商越来越多地提供AIaaS,使企业能够按需访问AI工具、预训练模型和可扩展基础设施,无需前期重资投入。这尤其适合中小企业,扩展到边缘AI即服务,支持制造业和零售等行业的本地AI处理。
- 市场动态与投资:AI芯片市场目前约500亿美元,保守估计到2027年将达到1100亿美元,甚至可能达到4000亿美元,占2024年全球5760亿美元芯片市场的11%。NVIDIA在专用芯片领域处于领先地位,推出了节能新芯片以满足需求 (Generative AI Chip Market to Reach $40 Billion in 2024).
- 能源效率与量子计算:AI基础设施创新还包括能源效率改进和量子计算的潜在应用,尽管量子计算仍处于早期阶段。
中国的情况
在中国,AI基础设施硬件的发展呈现出独特的模式,受到政府政策、国际出口限制和市场需求的双重影响:
- 大规模数据中心建设:2023-2024年,中国宣布了超过500个新数据中心项目,覆盖从内蒙古到广东的广泛地区。到2024年底,至少有150个数据中心完成并投入运行 (China Communications Industry Association Data Center Committee). 然而,约80%的新建计算资源闲置,显示出显著的过剩容量 (Jiazi Guangnian, 36Kr).
- 政府与企业投资:政府将AI基础设施列为国家优先事项,尤其是在ChatGPT出现后的2022年底。阿里巴巴计划在未来三年内投资超过500亿美元用于云计算和AI硬件 (Alibaba to Invest More Than $52 Billion in Cloud Computing and AI Hardware),字节跳动计划投资约200亿美元用于GPU和数据中心 (ByteDance Plans $20 Billion Capex in 2025, Mostly for AI).
- GPU市场与出口限制:美国对高性能GPU的出口限制显著影响了中国市场。Nvidia H100芯片在需求高峰期黑市售价高达20万元人民币(约2.8万美元),而现在8 GPU的H100服务器租金从18万元降至7.5万元每月。Nvidia H20(为中国定制,优化用于AI推理)成为最受欢迎的芯片,其次是H100 (MIT Technology Review). 中国公司正在加速开发本土半导体和EUV光刻技术,以突破7纳米以下芯片的生产瓶颈。
- 开源模型的影响:开源AI模型如DeepSeek的兴起(例如R1模型)改变了硬件需求,从模型训练转向模型使用。这导致许多数据中心,尤其是位于中国中西部和农村地区的数据中心,因延迟问题而失去吸引力。
- 挑战与政府干预:许多数据中心的设计不适合当前需求,特别是在预训练与推理的转变中。政府预计将介入,接管陷入困境的资产,并将其分配给更有能力的运营商,以缓解过剩容量问题。
性能瓶颈与市场准备
根据市场研究,超过70%的受访者认为他们对未来AI/ML工作负载的需求准备不足 (S&P Global Market Intelligence, 451 Research). 性能瓶颈包括:
- 云中的GPU/加速器
- 存储容量(46%)
- 内存容量(42%)
- 网络(38%)
- 边缘服务器/设备(35%)
云端加速器被认为是最重要的组件,26%的受访者将其列为“最关键”,相比之下,仅10%的人选择本地部署。这反映了成本约束和避免前期投资的趋势。
总结与展望
AI基础设施相关的硬件在全球范围内呈现出强劲增长,特别是在专用芯片、数据中心和边缘计算领域。效率和可持续性成为关键趋势,特别是在数据中心冷却和能源使用方面。在中国,尽管政府和企业的大规模投资推动了发展,但过剩容量、出口限制和需求变化构成了挑战。未来,AI基础设施硬件的发展将需要平衡创新与可持续性,同时适应开源模型和云计算的兴起。
以下表格总结了主要硬件组件及其特点:
硬件组件 | 主要特点 |
专用芯片(GPU、NPU) | 加速AI训练和推理,NVIDIA领先,NPU适合低功耗本地处理 |
AI嵌入式设备(PC、智能手机) | 增强隐私性,减少云成本,2026年AI PC占40%以上出货量 |
数据中心 | 高能耗,需高效冷却和可再生能源,中国存在闲置问题 |
高性能互连技术 | 支持高效通信,如NVLink和6G |
边缘计算硬件 | 减少延迟,支持本地AI处理,适用于制造业和零售 |
关键引文
- China built hundreds of AI data centers to catch the AI boom. Now many stand unused
- AI Infrastructure Market Report 2025, Trends And Future Scope 2034
- 6 AI trends you’ll see more of in 2025
- AI infrastructure: Trends, thoughts and a 2025 research agenda
- Hardware leading the AI revolution
- Global Trends in Internet Traffic, Data Centres Workloads and Data Centre Energy Use 2010-2020
- Generative AI Chip Market to Reach $40 Billion in 2024
- Alibaba to Invest More Than $52 Billion in Cloud Computing and AI Hardware
- ByteDance Plans $20 Billion Capex in 2025, Mostly for AI