为什么要在本地而非云端存储30PB数据?当你的数据规模达到千万小时的视频量级时,商业云的存储与出站带宽费用会迅速成为不可承受的长期负担。对于用于模型预训练的原始训练数据,许多严格的企业级可靠性保证并非必要。训练数据可以容忍一定比例的缺失或腐损,冗余与高可用所带来的溢价并不划算。基于这一点,在靠近办公地点的机房里部署自有硬件,能将长期存储成本压缩数十倍,同时保留对硬件与网络的完全可控性,对小团队而言极具吸引力。本文基于在旧金山建造30PB存储堆栈的实践,详细拆解成本、实现路径、关键硬件、网络与软件设计,以及值得借鉴的经验与陷阱。 成本结构与云端对比的直观理由。
将30PB数据放在主流云上,不仅每月存储费用高昂,数据出站更会迅速放大预算。以公开定价估算,AWS在大规模场景下的月度花费可达到百万级美元,而像Cloudflare R2在大体量下虽有更低的存储单价但仍高于自建。相比之下,把硬盘、机箱、网络与机房费用摊销到三年期,结合附近数据中心便捷的维护优势,自建集群的综合每月成本可降至云端的一小部分,长期运行优势明显。实际案例显示,包含折旧与带宽在内的年化成本可低至几十万美元级别,对数据密集型的研发团队具有决定性意义。网络与电力是主要的经常性开支,100Gbps的专线和机柜电力通常占据月度账单的大头。一次性投入则以硬盘和配套机箱为主,合理采购路径和二手市场可以大幅降低前期支出。
硬件选型与架构思路。构建30PB存储堆时,最显著的决定是选择大量机械盘而非NVMe。每台4U磁盘背板(例如DS4246类JBOD)可容纳约24块3.5英寸硬盘,利用若干个这样的机箱便能在物理空间上实现所需容量。硬盘以12TB或14TB企业级HDD为主,SAS接口在吞吐与可靠性上优于同代SATA盘,但也要求在驱动与多路径配置上多做处理。头结点采用轻量CPU服务器负责写入分发、元数据记录和管理接口,使用若干个头结点可防止单点写入瓶颈。主干网络建议使用100GbE交换机与Mellanox或类似品牌的100Gb网卡,通过DAC或短距离光缆连接,以确保在训练时能充分利用园区的带宽。
网络设计与机房要求。稳定的100Gbps专线是能否高效使用自建堆栈的关键。与机房签订一年的DIA(Dedicated Internet Access)合同能在成本与服务质量之间取得平衡。每个机柜通常需要为3PB左右的存储预留约3.5千瓦的电力,并确保机柜散热和冷通道设计合理。物理靠近办公地点有着不可忽视的运维价值:随时到场调试、更换硬盘或排查网络问题的便利,往往比节省的少量机房费更重要。选择机房时要确认交付的光口类型(例如QSFP28 LR4)与交换机/网卡的兼容性,否则会在光模块层面浪费大量时间与费用。
软件架构:简洁胜过复杂。在我们的工程实践中,简单的设计带来了更高的可维护性。一个负责分配写目标的轻量守护进程、一个用于读取的HTTP服务(如nginx)以及用于记录分布位置的轻量数据库(例如SQLite)就足够应对大规模的顺序写入与高并发读取场景。相比之下,Ceph、MinIO等复杂分布式存储系统虽然功能丰富,但调试与运维成本高昂,且许多特性对训练数据场景并非必要。目标是确保写入路径简单、元数据操作最小化、单机故障不会导致数据不可用。XFS文件系统在对大容量HDD的兼容性和性能上表现良好,且运维门槛低。
物理安装与"硬盘堆叠"活动。为了快速完成大量驱动器的上架与连线,可以采用集中化的安装活动。邀请熟悉硬件的团队成员与外包工程师,合理安排工具与线缆管理,可以在数日内完成几千块硬盘的插装与基本测试。选择前装托盘或顶装托盘会影响安装效率:前装托盘需要逐个螺丝固定,劳动强度大但稳定;密度更高的超密服务器(例如SuperMicro的大盘位机箱)虽在初期成本和采购难度上更高,但能显著提升空间利用率并减少未来维护时的劳动量。电缆管理是长期运维的关键,初期投入的有序布线在后续排查性能或替换部件时能节约大量时间。 性能调优与常见瓶颈排查。
大规模读写时常见瓶颈来自HBA(Host Bus Adapter)与背板的共享带宽、单盘寻址延迟和网络集群的拥塞。给每个磁盘背板配备足够的HBAs,避免过度菊花链式连接,可显著提升并行吞吐。网络上,东方供应商的光模块兼容性问题较多,优先选择在机房层面已经验证的芯片和厂商品牌可减少互通性问题。管理网络与数据网络的分离设计有助于在大规模复制或重建时保持控制通道的可用性。准备Crash Cart并确保IPMI或KVM可用能在早期调试阶段节省大量时间。 安全与访问控制的策略权衡。
对于用于训练的原始数据,团队可在安全与便捷之间找到务实平衡。对非客户敏感数据,采取基本的网络隔离、端口限制和基于令牌的下载验证,使得风险可控且操作便捷。若处理更敏感的数据,则需要引入更严格的访问控制、加密以及审计机制。无论选择何种策略,替代云端的自建方案意味着团队需要承担更多的安全与合规责任,因此在人员与流程上要预留相应资源。 可复用的采购与维护经验。二手市场和企业级整机供应商在降低初期资本开支方面非常有价值。
通过先在二手市场寻找适配的服务器和HBAs,再与供应商谈取套装服务,可以在保证售后与兼容性的同时节省时间。硬盘尽量选择具有企业级保修的型号,便于在质保期内获得替换。对小团队来说,外包一些体力化安装工作而将核心的网络与软件逻辑保留在内部,是一种高效的分工方式。 遇到的问题与改进方向。实践中会遇到许多不可预见的细节问题,例如某些厂家的光模块在特定交换机上无法正常工作、前装托盘导致大量螺丝操作、或是初始菊链式连线影响整体吞吐。针对这些问题,有几项建议值得考虑:优先配置便于远程管理的KVM/IPMI;为管理网保留独立的以太网络;在设计阶段适度提高内部带宽上限以便未来扩展;评估更高密度的盘位服务器以节省机柜数并提升每瓦效率。
可供团队快速上手的实施步骤建议。先从小规模原型开始验证整体方案,确认HBA、机箱、网卡、交换机和光模块之间的兼容性,再逐步扩大到数千盘级别。使用简单的分布式写入逻辑和HTTP读取接口可以在不引入复杂分布式文件系统的情况下实现稳定的读写性能。把首批机柜放在公司可步行到达的机房能够显著降低早期问题排查的时间成本。最后,准备详尽的清单与流程,包括盘体测试、挂载脚本、网卡配置和基本监控策略,以便在扩展时保持一致性。 结语:为什么更多团队会考虑自建存储?当数据量达到PB级别且对延迟与高可用要求相对宽松时,自建存储能显著降低长期成本、提升对复杂网络与物理设备的掌控力,并为研发团队提供可靠的数据带宽。
旧金山案例显示,合理的硬件选型、简洁的软件方案与靠近办公地点的机房布局可以在有限的人力下高效交付大规模存储能力。如果你的项目需要在可控预算下获得海量数据吞吐与存储能力,构建自有存储堆栈是值得认真评估的路径。若想进一步了解具体配置和选型建议,或分享你的实践经验与问题,可以通过专业渠道与相关团队进行交流与合作。 。