类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

2026年02月20号 20点54分12秒

在旧金山心脏地带自建30PB存储集群:成本、实施与实战经验

加密货币的机构采用

钱财 qian.cx

一篇深入讲解如何在旧金山附近构建和运行30PB级别存储集群的实操指南,覆盖成本比较、硬件选择、网络设计、数据中心要求、软件架构与部署流程,为需要大规模训练视频模型或海量冷存储的工程团队提供落地参考与注意事项。

为什么要在本地而非云端存储30PB数据?当你的数据规模达到千万小时的视频量级时,商业云的存储与出站带宽费用会迅速成为不可承受的长期负担。对于用于模型预训练的原始训练数据,许多严格的企业级可靠性保证并非必要。训练数据可以容忍一定比例的缺失或腐损,冗余与高可用所带来的溢价并不划算。基于这一点,在靠近办公地点的机房里部署自有硬件,能将长期存储成本压缩数十倍,同时保留对硬件与网络的完全可控性,对小团队而言极具吸引力。本文基于在旧金山建造30PB存储堆栈的实践,详细拆解成本、实现路径、关键硬件、网络与软件设计,以及值得借鉴的经验与陷阱。成本结构与云端对比的直观理由。

将30PB数据放在主流云上,不仅每月存储费用高昂,数据出站更会迅速放大预算。以公开定价估算,AWS在大规模场景下的月度花费可达到百万级美元,而像Cloudflare R2在大体量下虽有更低的存储单价但仍高于自建。相比之下,把硬盘、机箱、网络与机房费用摊销到三年期,结合附近数据中心便捷的维护优势,自建集群的综合每月成本可降至云端的一小部分,长期运行优势明显。实际案例显示,包含折旧与带宽在内的年化成本可低至几十万美元级别,对数据密集型的研发团队具有决定性意义。网络与电力是主要的经常性开支,100Gbps的专线和机柜电力通常占据月度账单的大头。一次性投入则以硬盘和配套机箱为主,合理采购路径和二手市场可以大幅降低前期支出。

硬件选型与架构思路。构建30PB存储堆时,最显著的决定是选择大量机械盘而非NVMe。每台4U磁盘背板(例如DS4246类JBOD)可容纳约24块3.5英寸硬盘,利用若干个这样的机箱便能在物理空间上实现所需容量。硬盘以12TB或14TB企业级HDD为主,SAS接口在吞吐与可靠性上优于同代SATA盘,但也要求在驱动与多路径配置上多做处理。头结点采用轻量CPU服务器负责写入分发、元数据记录和管理接口,使用若干个头结点可防止单点写入瓶颈。主干网络建议使用100GbE交换机与Mellanox或类似品牌的100Gb网卡,通过DAC或短距离光缆连接,以确保在训练时能充分利用园区的带宽。

网络设计与机房要求。稳定的100Gbps专线是能否高效使用自建堆栈的关键。与机房签订一年的DIA(Dedicated Internet Access)合同能在成本与服务质量之间取得平衡。每个机柜通常需要为3PB左右的存储预留约3.5千瓦的电力,并确保机柜散热和冷通道设计合理。物理靠近办公地点有着不可忽视的运维价值:随时到场调试、更换硬盘或排查网络问题的便利,往往比节省的少量机房费更重要。选择机房时要确认交付的光口类型(例如QSFP28 LR4)与交换机/网卡的兼容性,否则会在光模块层面浪费大量时间与费用。

软件架构:简洁胜过复杂。在我们的工程实践中,简单的设计带来了更高的可维护性。一个负责分配写目标的轻量守护进程、一个用于读取的HTTP服务(如nginx)以及用于记录分布位置的轻量数据库(例如SQLite)就足够应对大规模的顺序写入与高并发读取场景。相比之下,Ceph、MinIO等复杂分布式存储系统虽然功能丰富,但调试与运维成本高昂,且许多特性对训练数据场景并非必要。目标是确保写入路径简单、元数据操作最小化、单机故障不会导致数据不可用。XFS文件系统在对大容量HDD的兼容性和性能上表现良好,且运维门槛低。

物理安装与"硬盘堆叠"活动。为了快速完成大量驱动器的上架与连线,可以采用集中化的安装活动。邀请熟悉硬件的团队成员与外包工程师,合理安排工具与线缆管理,可以在数日内完成几千块硬盘的插装与基本测试。选择前装托盘或顶装托盘会影响安装效率:前装托盘需要逐个螺丝固定,劳动强度大但稳定;密度更高的超密服务器(例如SuperMicro的大盘位机箱)虽在初期成本和采购难度上更高,但能显著提升空间利用率并减少未来维护时的劳动量。电缆管理是长期运维的关键,初期投入的有序布线在后续排查性能或替换部件时能节约大量时间。性能调优与常见瓶颈排查。

大规模读写时常见瓶颈来自HBA(Host Bus Adapter)与背板的共享带宽、单盘寻址延迟和网络集群的拥塞。给每个磁盘背板配备足够的HBAs,避免过度菊花链式连接,可显著提升并行吞吐。网络上,东方供应商的光模块兼容性问题较多,优先选择在机房层面已经验证的芯片和厂商品牌可减少互通性问题。管理网络与数据网络的分离设计有助于在大规模复制或重建时保持控制通道的可用性。准备Crash Cart并确保IPMI或KVM可用能在早期调试阶段节省大量时间。安全与访问控制的策略权衡。

对于用于训练的原始数据,团队可在安全与便捷之间找到务实平衡。对非客户敏感数据,采取基本的网络隔离、端口限制和基于令牌的下载验证,使得风险可控且操作便捷。若处理更敏感的数据,则需要引入更严格的访问控制、加密以及审计机制。无论选择何种策略,替代云端的自建方案意味着团队需要承担更多的安全与合规责任,因此在人员与流程上要预留相应资源。可复用的采购与维护经验。二手市场和企业级整机供应商在降低初期资本开支方面非常有价值。

通过先在二手市场寻找适配的服务器和HBAs,再与供应商谈取套装服务,可以在保证售后与兼容性的同时节省时间。硬盘尽量选择具有企业级保修的型号,便于在质保期内获得替换。对小团队来说,外包一些体力化安装工作而将核心的网络与软件逻辑保留在内部,是一种高效的分工方式。遇到的问题与改进方向。实践中会遇到许多不可预见的细节问题,例如某些厂家的光模块在特定交换机上无法正常工作、前装托盘导致大量螺丝操作、或是初始菊链式连线影响整体吞吐。针对这些问题,有几项建议值得考虑:优先配置便于远程管理的KVM/IPMI;为管理网保留独立的以太网络;在设计阶段适度提高内部带宽上限以便未来扩展;评估更高密度的盘位服务器以节省机柜数并提升每瓦效率。

可供团队快速上手的实施步骤建议。先从小规模原型开始验证整体方案,确认HBA、机箱、网卡、交换机和光模块之间的兼容性,再逐步扩大到数千盘级别。使用简单的分布式写入逻辑和HTTP读取接口可以在不引入复杂分布式文件系统的情况下实现稳定的读写性能。把首批机柜放在公司可步行到达的机房能够显著降低早期问题排查的时间成本。最后,准备详尽的清单与流程,包括盘体测试、挂载脚本、网卡配置和基本监控策略,以便在扩展时保持一致性。结语:为什么更多团队会考虑自建存储?当数据量达到PB级别且对延迟与高可用要求相对宽松时,自建存储能显著降低长期成本、提升对复杂网络与物理设备的掌控力,并为研发团队提供可靠的数据带宽。

旧金山案例显示,合理的硬件选型、简洁的软件方案与靠近办公地点的机房布局可以在有限的人力下高效交付大规模存储能力。如果你的项目需要在可控预算下获得海量数据吞吐与存储能力,构建自有存储堆栈是值得认真评估的路径。若想进一步了解具体配置和选型建议,或分享你的实践经验与问题,可以通过专业渠道与相关团队进行交流与合作。。

下一步

2026年02月20号 21点01分05秒成功背后的百次有趣失败:从试错到可持续优势的实务之道

剖析为何每一次成功都建立在大量失败之上,探讨组织如何通过文化、方法与流程把失败转化为学习与竞争力,为产品发布与创业提供可执行的策略与范例

2026年02月20号 21点08分16秒人工智能识别黑色素瘤的新突破:SegFusion实现99%准确率意味着什么

介绍美国东北大学研究团队开发的SegFusion混合深度学习框架,解析其在黑色素瘤早期检测上的表现、方法学细节、临床价值与局限,并讨论未来推广、伦理与监管要点

2026年02月20号 21点13分26秒从内部视角揭秘我们尝试从Square手中拯救Weebly的全过程

回顾两位前Weebly工程师与团队如何筹划竞购、与Square接触并为Weebly用户寻找出路,分析收购背景、竞标过程、失败原因与对现有用户的影响,并提供可行的迁移策略与长期建议

2026年02月20号 21点17分52秒从 Ask HN: Who is hiring?(2025年10月)看招聘趋势与求职实战指南

对 2025 年 10 月 Ask HN: Who is hiring? 帖子进行系统梳理,分析最新技术岗位、远程与签证态度、薪酬范围与企业端行为,提供高效投递与面试准备的实战建议,帮助求职者在竞争激烈的市场中脱颖而出。

2026年02月20号 21点21分48秒 2025年自由职业与雇佣指南:从 Ask HN 社区看远程合作的实战策略与趋势

围绕 Hacker News 的 Ask HN 帖子,解读当下自由职业市场动向与雇佣实务,提供从撰写求职/招募帖、筛选候选人、谈判定价到合同与交付的可操作建议,帮助企业和自由职业者在远程协作与 AI 驱动的时代实现高效匹配与安全交付。

2026年02月20号 21点29分18秒 CAVA首席运营官离职:对连锁餐饮运营与未来扩张的深度解读

解析CAVA首席运营官Jennifer Somers离职事件的来龙去脉、短期与长期影响,以及公司在继任、运营稳定和扩张策略上需要关注的关键要点,为行业观察者和投资者提供可操作的参考信息。

2026年02月20号 21点39分44秒联邦拨款耗尽导致美国金融监管机构部分停摆:影响、风险与应对策略

联邦政府资金到期引发监管机构大规模休假和运作缩减,文章深入分析SEC与CFTC的应急安排、对IPO与ETF审批的冲击、关键经济数据延迟的市场含义,并提出投资人和发行人可采行的应对策略与政策反思