工控网首页
>
新闻中心
>
业界动态
>
中国存储,响彻全球
微博
微信
问AI
中国存储,响彻全球
工控网
2026/6/26 14:46:02
如果你手握55万张顶级GPU,却只能眼睁睁看着近80亿美元凭空蒸发,这是一种怎样的绝望?
这不是假设,而是xAI等全球顶级算力集群正在经历的真实痛点。行业数据显示,全球顶级算力集群的GPU平均利用率不到50%。
卡在哪了?不是芯片不够强,而是“喂”数据的存储不够快。数万张卡同时读写,存储一旦卡壳,算力就得排队干等。
6月24日,德国ISC 2026国际超算大会,中科曙光自主研发的ParaStor F9000全闪存储系统,一举拿下了生产型全节点和10节点两项榜单的全球第一。
但真正让全球存储巨头们侧目的,不是这个“第一”本身,而是它背后的一句不起眼的说明:
“该系统已在实际生产环境中持续稳定运行超过一年。”
解锁最难的成就
IO500榜单,全球AI与高性能存储领域最权威的排名,在圈内与TOP500计算榜单齐名。
但大多数人不知道,它分为两条赛道。
研究型榜单(Research List),允许厂商临时搭建专属测试集群,关掉冗余、停掉后台业务,用最理想的参数跑理论峰值。说白了,就是“实验室跑分”。
生产型榜单(Production List),只收纳已在真实生产环境中长期运行的存储系统,要求满足实际业务负载、冗余设计与持续运行能力,部署周期以年计。
中国过去不缺实验室冠军。缺的是能在真实生产环境中,扛苦活累活的选手。
而中科曙光这次拿下的,正是生产型榜单的双冠,一项从未有中国企业达成的成就。
这个冠军的价值,还在于它从根本上改变了存储产业的评判逻辑。
过去存储行业的玩法是:厂商先搭建最优环境跑出漂亮的benchmark数据,再拿着PPT去讲故事,客户部署后才发现,实际性能打五折都算好的。
ParaStor F9000代表了一种全新的逻辑:“先生产,再benchmark”。榜单上的数字,不是实验室跑出来的理论峰值,而是实战中磨出来的真功夫。
如今客户需要的不是一台只能跑峰值的“考试型选手”,而是能持续支撑7×24小时稳定运行的“实战型选手”。
IO500生产型榜单的冠军,恰好提供了这样的信任背书。
拆掉最令人头疼的墙
假设你经营一个快递站,数十万个快递员同时冲进仓库,每个人都在喊:“我要这个文件!立刻!马上!”
而仓库的出货口只有几个。大部分人挤在门口只能干等。
这就是AI训练中最真实的场景:GPU空转。仓库中的文件是PB级数据洪流,快递员就是数万张GPU。
行业数据显示,因存储性能不足引发的GPU空转,可使大模型训练成本增加30%以上。这是直接的的浪费——一个万卡集群的投资动辄数十亿上百亿,即便只有三成算力在空转,也意味着每年数亿甚至十数亿资金凭空燃烧。
问题的根源在于:传统存储架构是为“人找数据”的时代设计的,而AI时代需要的是“数据追着算力跑”。
当模型参数从千亿冲向万亿,训练数据从TB级跃升到PB级,传统架构的瓶颈集中爆发:
第一,带宽不足。 数万张卡同时读写,如同一百条高速公路的车流全部挤进一条乡村公路。
第二,时延过高。 每一次数据请求都需要经过多层转发,端到端时延累积到毫秒级——对于AI训练来说,这个级别的延迟就意味着GPU在无尽等待。
第三,拥塞失控。 传统RoCE网络在拥塞时极易丢包。研究数据显示:0.1%的丢包就会让算力衰减50%。
这三重问题叠加,构成了AI训练中最令人头疼的“I/O墙”“通信墙”。
而ParaStor F9000的“三级协同”架构,不是“把仓库扩大一点”或“多开几个出货口”这种治标不治本的方法,而是从底层重建了一套三级协同方案,每一级解决一个根因。
●芯片级协同:让IO走最短的路。
传统存储架构中,数据从存储到GPU,需要经过CPU、内存、网络交换等多个环节,每一个环节都可能成为瓶颈。
ParaStor F9000则对网络(IB/RoCE)、CPU、内存、NVMe闪存与GPU做了全对称均衡设计。每一条IO路径都被预先规划好最优路线,不走弯路、不绕远路、不重复路。
这意味着数据从存储介质出发,到最终抵达GPU显存,中间没有一次多余的跳转。延迟被压缩到了极致。
●软硬件协同:把硬件潜力压榨到极限
芯片级协同解决了“走哪条路”的问题,但走上去之后,路况怎么样?会不会堵车?
软硬件协同解决的就是这个问题。它将内存、网络、NVMe按照CPU核进行均分,实现带宽、IOPS、时延按需可调。
打如同给公路上每一类车辆都划定专属车道,重要请求走快车道,批量读写走重载车道,互不干扰。
●AI应用协同:让数据主动追着GPU跑
前两级解决了“路”,但最核心的问题是:GPU需要的数据,到底能不能在它需要的那一刻精准送达?
ParaStor F9000通过关键数据直通GPU显存、向量检索与KV Cache专项加速、BurstBuffer本地加速等技术,让存力平台不再是被动的“仓库保管员”,而是主动的“数据配送员”。
传统模式下,GPU发出请求,存储去翻仓库,找到数据再送过去——这是“人找货”。ParaStor F9000的模式是:提前预判GPU需要什么,在GPU发出请求之前,数据已经在离它最近的地方等着了——这是“货找人”。
这一角色转换,彻底打破了存力和算力的边界。存储不再是算力体系的瓶颈,而是变成了算力的加速器。
真实战场的检验
三级协同架构在理论上很完美,但真正的考验是:真实生产环境中,能扛多久?
365天,0中断,集群训练效率提升50%,千亿参数模型部署时间缩短一倍——这正是IO500验证的生产场景,ParaStor F9000在数万卡集群上跑了一年的实战结果。
一年来,它面对的是数万张GPU同时发起的读写请求、PB级数据洪流冲击、7×24小时不间断运转的严苛要求。
任何一次性能抖动,都可能导致训练中断、算力空转。
但是它扛住了,全部测试连续运行,全程无中断。
不仅如此,还以总带宽最高79110GiB/s、元数据性能最高223754kIOP/s的成绩,刷新世界纪录,甩开第二名一倍以上。
存储最怕的不是峰值不够高,而是跑着跑着节点掉线。IO500能上榜的系统不少,但能在万卡集群里连续扛一年不出事的,凤毛麟角。
更关键的是:ParaStor F9000在硬件与软件层面均实现全栈自主研发,无任何底层国外闭源技术依赖。出了问题不需要等国外厂商寄补丁——这种“自己说了算”的能力,在工程交付中就是生命线。
过去,谈到国产存储,行业惯性评价是“性价比”——国外大厂卖100,你卖30,那就是好产品。国产存储只能做“平替”——用质量换价格,用价格换市场。
而今天,当AI时代对存储的要求从“能用”变成“好用”,从“够用”变成“性能核心”,中科曙光用IO500双冠证明了一个事实:国产存储已经从“平替”变成了“优选”。
IDC数据显示,中科曙光AI存储已连续两年位列中国市场第一,行业客户正在用真金白银投票。
当benchmark从实验室走进生产环境,存储行业正在经历一场深刻的价值重估。在AI大模型向万亿参数迈进、科学计算向百亿原子尺度深入、具身智能从实验室走向工厂车间的时代浪潮中,存储的底层能力将成为决定产业上限的关键变量。
中科曙光ParaStor F9000用365天实战的一次登顶,让全世界都听见了中国存储的声音。
审核编辑(
唐楠
)
0
0
投诉建议
提交
工控网
文章
口碑
人气
取消关注
关注
留言
其他资讯
查看更多
产线时延问题的TSN确定性网络解决方案——三旺通信落地案例与抖动痛点深度解析
产线时延问题的TSN确定性网络解决方案——三旺通信落地案例与抖动痛点深度解析
聚势同行,共赴新程!德力西电气出席2026低压电器行业年会
聚势同行,共赴新程!德力西电气出席2026低压电器行业年会
2026 工控上位机开发公司选型指南:赢式科技头部实力深度测评
2026 工控上位机开发公司选型指南:赢式科技头部实力深度测评
2026年龙芯工业主板选型观察:从众达科技的嵌入式硬件路径看国产化工控底座的落地逻辑
2026年龙芯工业主板选型观察:从众达科技的嵌入式硬件路径看国产化工控底座的落地逻辑
喜报 | 邦德激光荣膺荣格技术创新奖,以冠军品质重塑智造标杆
喜报 | 邦德激光荣膺荣格技术创新奖,以冠军品质重塑智造标杆
