张掖隔热条PA66生产设备厂家英伟达推出AI推理上下文NVMe SSD存储解决方案

162 | 2026-01-09 02:57:35

英伟达通过推出新的推理上下文内存存储平台（ICMSP），解决了日益增长的KV缓存容量限制问题，将推理上下文标准化卸载到NVMe SSD中。这一方案在CES 2026上发布，可将GPU KV缓存扩展到基于NVMe的存储设备，并得到英伟达NVMe存储作伙伴的支持。

KV缓存容量挑战与解决方案

在大语言模型推理过程中，KV缓存存储上下文数据，即表示模型处理输入时Token之间关系的键值对。随着推理的进行，新Token参数的生成使上下文数据不断增长，经常出可用GPU内存容量。当较旧的条目被清除后又需要重新使用时，须重新计算，这会增加延迟。智能体AI和长上下文工作负载通过扩大须保留的上下文量而加剧了这个问题。ICMSP旨在通过将基于NVMe的KV缓存纳入上下文内存地址空间并在推理运行中保持持久化来缓解这一问题。

英伟达席执行官兼创始人黄仁勋表示："人工智能正在彻底改变整个计算堆栈，现在还包括存储。AI不再是一次聊天机器人，而是理解物理世界、进行长期推理、以事实为基础、使用工具完成实际工作并保持短期和长期记忆的智能协作者。通过BlueField-4，英伟达及我们的软件和硬件作伙伴正在为AI的下一个前沿重新设计存储堆栈。"

展开剩余78%

在CES演示中，他表示通过BlueField-4，机架中就有KV缓存上下文内存存储。

技术架构与管理挑战

随着AI模型扩展到数万亿参数和多步推理，它们会生成大量上下文数据，同时会有许多这样的模型同时运行。KV缓存软件ICMSP须适用于GPU、GPU服务器以及GPU服务器机架，这些设备可能同时运行多个不同的推理工作负载。每个模型/智能体工作负载的参数集都须被管理并提供给在正确GPU中运行的相应AI模型或智能体，随着作业调度的变化，这些可能会发生改变。这意味着存在KV缓存上下文元数据管理任务。

英伟达表示，ICMSP提升了KV缓存容量，并加速了机架级AI系统集群间的上下文共享。多轮AI智能体的持久化上下文提高了响应速度，增加了AI工厂吞吐量，并支持长上下文、多智能体推理的高扩展。

硬件支持与能提升

ICMSP依赖于Rubin GPU集群级缓存容量和英伟达即将推出的BlueField-4 DPU，该DPU配备Grace CPU，吞吐量可达800 Gbps。BlueField-4将提供并管理硬件加速缓存放置，以消除元数据开销、减少数据移动并确保GPU节点的安全隔离访问。英伟达的软件产品，如DOCA框架、Dynamo KV缓存卸载引擎以及包含的NIXL（英伟达推理传输库）软件张掖隔热条PA66生产设备厂家，提供AI节点间KV缓存的智能加速共享。

Dynamo在内存和存储层次结构中工作，从GPU的HBM，通过GPU服务器CPU的DRAM，到直连NVMe SSD和网络化外部存储。还需要英伟达的Spectrum-X以太网，为基于RDMA的AI原生KV缓存访问提供高能网络架构。英伟达表示，总体而言，ICMSP将提供比传统存储高5倍的功，并实现高达5倍的每秒Token数。

作伙伴生态与市场前景

英伟达列出了许多将在2026年下半年支持ICMSP与BlueField-4的存储作伙伴。初始作伙伴名单包括AIC、Cloudian、DDN、戴尔科技、HPE、日立万塔拉、IBM、Nutanix、Pure Storage、微、VAST Data和WEKA。预计NetApp、联想和Hammerspace也将加入其中。

行业评价与技术对比

将KV缓存卸载或扩展到NVMe SSD的一般架构理念已经由多家公司实现，例如Hammerspace的Tier zero技术、VAST Data的开源VAST Undivided Attention（VUA）软件，以及WEKA的增强内存网格。戴尔也通过集成LMCache和NIXL等技术与三个存储引擎，为其PowerScale、ObjectScale和Project Lightning（私有预览）存储提供KV缓存卸载。

这些都是BlueField-3时代的产品。实际上，英伟达现在旨在为所有存储作伙伴提供标准化的KV缓存内存扩展框架。戴尔、IBM、VAST和WEKA已经表示将支持ICMSP。WEKA的博客文章《上下文时代已经开始》解释了它将如何做到这一点以及原因。文章指出，ICMSP是"一类新的AI原生基础设施，旨在将推理上下文视为一等平台资源。这种架构方向与WEKA的增强内存网格一致，后者扩展了GPU内存以实现大规模的无限、快速、高、可重复使用的上下文。"

WEKA产品营销总裁Jim Sherhart表示："应用为长期数据设计的重量级持久、复制和元数据服务会带来不要的开销，增加延迟和功耗，同时降低推理经济。推理上下文仍然需要适当的控制，但它的行为不像企业数据，塑料管材生产线也不应该被强制通过企业存储语义。传统协议和数据服务引入的开销（元数据路径、小IO放大、持久/复制默认值、在错误位置应用的多租户控制）可能将'快速上下文'变成'慢速存储'。当上下文对能至关重要且频繁重复使用时，这种开销会立即表现为更高的尾延迟、更低的吞吐量和更差的率。"

VAST Data表示，其存储/AI操作系统（AI OS）将在BlueField-4处理器上运行，"折叠传统存储层次，为长上下文、多轮和多智能体推理提供共享的、Pod级KV缓存和确定访问。"

VAST全球技术联盟总裁John Mao表示："推理正在成为一个内存系统，而不是计算作业。获胜者不会是拥有多原始计算能力的集群，而是能够以线速移动、共享和管理上下文的集群。连续是新的能前沿。如果上下文无法按需获得，GPU就会空闲，经济益就会崩溃。通过在英伟达BlueField-4上运行VAST AI操作系统，我们正在将上下文转变为共享基础设施——默认快速，需要时策略驱动，并且在智能体AI扩展时保持可预测。"

电话：0316--3233399

Q&A

Q1：ICMSP是什么？它能解决什么问题？

A：ICMSP是英伟达推出的推理上下文内存存储平台，主要解决大语言模型推理过程中KV缓存容量限制问题。它将GPU KV缓存扩展到NVMe存储设备，使上下文数据能够持久化保存，避免重复计算，降低推理延迟。

Q2：BlueField-4在ICMSP中扮演什么角？

A：BlueField-4是英伟达即将推出的DPU，配备Grace CPU，吞吐量达800 Gbps。它为ICMSP提供硬件加速缓存放置，消除元数据开销，减少数据移动，并确保GPU节点的安全隔离访问，是整个系统的核心硬件支撑。

只谈恋爱不结婚,拒内耗爱自己……张清身上有现代女的立自主,但也有大龄女青年的痛苦与挣扎。近日,柳岩接受了江苏卫视的访,以一个旁观者的视角剖析了张清的内心世界,直言:“她是用了一层坚硬的外壳把自己包装成‘人间清醒’的样子,但她内心还是相信人间值得的。”

在太空中找到碳酸可帮助解释生命在地球上是如何形成的，但科学家们此前只在太空中发现了简单的甲酸和乙酸。

7月2号下午，10岁的乐乐（化名）跟随妈妈一起到淮安市区一家游泳馆游泳。在游泳时不慎被水循环系统的排水口吸住肩膀，无法脱身。安全员见状立马下水施救，但由于吸力太大，安全员花了数分钟仍然无法将孩子救出。这时孩子母亲冲进水池，众人力把孩子救了出来，但此时孩子已经面青紫，呼吸心跳骤停，经过持续心肺复苏后，心跳慢慢恢复。拨打120送往医院之后，孩子神志昏迷，呼吸微弱短促，情况十分危急。

日前，中国青年报社社会调查中心联问卷网（wenjuan.com），对2022名受访者进行的一项调查显示，83.6%的受访者喜欢古诗文，79.5%的受访者能接受影视剧中的文言文台词。听到影视剧中的古诗文时，64.3%的受访者感觉“涨知识”了。略古诗文的美，62.6%的受访者建议诵读出来，在抑扬顿挫的节奏中感受韵律美。

Q3：ICMSP能带来多大的能提升？

A：据英伟达介绍，ICMSP能提供比传统存储高5倍的功，并实现高达5倍的每秒Token处理数量。同时它还能提升KV缓存容量，加速集群间上下文共享张掖隔热条PA66生产设备厂家，提高AI系统响应速度和吞吐量。

发布于：北京市

张掖隔热条PA66生产设备厂家 英伟达推出AI推理上下文NVMe SSD存储解决方案

张掖隔热条PA66生产设备厂家英伟达推出AI推理上下文NVMe SSD存储解决方案