AI 工廠的資料基礎：透過 Nutanix 統一儲存實現自主 AI

Kaushik Ghosh，Nutanix 產品管理總監
Alex Almeida，Nutanix 資深產品行銷經理

3月 16, 2026 8:26 下午 |

min

簡易聊天機器人的時代已然結束。企業 AI 正迅速從模型訓練與基礎推論，邁向代理式 AI，也就是能進行複雜推理、執行長時間工作流程、具備長期記憶並可即時決策的自主系統。

但隨著 AI 代理從簡短提示發展為可持續數小時的推理會話，並運行於持續變動的「即時」企業資訊之上，一個關鍵的基礎架構挑戰浮現：傳統儲存從未被設計成 AI 的「活記憶」。

代理式 AI 的兩大瓶頸

當企業從實驗階段擴展至生產級 AI 工廠時，會遇到兩大瓶頸：

推論上下文過載：代理式 AI 系統需要持續保留推論上下文，也就是 AI 的工作記憶。隨著會話時間拉長，且模型支援更大的上下文窗口，這些工作記憶很快就會超出有限的 GPU VRAM、系統記憶體與本地容量。推論上下文也必須能在 GPU 與節點之間共享。當會話移轉至其他 GPU 時，必須能即時存取先前的推論上下文。若缺乏可擴充、可共用且低延遲的儲存來支援這類長期記憶，效能就會下降、GPU 會閒置，基礎架構成本也可能大幅增加。
即時資料推論：AI 代理必須在新的企業資訊產生時立即進行推理。這代表儲存系統不能只是「靜態存放」資訊，而必須能近乎即時地主動擷取、轉換並供應 RAG（檢索增強生成）流程。為了實現真正的即時回應能力，資料處理管線必須貼近資訊運作，理想情況下，應直接在資訊所在的同一儲存叢集內執行。若無法立即存取最新且可信的企業資訊，代理式 AI 系統就會逐漸過時、準確性下降，最終使整體生產力降低。

Nutanix 統一儲存：AI「活記憶」的基礎

為了因應這些挑戰，Nutanix 正將 Nutanix 統一儲存 (Nutanix Unified Storage) 發展為 Nutanix Agentic AI 技術堆疊的資料架構核心。Nutanix 統一儲存不再只是被動的儲存容量，而是成為 AI 工廠的高速資料引擎。

1. 脈絡記憶卸載：共用儲存層

由於大型語言模型 (LLM) 的脈絡記憶可能相當龐大，因此會以分層方式管理，以達到最佳效能與成本效益。第 1 至第 3 層位於節點本地，分別儲存在 GPU VRAM、系統記憶體與本機 NVMe 磁碟中。第 4 層則是基礎的共用儲存層，代表 AI 工廠的「活記憶」。

Nutanix 透過提供支援 RDMA 的高效能、低延遲資料層，讓第 4 層正式投入運作，並能支援數千顆 GPU。透過將LMCache（專門的快取分層協調軟體）與 Nutanix 統一儲存整合，AI 記憶可無縫從昂貴且容量受限的本地節點卸載至具備彈性的資料中心共用儲存。

這種分層脈絡記憶架構有助於企業：

運行大型上下文窗口，而不會有系統崩潰的風險。
支援更多並行使用者在同一 GPU 叢集上同時運作。
最大化 GPU 利用率，並降低「每個詞元成本」。

2. 即時資料推論：驅動 NVIDIA AI 資料平台 (AIDP)

作為經 NVIDIA 驗證的 AI 資料平台 (AIDP) 解決方案，Nutanix 提供相關功能，讓客戶能使 AI 代理在企業資訊建立的瞬間立即進行推理。透過將 NVIDIA Enterprise AI 軟體與 Milvus 向量資料庫直接整合至 Nutanix 統一儲存，企業可建立連續資料管線，即時擷取、轉換並向量化原始資訊。Nutanix 的獨特之處在於，可在單一儲存叢集中混合使用具備 GPU 的節點與僅有 CPU 的高密度儲存節點。這種「貼近運算」地架構可讓 AI 更靠近資訊，確保 AI 代理始終以最新的專有知識為基礎，同時大幅降低傳統資料移動所帶來的延遲與負擔。

3. 最大速度：NFS 和 S3 通過 RDMA

為了跟上高速 AI 運算的腳步，Nutanix 統一儲存目的在提供 GPU 與儲存記憶體之間低延遲、支援 RDMA 的資料通道。作為經 NVIDIA 驗證的 GPUDirect Storage (GDS) 解決方案，Nutanix 統一儲存可讓 AI 工作負載完全繞過 CPU 執行 I/O，降低用戶端與儲存節點的 CPU 負擔，同時提升 GPU 利用率並降低每個詞元成本。目前已支援 NFS over RDMA 以提供高效能檔案存取，並計畫支援 S3 over RDMA，以延伸至物件儲存應用。這項突破結合物件儲存的高擴充性與超低延遲 GPU 直接存取，使 Nutanix 統一儲存物件儲存成為大型 AI 工作負載與現代 AI 工廠的理想資料基礎。

4. 使用 Nutanix Data Lens 強化企業安全與治理

AI 的可信度取決於其所依據的資訊品質。Nutanix Data Lens (NDL) 為輸入 AI 工廠的資訊提供必要的安全與治理能力，包括主動式稽核、勒索軟體防護與安全資訊隔離。透過單一 SaaS 入口網站，或直接在 Nutanix 儲存叢集上執行，NDL 可讓企業跨多個 Nutanix 統一儲存叢集監控、保護與治理資料集，無論是在單一資料中心或全球分散式環境中皆適用。這可確保企業資訊在整個 AI 生命週期中持續受到保護。未來也將支援自動資料分類與中繼資料標註等功能，使敏感資訊能被智慧識別、保護並進行端對端治理，同時協助企業符合合規要求，並安全地支援代理式 AI 工作負載。

持續創新

NVIDIA STX 與 CMX 設計合作夥伴

Nutanix 很榮幸成為 NVIDIA STX 的設計合作夥伴。STX 是專為 AI 工廠打造的模組化參考架構。透過與 NVIDIA Vera Rubin 架構共同開發，並運用 BlueField-4 DPU，Nutanix 將智慧資料處理直接整合至儲存層。這有助於確保 GPU、向量資料庫與 RAG 流程能作為一致的機架級系統運作，而非彼此不相連的元件。

作為 NVIDIA CMX 的設計合作夥伴，Nutanix 計畫支援全新的 G3.5 pod 共用快取層。這項突破提供可擴充的容量、超高效能以及跨 GPU pod 的無縫資料分享。這種分層上下文記憶架構有助於企業支援大型上下文視窗、最大化 GPU 利用率，並大幅降低「每個詞元成本」。

輕鬆打造 AI 工廠

Nutanix Agentic AI 技術堆疊可協助企業從實驗階段擴展至生產級 AI 工廠，並提供：

最低每個詞元成本：將 AI 上下文記憶卸載至可擴充、低延遲的 G4 儲存層，大幅提升長上下文推理的經濟效益。透過降低昂貴 GPU 記憶體的負擔，企業可支援更大的上下文視窗與更多並行使用者，同時最大化 GPU 利用率。
提升 AI 生產力：直接在儲存叢集上運作的連續資料管線，讓 AI 更貼近資訊。這可大幅減少高成本的資料移動，並確保代理式 AI 系統始終能在企業資訊建立時，即時使用最新資訊進行運作。
線性擴充能力：透過支援檔案與物件工作負載的高密度、高效能 GPU Direct Storage，以線性方式擴充 AI 工廠的效能與容量，讓數千個 AI 代理皆能維持一致效能。
企業安全與治理：NDL 提供跨資料集的全球可視性與控制能力，讓企業在整個 AI 生命週期中皆能享有內建的安全、稽核與治理能力。
面向未來的架構：與 NVIDIA STX 與 CMX 路線圖深度整合，可確保 AI 基礎架構已針對 NVIDIA Vera Rubin、BlueField-4 等下一代平台完成最佳化。

總結

Nutanix 統一儲存是 Nutanix Agentic AI 技術堆疊的核心元件，也是現代 AI 工廠的資料基礎。透過讓 AI 更貼近資訊，並支援可擴充的 AI「活記憶」，Nutanix 正將儲存從被動容量轉變為專為代理式 AI 時代打造的智慧高速資料引擎。

在代理式系統邁向實際運作的競賽中，瓶頸早已不只是晶片，而是資料通道。現代企業真正該思考的問題，也不再是擁有多少 GPU，而是其資料基礎是否能跟上大規模 Agentic AI 的需求。

有了 Nutanix 統一儲存，就能做到。

歡迎繼續閱讀，深入瞭解更多內容

©2026 Nutanix, Inc. 保留所有權利。Nutanix、Nutanix 標誌和本文所提及的所有產品和服務名稱，均屬於 Nutanix 公司在美國和其他國家的註冊商標或商標。Kubernetes® 是 The Linux Foundation 的註冊商標。NVIDIA 及本文提及的 NVIDIA 產品，均為 NVIDIA Corporation 的註冊商標或商標。本文提及的所有其他品牌名稱僅供識別之用，並可能為其各自擁有者的商標。本文內容可能包含明示或暗示的前瞻性陳述。此類陳述並非歷史事實，而是基於我們目前的預期、估計與信念。此類陳述的準確性涉及風險與不確定性，並取決於未來事件，包括我們可能無法控制的因素，因此實際結果可能與該等陳述所預期或暗示的內容存在重大差異。除法律另有規定外，本文中的任何前瞻性陳述僅代表截至本文發布日期之觀點，我們不承擔更新或修訂此類前瞻性陳述，以反映後續事件或情況的義務。