Nutanix 엔터프라이즈 AI 2.6 출시 - 하이브리드 AI의 새로운 지평을 열어갑니다

By Ashwini Vasanth, Principal Product Manager, Nutanix

AI의 급속한 확산으로 인해 많은 조직이 갈림길에 서게 되었습니다. 초기 도입 단계에서는 추론 서비스 크레딧을 활용하기 위해 퍼블릭 클라우드에서 시작하는 경우가 많지만, 이러한 PoC를 실제 운영 환경으로 전환하려면 프라이빗 클라우드나 온프레미스 환경에서 제공되는 거버넌스, 제어 기능, 데이터 주권 등이 필수적입니다. 

오늘날의 기업들은 OpenAI나 AWS Bedrock 같은 호스팅 제공업체 모델, 오픈 소스 기반의 자체 호스팅 모델, 그리고 조직 특화적인 파인 튜닝 모델이 혼재된 하이브리드 AI 방식을 관리해야 하는 상황에 놓여 있습니다. 기업이 AI 규모를 확장할 때는 단일 모델만 사용하는 것이 아니라 하이브리드 에코시스템을 활용하게 됩니다. 데이터 사이언티스트는 정확도를 위해 전문 모델을 파인 튜닝하고, 애플리케이션 개발자는 신속한 프로토타이핑을 위해 호스팅 모델 API를 호출하며, IT 운영팀은 데이터 주권을 위해 직접 모델을 호스팅합니다. 이러한 파편화는 일관되지 않은 보안, 가시성 확보의 어려움, 그리고 서로 다른 클러스터와 제공업체 간의 비용 관리 문제라는 심각한 장애물을 만들어냅니다.

Nutanix 엔터프라이즈 AI(NAI), AI 게이트웨이 도입 [테크 프리뷰]

Nutanix 엔터프라이즈 AI(NAI) 2.6은 AI 게이트웨이(AI Gateway)를 통해 관리, 제어 및 가시성을 위한 중앙 집중식 계층을 제공함으로써 이러한 과제들을 정면으로 해결합니다. AI 게이트웨이는 통합된 보안 엔드포인트를 제공하여, 기업이 일관된 인증 및 가시성을 유지하면서 프라이빗 LLM은 물론 클라우드 호스팅 모델(및 토큰 크레딧)을 병행하여 사용할 수 있도록 지원합니다.

Nutanix Enterprise AI (NAI) 2.6 dashboard

통합 API: 이제 기업은 단일 API를 통해 외부 제공업체 모델과 자체 호스팅 모델에 모두 접근할 수 있습니다. 이를 통해 개발자는 하나의 API만으로 여러 서비스 제공업체와 자체 호스팅된 모델을 유연하게 활용할 수 있습니다.

세밀한 토큰 기반 속도 제한: AI 게이트웨이는 엔드포인트 및 사용자별로 토큰 기반 속도 제한 기능을 제공하여 정밀한 비용 및 속도 거버넌스를 구현합니다. 이를 통해 소위 "요금 폭탄"을 방지할 수 있으며, 누가 리소스를 얼마나 소비하는지 파악하여 조직 전체의 효율적인 비용 배분과 리소스 최적화가 가능해집니다.

폴백 및 고가용성: 운영 단계의 AI에서는 안정성이 핵심입니다. 통합 엔드포인트를 통한 AI 게이트웨이는 엔드포인트 폴백 기능을 지원하여, 주 모델 엔드포인트에 장애가 발생할 경우 트래픽을 정상 상태의 백업 모델 엔드포인트로 자동 라우팅합니다. 

로컬 및 원격 엔드포인트 간 부하 분산: 통합 엔드포인트의 로드 밸런싱 기능을 사용하면 여러 클러스터에 분산되어 있거나 외부 호스팅 제공업체에 위치한 모델 엔드포인트들 사이에서도 부하를 고르게 분산할 수 있습니다..

원격 MCP 서버 액세스를 통한 에이전트 역량 강화 (테크 프리뷰)

모델 컨텍스트 프로토콜(MCP) 서버에 대한 액세스 제어 지원을 통해, AI 에이전트는 기업용 도구 및 프라이빗 데이터 소스에 안전하게 연결될 수 있습니다. 이를 통해 정적인 모델을 관리 영역 내에서 비즈니스 워크플로우에 능동적으로 참여하는 주체로 변화시킵니다. AI 게이트웨이는 MCP 서버에 연결된 모든 도구 호출에 대해 통합된 역할 기반 액세스 제어(RBAC) 및 감사 추적을 적용합니다. 

효율성을 위한 성능 최적화

GPU는 고가의 자원이며, 멀티턴(Multi-turn) 대화나 대규모 컨텍스트 작업에서 발생하는 중복 처리는 비용을 크게 증가시킬 수 있습니다. NAI 2.6은 이를 해결하기 위해 두 가지 주요 추론 최적화 기능을 도입했습니다.

kvCache Aware Routing(테크 프리뷰): 이 전략은 요청을 특정 GPU 워커로 직접 라우팅하여 불필요한 재연산을 방지합니다. 이를 통해 '첫 번째 토큰 생성 시간(TTFT)'을 단축하고 전체 시스템의 처리량을 높입니다.

vLLM 투사적 디코딩: 추론 엔진이 과거 패턴을 기반으로 미래에 올 토큰을 예측하고 제안합니다. LLM이 이 제안을 수락하면 쿼리당 반복되는 연산 횟수를 줄일 수 있어, 코드 생성이나 요약과 같은 반복적인 작업에서 더 빠른 응답 속도를 제공합니다.

커스터마이징 및 새로운 기능

인프라 및 관리 측면을 넘어, NAI 2.6은 데이터 사이언티스트와 AI 개발자가 AI 애플리케이션의 한계를 넓힐 수 있는 다양한 기능을 추가했습니다.

LoRA 기반 지도 파인 튜닝(테크 프리뷰): 이제 데이터 사이언티스트와 AI 개발자는 조직 고유의 데이터 세트를 사용해 NAI 내에서 직접 오픈 소스 모델을 미세 조정함으로써, 일반적인 모델을 특정 분야에 특화된 전문가 모델로 진화시킬 수 있습니다. 특히 LoRA(Low-Rank Adaptation) 방식을 채택하여 연산 효율성을 높이도록 설계되었습니다.

고급 vLLM 추론 샌드박스: 이 샌드박스를 통해 고객은 통제된 환경에서 최신 커뮤니티 버전의 vLLM과 맞춤형 구성 파라미터를 테스트하고 실험해 볼 수 있습니다.

음성 인식 지원: NAI는 이제 OpenAI Whisper Large v3 모델을 위한 NVIDIA NIM을 지원하여, 기업이 음성 인식 기능을 비즈니스 워크플로우에 통합할 수 있도록 합니다.

Nutanix 엔터프라이즈 AI 2.6을 통해 조직은 내부의 다양한 사용자나 모델 제공업체 간에 발생하는 파편화된 경험을 더 이상 감당할 필요가 없습니다. 단일화된 보안 게이트웨이를 통해 이러한 환경을 통합함으로써, Nutanix는 진정한 하이브리드 AI의 비전을 현실로 만들고 있습니다.

* 테크 프리뷰는 해당 기능을 실제 운영 환경에서 사용해서는 안 됨을 의미합니다.

©2026 Nutanix, Inc. All rights reserved. Nutanix, Nutanix 로고 및 여기에 언급된 모든 Nutanix 제품 및 서비스 명칭은 미국 및 기타 국가에서 Nutanix, Inc.의 등록 상표 또는 상표입니다. 여기에 언급된 기타 모든 브랜드 명칭은 식별 목적으로만 사용되었으며, 해당 소유자의 상표일 수 있습니다. 본 콘텐츠에는 NAI의 테크 프리뷰 출시 및 계획된 미래의 정식 출시(GA)와 관련된 내용을 포함하여, 역사적 사실이 아니며 당사의 현재 기대, 추정 및 신념에 기반한 명시적 및 묵시적인 미래 예측 진술이 포함되어 있을 수 있습니다. 이러한 진술의 정확성에는 위험과 불확실성이 수반되며 당사의 통제 범위를 벗어날 수 있는 미래의 사건에 따라 달라질 수 있으므로, 실제 결과는 이러한 진술에 의해 예상되거나 암시된 내용과 실질적이고 부정적으로 다를 수 있습니다. 여기에 포함된 모든 미래 예측 진술은 작성일 현재를 기준으로 하며, 법률에서 요구하는 경우를 제외하고 당사는 이후의 사건이나 상황을 반영하기 위해 이러한 미래 예측 진술을 업데이트하거나 수정할 의무를 지지 않습니다.