AI 시장이 빠르게 성장하고 있습니다. 2024년 6.3조 원 규모였던 국내 AI 시장은 2025년 10.5조 원으로, 연간 38.4%의 높은 성장세를 보이고 있습니다. 네이버의 하이퍼클로바X, 삼성전자의 갤럭시 온디바이스 AI, 금융권의 AI 뱅커까지 다양한 산업에서 AI 도입이 활발해지고 있습니다.
하지만 AI 서비스를 실제로 운영하는 기업들은 겉으로 드러나지 않는 어려움을 마주하고 있습니다. 특히 대규모 AI 인프라를 운영하는 기업이라면 더욱 그렇습니다.
✅기업 AI 서비스 운영, 보이지 않는 문제를 어떻게 해결할까?
실제 사례: GPU 1600장 규모 운영의 현실
한 기업의 사례를 살펴보겠습니다. 이 기업은 약 1,000~1,500억 원을 투자해 GPU 1600장 규모의 AI 인프라를 구축했습니다. GPU 서버 200대를 운영하는 대규모 환경입니다. 그런데 문제가 있었습니다. 하루에 1~2대씩 장애가 발생했습니다. 복잡한 GPU 클러스터에서 노드를 제거하고 복구하는 데만 30분에서 1시간이 소요됐고, 성능 지연이나 장애가 발생하면 전체 GPU 클러스터 성능에 영향을 미쳤습니다. AI 워크로드는 지연되거나 중단됐고, 재실행이 필요했습니다.
일일 장애 비용은 1.4억~2.1억 원에 달했습니다. 장애 원인도 다양했지만, 정작 모니터링 데이터는 부족했습니다. Nvidia DCGM 기반의 오픈소스 모니터링 도구로는 샘플링 방식에 1분 지연이 발생했고, 결국 문제가 발생한 후에야 대응하는 후행적 체제로 24시간 대기 인력을 운영해야 했습니다.
AI 워크로드, 왜 이렇게 까다로울까?
AI 워크로드는 기존 IT 시스템과는 다른 특성을 가지고 있습니다.
GPU 클러스터의 취약점
GPU 클러스터는 병렬 분산 처리 구조로 설계되어 있습니다. 8개의 노드가 협력해 작업을 처리하는 구조인데, 이것이 강점인 동시에 약점이기도 합니다. 한 노드의 성능 저하나 장애가 전체 클러스터의 성능 저하와 작업 중단으로 이어질 수 있기 때문입니다. 장애 대응과 복구 프로세스는 복잡하고, 과부하와 작업 효율 사이에서 딜레마에 빠지게 됩니다.
AI 인프라는 GPU 과부하, 메모리와 스토리지 부족, 온도, 전력, NvLink, Infiniband 등 복잡한 문제 요소가 많습니다. 하지만 샘플링 기반의 한정적인 가시성으로는 현황 파악과 분석, 대응이 지연될 수밖에 없고, 근본 원인 해결 없이 후행적으로 문제에 대응하게 됩니다.
AI 트러블슈팅이 어려운 이유
AI 트러블슈팅은 비정형적이고 간헐적인 문제 패턴을 보입니다. AI 데이터, 모델, 인프라 등 복잡한 계층 구조와 복합 원인이 얽혀 있습니다. 실시간으로 변동하는 현황에 비해 샘플링 메트릭, 트레이스, 로그 등 오류 데이터는 한정적입니다. 데이터 드리프트, 입력 데이터 변동, 레이블 오류 등 AI 데이터 품질과 환경 변화도 원인이 될 수 있습니다.
이런 상황은 AI 운영에 심각한 문제를 초래합니다. AI 서비스 가시성과 인사이트가 부족해지고, AI 업무의 신뢰성이 저하되며, 비용이 상승해 인프라와 인력에 추가 투자가 필요해집니다.
✅해답은 "고정밀 실시간 옵저버빌리티"
실시간으로 고성능을 요구하는 복잡한 AI 인프라와 모델을 운영하려면, AI 인프라와 모델 문제를 실시간으로 감지하고 트러블슈팅할 수 있어야 합니다. 지속적인 품질, 성능, 비용 최적화도 필요합니다.
샘플링이 아닌 전체 데이터를 실시간으로 수집하는 '고정밀 옵저버빌리티(Full Fidelity Observability)'가 필요한 이유입니다. 전체 데이터를 실시간으로 수집하고 분석해 AI 업무 가시성, 인사이트, 원인 규명이 가능해집니다. 데이터 기반으로 인프라를 모니터링하고 AI 워크로드를 최적화할 수 있습니다.
Splunk Observability for AI는 이러한 고정밀 실시간 옵저버빌리티를 구현한 솔루션입니다. GPU 인프라부터 LLM 품질 관리까지, AI 운영의 전 과정을 통합적으로 지원합니다.
✅Splunk Observability for AI
Splunk는 AI 운영의 복잡한 과제를 해결하기 위해 AI 리소스 및 비용관리, 구축, 검증, 최적화/맞춤화, 불안정성 완화 등 여러 영역을 통합적으로 지원합니다.

GenAI Platform Monitoring : 인프라 모니터링으로 GPU와 TPU를 포함한 AI 인프라를 특화 모니터링하고, 모델 프레임워크, Vector DB, Orchestrator, 모델(SaaS, Local) 등 소프트웨어 플랫폼 컴포넌트도 관리합니다. 리소스 고갈, 트랜잭션 지연과 대기열을 사전에 알람하고, 트랜잭션과 컴포넌트를 연결해 연관 분석과 트러블슈팅을 지원합니다.

LLM Platform Monitoring : APM(Application Performance Monitoring)으로는 AI 기반 마이크로서비스를 일반 마이크로서비스처럼 모니터링합니다. Rate, Errors, Duration 등 동일한 측정 방식을 사용하되, Gen-AI 기술을 위해 APM을 확장했습니다. OpenTelemetry 확장(OpenLLMetry, OpenLIT)으로 표준화와 통합을 제공하고, RAG 워크플로우 call graph와 모델, 버전, 토큰 사용 등 시맨틱 컨텍스트를 파악할 수 있습니다.

Semantic Quality : Semantic Quality Evaluation은 AI로 AI를 감시하는 기능입니다. 할루시네이션, 답변 적합도, 적대적 답변, 명확성과 간결성 등을 평가하고, 최적의 모델과 버전을 선택할 수 있도록 지원합니다.

Agentic AI : Agentic AI 모니터링은 다중 에이전트 간 반복적이고 재귀적인 워크플로우를 파악하고, 에이전트의 맥락을 이해하며, 응답 기반으로 에이전트 안정성을 평가하고 문제 요소를 분석합니다.
Cost Management : 비용 관리 측면에서도 AI 서비스는 높은 GPU 사용률과 비결정적이고 높은 비용 변동성을 보입니다. 클러스터별 다중 AI 모델, AI 모델별 다중 상위 사용자를 지원하는 환경에서 개별 트랜잭션, 모델, 서비스를 추적하고, 비용과 사용량 증가를 유발하는 이상치를 식별해 알람하며, 모델 간, 버전 간, 로컬 대 SaaS 모델을 비교해 비용 최적화를 지원합니다.
✅AI 서비스 전체를 보는 관점
결국 AI 서비스는 인프라만의 문제가 아닙니다. 웹과 모바일 RUM(Real User Monitoring), ThousandEyes, 네트워크 모니터링, 인프라와 클라우드 모니터링, APM, 데이터베이스 모니터링, 로그, 그리고 LLM 모니터링까지 전체 스택을 통합해서 봐야 합니다.

Splunk는 Events, Logs, Metrics, Traces를 통합하고, 데이터 분석과 AIOps, 자동화를 제공하는 Observability 플랫폼으로 End-to-end AI 서비스 통합 모니터링을 지원합니다. 보안(SIEM)과도 통합해 AI 모델 보안까지 통합 모니터링과 분석이 가능합니다.
AI는 이제 선택이 아닌 필수가 되었습니다. 하지만 AI를 안정적으로 운영하고, 신뢰할 수 있는 서비스를 제공하기 위해서는 보이지 않는 문제들을 실시간으로 파악하고 대응할 수 있는 체계가 필요합니다. GPU 인프라부터 AI 모델, 애플리케이션, 사용자 경험까지 전체를 아우르는 통합 모니터링이 바로 그 시작점입니다. Splunk Observability for AI를 통해 AI 운영의 안정성을 확보하세요!
Splunk는 데이터 접근성을 개선하고, 데이터 기반 인사이트를 확보하고, 데이터 사일로를 제거할 수 있는 AI 기반 통합 보안 및 옵저버빌리티 플랫폼입니다. 업계 최고 수준의 데이터 플랫폼, 고급 분석, 자동화된 조사 및 대응을 통해 비지니스를 보호하고 보안 운영을 강화할 수 있으며, 기업 전체에 대한 옵저버빌리티로 모든 성능 문제가 비지니스에 미치는 영향을 파악하고 더욱 빠르게 해결할 수 있습니다.
클라우드네트웍스는 빅데이터 분야의 전문성을 기반으로 스플렁크 플랫폼의 구축과 기술 지원을 전문으로 하는 전담팀을 운영하고 있습니다. 스플렁크 도입 및 활용에 대한 문의사항은 공식 파트너사인 클라우드네트웍스로 연락 부탁드립니다.