기업들의 AI 도입이 빠르게 확산되고 있습니다. 챗봇, 문서 요약, 코드 생성 등 LLM(거대 언어 모델) 기반 서비스가 실제 비즈니스에 적용되기 시작했고, 여러 LLM 호출과 도구를 연결해 복잡한 작업을 자율적으로 수행하는 AI 에이전트로도 확장되고 있습니다. 그런데 AI를 만드는 것과 AI를 프로덕션에서 안정적으로 운영하는 것은 전혀 다른 문제입니다. AI가 잘못된 정보를 자신 있게 답변하는 할루시네이션(Hallucination), 같은 질문에 매번 달라지는 응답, 에이전트가 불필요한 단계를 반복하며 급증하는 비용, 개인정보 유출 리스크 등 프로덕션 환경에서는 개발 단계에서 예상하지 못한 문제들이 발생합니다.
이런 문제들을 체계적으로 다루기 위해 등장한 영역이 AI 옵저버빌리티(Observability)이며, 이 분야를 선도하는 기업이 Arize AI입니다. 이 글에서는 AI 옵저버빌리티가 왜 필요한지, 그리고 Arize AI의 핵심 제품인 Arize AX 플랫폼이 이 문제를 어떻게 해결하는지 소개합니다.
☑️왜 AI 옵저버빌리티가 필요한가
LLM의 비결정적 특성과 디버깅의 어려움
Arize AI는 AI 에이전트 평가가 어려운 핵심 원인으로 LLM의 비결정적(Non-deterministic) 특성을 지적합니다. "LLM은 비결정적이기 때문에 에이전트가 예상치 못한 경로를 거치면서도 정답에 도달할 수 있고, 이것이 디버깅을 어렵게 만든다"는 것입니다. 최종 결과만 봐서는 내부에서 어떤 문제가 있었는지 알 수 없다는 의미입니다.
에이전트 복잡도의 증가
Arize AI의 Agent Observability 가이드에 따르면, 현재 AI 에이전트는 단일 에이전트를 넘어 복수의 에이전트가 복잡한 라우팅 로직과 핸드오버로 연결된 멀티에이전트 시스템으로 발전하고 있습니다. 멀티모달 기능을 갖추고, MCP 서버를 도구로 연결하며, A2A(Agent-to-Agent) 통신으로 다른 시스템에 제어권을 넘기는 구조도 등장하고 있습니다. 그럼에도 대부분의 팀은 여전히 프롬프트를 수정하고 바로 배포하는 방식으로 디버깅을 하고 있다고 Arize AI는 지적합니다. 멀티에이전트 시스템이 확장되려면 체계적인 옵저버빌리티가 필요하다는 것이 Arize AI의 주장입니다.
규제 환경의 변화
한국에서는 2026년 1월 AI 기본법이 시행되면서, AI 시스템의 투명성과 설명 가능성에 대한 요구가 높아지고 있습니다. AI 옵저버빌리티는 AI 시스템이 어떤 경로로 결과에 도달했는지를 기록하고 추적할 수 있게 해주므로, 규제 대응 측면에서도 활용 가능성이 있습니다.
☑️Arize AI는 어떤 기업인가
Arize AI는 2020년 미국 실리콘밸리에서 설립된 AI 에이전트 엔지니어링 플랫폼 기업입니다. 창업팀은 Uber의 MLOps(머신러닝 운영) 팀 출신 엔지니어들로, 대규모 AI 시스템을 프로덕션 환경에서 운영하며 겪었던 문제들을 해결하기 위해 회사를 시작했습니다. 핵심 미션은 "AI가 실제로 작동하도록 만드는 것(Make AI Work)"입니다.
현재까지 1조 건 이상의 스팬(Span, 추적 단위)을 처리했으며, 월간 5천만 건 이상의 AI 평가(Evaluation)를 수행하고 있습니다. 2025년 2월에는 시리즈 C 라운드에서 7,000만 달러의 투자를 유치했으며, TCV, Battery Ventures, Foundation Capital 등이 투자에 참여했습니다. Google과 NVIDIA의 공식 파트너이며, DoorDash, Air Canada, PepsiCo, Booking.com, Priceline, Wayfair, PagerDuty 등 글로벌 엔터프라이즈 기업들이 Arize 플랫폼을 활용하고 있습니다.
☑️Arize AX: AI 개발부터 운영까지 하나의 플랫폼에서
Arize AX는 AI 앱과 에이전트의 개발을 가속화하고, 프로덕션 환경에서 완성도를 높이는 엔터프라이즈 AI 엔지니어링 플랫폼입니다. Arize AI는 Arize AX를 "AI 개발과 프로덕션 사이의 루프를 닫는(Close the loop) 단일 플랫폼"이라고 설명합니다. 프로덕션에서 수집된 실제 데이터가 개발 단계의 개선으로 이어지고, 개발 단계의 평가 기준이 프로덕션 모니터링에 그대로 적용되는 순환 구조를 지원합니다.
Arize AX의 핵심 기능은 크게 세 가지 영역으로 구분됩니다.
1. 개발 도구 (Development)
고품질 AI 에이전트와 앱을 구축하기 위한 개발 환경입니다.

프롬프트 최적화 (Prompt Optimization)
AI 에이전트의 성능은 프롬프트의 품질에 크게 좌우됩니다. Arize AX의 프롬프트 최적화 기능은 평가 결과와 어노테이션 데이터를 활용하여 프롬프트를 자동으로 개선합니다. 수동으로 프롬프트를 하나씩 조정하는 시행착오 방식과 달리, 실제 평가 데이터에 기반한 체계적인 최적화가 가능합니다. Arize AI는 이 기능을 통해 "에이전트가 스스로 개선되도록(self-improving)" 만들 수 있다고 설명합니다.
프롬프트 플레이그라운드 (Prompt Playground)
프로덕션에서 실제로 발생한 데이터를 플레이그라운드 환경에서 재생(Replay)하여, 동일한 조건에서 프롬프트를 디버깅하고 수정할 수 있습니다. 다양한 프롬프트 변형을 동시에 테스트하고 결과를 나란히 비교할 수 있어, 반복적인 개선 작업을 효율적으로 수행할 수 있습니다.
프롬프트 서빙 및 관리 (Prompt Serving & Management)
프롬프트의 버전 관리, 배포, 변경 이력 추적을 중앙에서 관리합니다. 최적화된 프롬프트를 빠르게 프로덕션에 반영할 수 있으며, 개발자뿐 아니라 비개발 직군도 프롬프트 변경에 참여할 수 있는 환경을 제공합니다.
데이터셋 및 실험 (Datasets & Experiments)
LLM 프로젝트의 반복 주기를 가속화하기 위한 실험 실행 기능을 기본 지원합니다. 테스트 데이터셋을 구성하고, 프롬프트나 모델 변경에 따른 성능 차이를 체계적으로 비교할 수 있습니다.
2. 평가 (Evaluation)
AI 시스템이 의도한 대로 작동하는지 검증하고, 프로덕션 배포 전후의 품질을 보장하는 기능입니다.

CI/CD 실험 (CI/CD Experiments)
소프트웨어 개발에서 CI/CD(지속적 통합/지속적 배포)가 코드 품질을 보장하듯, Arize AX는 AI 시스템에도 동일한 원칙을 적용합니다. 프롬프트 변경이나 에이전트 구조 수정이 프로덕션에 배포되기 전에, 평가 기반의 CI/CD 파이프라인을 통해 성능 회귀(Regression)를 사전에 감지합니다. "변경 사항이 기존보다 나빠지지 않았는가"를 자동으로 검증한 후에만 배포가 진행되도록 할 수 있습니다.
LLM-as-a-Judge
AI 시스템의 출력을 사람이 일일이 평가하는 것은 비용과 시간 면에서 한계가 있습니다. Arize AX의 LLM-as-a-Judge 기능은 별도의 LLM을 활용하여 AI 시스템의 출력 품질을 자동으로 평가합니다. 할루시네이션 여부, 응답의 관련성, 정확성, 안전성 등 다양한 측면을 대규모로 일관되게 평가할 수 있습니다. Arize AI는 사전 테스트된 평가 템플릿을 제공하며, 기업의 요구에 맞는 커스텀 평가 기준도 설정할 수 있습니다
온라인 평가 (Online Evals)
개발 단계의 오프라인 평가뿐 아니라, 프로덕션 환경에서 실시간으로 AI 출력을 평가하는 온라인 평가 기능도 제공합니다. Arize AI는 이를 "AI가 AI를 평가(AI evaluating AI)"하여 문제를 즉시 포착하는 방식이라고 설명합니다. 프로덕션에서 발생하는 품질 저하를 실시간으로 감지하여, 사후 대응이 아닌 사전 대응이 가능합니다.
휴먼 어노테이션 및 큐 관리 (Human Annotations & Queues)
자동 평가만으로 커버하기 어려운 경우, 인간 평가자의 라벨링 작업을 관리하는 기능입니다. 라벨링 큐를 관리하고, 프로덕션 어노테이션을 수행하며, 골든 데이터셋(고품질 기준 데이터)을 한 곳에서 생성할 수 있습니다. 자동 평가와 인간 평가를 결합하여 더 정확한 품질 관리 체계를 구축할 수 있습니다.
3. 옵저버빌리티 (Observability)
프로덕션 환경에서 AI 시스템의 동작을 실시간으로 관찰하고, 문제를 식별하며, 지속적으로 개선하는 기능입니다.

오픈 표준 트레이싱 (Open Standard Tracing)
AI 에이전트가 최종 답변에 도달하기까지의 전체 경로를 시각화합니다. 어떤 LLM을 호출했는지, 어떤 도구를 사용했는지, 어떤 순서로 작업을 수행했는지, 각 단계에서 얼마나 시간과 비용이 소요되었는지를 추적합니다.
Arize AX의 트레이싱은 OpenTelemetry(OTEL) 기반으로 구축되어 있어, 특정 LLM 모델이나 에이전트 프레임워크에 종속되지 않습니다. LangGraph, CrewAI, OpenAI SDK 등 어떤 프레임워크를 사용하든 동일한 방식으로 추적이 가능합니다.
트레이싱을 통해 확인할 수 있는 정보는 다음과 같습니다.
모니터링 및 대시보드 (Monitoring & Dashboards)
AI 시스템의 주요 성능 지표를 상시 모니터링하는 기능입니다. 할루시네이션 발생률, PII(개인정보) 유출 감지, 응답 품질 변화, 레이턴시(응답 지연) 등 핵심 지표를 실시간 대시보드로 확인할 수 있으며, 설정한 임계값을 초과하면 자동으로 알림을 보냅니다.
가드레일 (Guardrails)
AI의 입력(Input)과 출력(Output) 양쪽에 사전 안전장치를 설정하는 기능입니다. 부적절한 질문이 AI에 전달되는 것을 차단하거나, 위험하거나 부정확한 응답이 사용자에게 전달되는 것을 방지합니다. Arize AI는 이를 "비즈니스 리스크를 사전에 완화하는 능동적 안전장치"라고 설명합니다.
검색 및 큐레이션 (Search & Curate)
프로덕션에서 수집된 대량의 데이터 중에서 관심 있는 데이터 포인트를 지능적으로 검색하고 분류하는 기능입니다. 특정 조건에 해당하는 데이터를 필터링하고, 카테고리별로 정리하여 데이터셋으로 저장한 뒤, 심층 분석이나 자동화 워크플로우에 활용할 수 있습니다.
AI 코파일럿 (Co-Pilot)
Arize AX에는 플랫폼 내에서 동작하는 AI 코파일럿이 내장되어 있습니다. 사용자가 트레이싱 데이터나 평가 결과를 분석할 때, 코파일럿이 패턴을 식별하고 개선 방향을 제안합니다.
☑️Arize AX의 기술적 차별점
OpenTelemetry 기반 아키텍처
Arize AX는 CNCF(Cloud Native Computing Foundation)의 오픈 표준인 OpenTelemetry를 기반으로 구축되어 있습니다. 이는 특정 벤더나 프레임워크에 종속되지 않는다는 의미입니다. OpenAI, Anthropic, Google 등 어떤 LLM 모델을 사용하든, LangGraph, CrewAI, OpenAI SDK 등 어떤 에이전트 프레임워크를 사용하든 동일한 방식으로 추적과 모니터링이 가능합니다.
개발과 프로덕션의 통합 순환 구조
많은 AI 도구들이 개발 단계 또는 운영 단계 중 하나에만 초점을 맞추고 있습니다. Arize AX는 이 두 단계를 하나의 플랫폼에서 연결합니다. 프로덕션에서 수집된 실제 데이터가 개발 단계의 실험과 프롬프트 최적화에 활용되고, 개발 단계에서 설정한 평가 기준이 프로덕션 모니터링에 그대로 적용됩니다. 이 순환 구조를 통해 AI 시스템이 지속적으로 개선됩니다.
온프레미스 배포 지원
Arize AX는 클라우드 SaaS뿐 아니라 온프레미스 배포도 지원합니다. 금융, 공공, 의료 등 데이터를 외부로 내보낼 수 없는 보안 정책을 가진 기업에서도 자체 인프라 내에서 Arize AX를 운영할 수 있습니다.
☑️글로벌 기업들의 실제 활용 사례
Arize AX는 다양한 산업에서 실제로 활용되고 있습니다.
공개된 정보 외에 국내 구축 사례 등은 클라우드네트웍스로 연락 부탁드립니다.
☑️마치며
AI 시스템의 도입이 확산될수록, "AI를 만드는 것"만큼 "AI를 제대로 관리하는 것"이 중요해지고 있습니다. Arize AX는 AI 시스템의 개발부터 평가, 운영까지 전 과정을 하나의 플랫폼에서 지원하며, 글로벌 엔터프라이즈 기업들이 검증한 AI 엔지니어링 솔루션입니다.
클라우드네트웍스는 Arize AI의 국내 파트너로서, 국내 기업들이 AI 시스템을 안정적으로 운영하고 지속적으로 개선할 수 있도록 Arize AX 플랫폼의 도입과 구축을 지원합니다. Arize AX 플랫폼에 대한 문의사항은 공식 파트너사인 클라우드네트웍스로 연락 부탁드립니다.