AI 시스템을 운영하는 기업이라면 한 번쯤 이 질문을 마주하게 됩니다. "우리 AI가 지금 제대로 작동하고 있는가." 프롬프트를 수정했는데 성능이 나아졌는지, 모델을 바꿨는데 기존 사용 사례가 깨지지 않았는지, 실제 사용자 환경에서 환각(hallucination)이 얼마나 발생하고 있는지. 이 질문들에 데이터로 답할 수 없다면, AI 시스템의 품질은 측정되지 않은 채로 운영되고 있는 것입니다.
그런데 이보다 더 중요한 질문이 있습니다. "우리는 평가를 한 번 실행하고 있는가, 아니면 평가 체계를 갖추고 있는가." 이 두 가지는 완전히 다릅니다. 일회성 평가 실행과, 지속적으로 측정·경보·개선을 수행하는 시스템 사이의 간격이 AI Ops 성숙도의 핵심입니다. Arize AI는 이 간격을 어떻게 정의하고, 어떻게 단계적으로 좁혀나갈 수 있는지를 평가 하네스(Evaluation Harness)와 4단계 성숙도 모델로 제시합니다.
☑️ 왜 AI 평가가 필요한가
LLM(대규모 언어 모델) 기반 애플리케이션은 기존 소프트웨어와 근본적으로 다른 특성을 가집니다. 코드는 동일한 입력에 항상 동일한 출력을 만들지만, LLM은 비결정론적(non-deterministic)입니다. 같은 질문에도 다른 표현의 답변이 나올 수 있고, 사용자 다양성과 엣지 케이스 앞에서 프로덕션 환경은 샌드박스보다 훨씬 까다롭습니다. 데모 환경에서 잘 작동하는 프롬프트가 실제 프로덕션 복잡도 앞에서 실패하는 이유입니다.
Arize AI는 이 지점에서 평가의 필요성을 명확히 합니다. 평가 없이는 변경이 성능을 개선했는지, 사용 사례를 깨뜨렸는지, 아무런 영향이 없는지조차 알 수 없습니다. 평가 없이 AI 시스템을 운영하는 것은 눈을 감고 운전하는 것과 같습니다.
AI 평가가 필요한 이유는 네 가지로 정리됩니다.
첫째, 반복 개선의 추적입니다. 프롬프트·파라미터·검색 전략을 수정할 때마다 그 변경이 실제로 성능을 높였는지 데이터로 확인할 수 있습니다. 둘째, 회귀(regression) 탐지입니다. 사용자에게 영향이 가기 전에 성능 저하를 사전에 감지할 수 있습니다. 셋째, 품질의 정량화입니다. 관련성(relevance)·환각 발생률·일관성·지연시간(latency) 등 다양한 축에서 품질을 수치로 표현할 수 있습니다. 넷째, 대안 비교입니다. 서로 다른 모델·전략·도구를 동일한 기준에서 벤치마킹할 수 있습니다.
그러나 이 네 가지를 실현하려면 평가를 한 번 실행하는 것으로는 충분하지 않습니다. Arize AI의 정의에 따르면 AI 평가란 LLM 기반 애플리케이션이 얼마나 잘 수행되는지를 체계적으로 측정하는 과정이며, 지속적으로 측정하고 이상을 감지하고 그 결과를 시스템 개선으로 연결하는 체계 안에서 작동할 때 비로소 의미를 가집니다. 이 체계의 근간이 평가 하네스입니다.
☑️ 평가 하네스(Evaluation Harness)란 무엇인가
평가 하네스는 AI 평가의 전 과정을 일관된 3단계 파이프라인으로 정의하는 아키텍처입니다. Arize AI는 평가 방식이 얼마나 단순하든 고도화되든, 이 구조가 변하지 않는다고 명시합니다. 처음 평가를 시작하는 팀과 자율화된 AI Ops를 운영하는 팀이 같은 파이프라인 구조를 공유합니다. 달라지는 것은 인터페이스와 자동화 수준뿐입니다.
평가 입력(Evaluation Inputs)은 무엇을 평가할 것인가를 정의합니다. 트레이스(trace)나 오프라인 실험 데이터를 대상으로, 개별 LLM 호출(span)·전체 에이전트 트레이스·사용자 세션 단위로 범위를 설정합니다. 평가자가 정확하고 목적에 맞는 데이터를 받을 수 있도록 필터링과 전처리를 포함합니다.
평가 실행(Evaluation Execution)은 어떻게 점수를 매길 것인가를 결정합니다. LLM-as-a-Judge·결정론적 코드 검사·임베딩 유사도·커스텀 스코어링 함수, 또는 이들의 조합이 플랫폼·API 엔드포인트·외부 패키지를 통해 실행됩니다. 벤더에 종속되지 않으며 결과는 동일한 위치에 기록됩니다. 평가 결과의 출력 방식에 대해 Arize AI는 명확한 권고안을 제시합니다. 1~10 같은 연속 점수보다 범주형 평가(categorical evaluation)를 사용하는 것이 프로덕션 환경에 더 적합합니다. LLM은 미묘한 연속 척도를 다루는 데 어려움을 겪으며, 프롬프트 수정이나 모델 변경에 따라 점수가 불안정하게 변동하는 경향이 있습니다. 반면 범주형 평가, 특히 다중 분류(multi-class) 방식은 단순성과 명확한 판단 표현 사이의 균형을 유지해 대규모 평가에 더 신뢰할 수 있는 결과를 제공합니다.
평가 액션(Evaluation Actions)은 평가 결과로 무엇을 할 것인가를 통해 루프를 완성합니다. 인간 검토를 위한 어노테이션 큐(annotation queue), 운영 툴링으로 라우팅되는 모니터·알림, 회귀 검증을 위한 CI/CD 게이트, 평가 결과를 시스템 개선으로 전환하는 AI 보조 실험 워크플로우가 포함됩니다.
평가 하네스가 강력한 이유는 입력·실행·액션이라는 세 단계가 끊기지 않고 하나의 루프로 연결된다는 점입니다. 평가 결과가 알림과 개선 액션으로 이어지고, 그 개선이 다시 다음 평가 입력에 반영됩니다. 이 루프가 얼마나 자동화되어 있는지가 AI Ops의 성숙도를 결정합니다.
☑️ AI Ops 성숙도 4단계
Arize AI는 평가 하네스를 기반으로 조직의 AI Ops 역량이 어떻게 성장하는지를 4단계 성숙도 모델로 제시합니다. 각 단계는 이전 단계의 기반 위에서 구축되며, 언제든지 현재 위치에서 시작할 수 있습니다.
1. Crawl: GUI 기반 평가
첫 번째 단계는 플랫폼 UI를 통해 모든 작업을 수행하는 단계입니다. AI 시스템에 OpenTelemetry 기반 계측(instrumentation)이 완료되어 트레이스가 플랫폼으로 유입되고 있다면, Crawl 단계에서는 코드 작성 없이 평가를 시작할 수 있습니다.
UI에서 평가 범위를 설정합니다. 단일 LLM 호출·전체 에이전트 트레이스·사용자 세션 중 어느 단위를 평가할지 선택합니다. 환각 탐지·관련성 점수·QA 정확도 등의 평가자 템플릿을 선택하거나 직접 구성합니다. 심판 모델을 설정하고 실행한 뒤 결과를 검토합니다.
이 단계의 핵심 가치는 접근성에 있습니다. Crawl 단계는 기능이 제한된 입문 모드가 아닙니다. 다른 단계와 동일한 실행 엔진·데이터 모델·평가 인프라를 사용합니다. 차이는 인터페이스이지 역량이 아닙니다. 이로 인해 도메인 전문가와 제품 관리자가 엔지니어 없이 직접 평가에 참여할 수 있습니다. 평가가 한 사람의 업무가 아니라 팀 전체의 실천(practice)이 되는 시작점입니다.
2. Walk: AI 보조 평가 운영
두 번째 단계에서는 Alyx가 등장합니다. Alyx는 Arize AX 플랫폼에 내장된 AI 코파일럿으로, 평가 워크플로우를 대화형으로 설계하고 실행할 수 있게 합니다.
Crawl 단계가 평가를 실행하는 단계라면, Walk 단계는 누가 실행할 수 있는지, 얼마나 빠르게 실행되는지를 바꾸는 단계입니다. 모든 평가자·태스크·실험을 수동으로 구성하는 대신, Alyx에게 대화로 지시합니다. 트레이스를 분석해 실패 패턴을 찾아달라고 하거나, 커버되지 않은 엣지 케이스에 대한 합성 테스트 데이터를 생성해달라고 하거나, 평가자 템플릿 초안 작성·실험 실행·결과 해석·프롬프트 반복까지 수행하도록 지시할 수 있습니다.
멀티턴 워크플로우의 각 단계는 투명하게 검토 가능합니다. Alyx가 계획을 제안하면 사용자가 승인하거나 수정한 뒤 실행이 진행됩니다. 인간의 감독이 모든 단계에 유지됩니다. 핵심 전환은 "내가 평가를 구성한다"에서 "AI가 평가를 구성하도록 내가 지시한다"로 이동하는 것입니다. 해당 사용 사례에서 무엇이 정확한 것인지를 이해하는 도메인 전문가가 코드 작성이나 CLI 학습 없이 평가 워크플로우 전체를 직접 주도할 수 있습니다.
3. Run: 헤드리스 개발자 워크플로우
세 번째 단계는 엔지니어링 팀이 빠르게 반복할 때를 위한 단계입니다. Arize AX는 완전히 문서화된 CLI와 AI 코딩 에이전트가 소비할 수 있는 스킬 프레임워크를 제공합니다.
AX CLI는 플랫폼의 모든 기능에 프로그래밍 방식으로 접근할 수 있게 합니다. 스팬 내보내기·평가자 생성·태스크 연결·실행 트리거·결과 수집이 모두 포함됩니다. 스킬 문서는 Cursor·Claude Code·Windsurf·Codex 등 AI 코딩 에이전트에게 API·데이터 스키마·실험 워크플로우에 대한 전체 컨텍스트를 제공합니다. 코딩 에이전트는 명령을 맹목적으로 실행하는 것이 아니라 플랫폼의 데이터 모델을 이해하고 다음에 해야 할 일을 추론합니다.
실제 워크플로우는 이렇게 작동합니다. 에이전트가 실패한 모니터에서 미해결 알림을 가져옵니다. 관련 스팬을 내보냅니다. 실패 패턴을 분석합니다. 프롬프트 수정안을 작성합니다. 수정된 버전에 대해 타깃 평가를 실행합니다. 기준선(baseline)과 결과를 비교합니다. 검토를 위해 변경사항을 제출하거나 CI/CD로 직접 푸시합니다. 인간이 루프에 있지만 모든 단계에서 AI가 가속화합니다.
평가가 별도의 활동에서 개발 내부 루프 안으로 들어옵니다. 하네스가 사후에 확인하는 것이 아니라 출시 방식의 일부가 됩니다.
4. Fly: 모니터 트리거 자율 에이전트
네 번째 단계가 Arize AI가 제시하는 AI Ops의 최종 목표입니다.
모니터가 평가 지표의 저하를 감지합니다. 특정 의미 클러스터에서 환각 발생률이 급증하거나, 모델 업데이트 이후 툴 호출 실패율이 상승하거나, 새로운 주제 영역에서 검색 관련성이 하락하는 경우가 해당됩니다. 모니터가 웹훅을 통해 알림을 발송합니다. 그 웹훅이 AX CLI 접근 권한과 전체 스킬 컨텍스트를 갖춘 상시 대기 에이전트를 트리거합니다. 에이전트가 자율적으로 분류 작업을 수행합니다. 관련 스팬을 내보내고, 타깃 평가를 실행해 실패 패턴을 격리하고, 클러스터 경계를 식별하고, 인간 검토를 위한 구조화된 결과를 제출합니다. 잘 알려진 실패 패턴에 대해서는 수정안을 직접 작성하고 테스트합니다.
Arize AI는 이 단계의 모든 구성 요소, 즉 구성 가능한 임계값을 가진 모니터·웹훅 기반 알림 라우팅·CLI·스킬 프레임워크가 현재 존재한다고 명시합니다. 조합이 프론티어입니다. 가장 앞선 팀들은 이미 이 방향으로 구축하고 있습니다. 단순히 시스템을 측정하는 것이 아니라 시스템 유지에 능동적으로 참여하는 평가 인프라, 그것이 자율 AI Ops입니다.
Crawl에서 쌓은 GUI 기반 평가 경험이 Walk의 AI 보조 운영으로 이어지고, Run의 프로그래밍 방식 자동화가 Fly의 완전한 자율 루프를 가능하게 합니다. 하네스 아키텍처는 처음부터 끝까지 동일합니다. 달라지는 것은 얼마나 많은 부분이 사람의 개입 없이 작동하는가입니다.
☑️ Arize AX - AI Ops 성숙도 모델을 구현하는 플랫폼
4단계 성숙도 모델을 실제로 구현하는 도구가 Arize AX입니다. Arize AI는 Arize AX를 AI 앱과 에이전트의 개발을 가속화하고 프로덕션에서 완성도를 높이기 위해 구축된 단일 플랫폼으로 정의합니다.
플랫폼의 기능은 개발 단계와 프로덕션 단계로 구분됩니다.
개발 단계에서는 트레이싱(Tracing)으로 생성형 AI 애플리케이션을 통한 데이터 흐름을 시각화하고 LLM 호출의 병목지점을 식별합니다. 데이터셋과 실험(Datasets and Experiments)으로 반복 사이클을 가속화하고, 프롬프트 플레이그라운드(Prompt Playground)로 프롬프트 변경사항을 다양한 데이터셋에 대해 실시간으로 테스트합니다. 온·오프라인 평가(Evals Online and Offline)로 Arize LLM 평가 프레임워크의 템플릿을 활용하거나 커스텀 평가를 가져올 수 있습니다.
프로덕션 단계에서는 검색과 큐레이션(Search and Curate)으로 관심 데이터 포인트를 필터링·분류해 심층 분석이나 자동화 워크플로우를 실행합니다. 가드레일(Guardrails)로 AI 입력과 출력 모두에 선제적 보호 장치를 적용합니다. 모니터(Monitor)로 환각·PII 누출 등 핵심 지표를 상시 감지하고 대시보드로 표면화합니다. 어노테이션(Annotations)으로 오류를 식별·수정하고 응답을 원하는 결과에 맞게 정제합니다.
☑️ AI 평가를 시작하는 방법
Arize AI의 성숙도 모델이 전달하는 핵심 메시지는 하나입니다. 완벽한 준비를 갖춘 다음 시작하는 것이 아니라, 지금 있는 단계에서 시작해 자율 AI Ops를 향해 성장하는 것입니다.
GUI로 첫 평가를 실행하는 Crawl 단계에서든, 자율 에이전트가 품질 저하를 스스로 탐지하고 수정하는 Fly 단계에서든, 평가 하네스의 구조는 동일합니다. 달라지는 것은 자동화의 수준과 사람의 개입 없이 운영되는 범위입니다. 각 단계를 밟을수록 AI 시스템은 더 안정적으로 운영되고, 조직의 AI Ops 역량은 한 단계씩 성숙해집니다.
클라우드네트웍스는 Arize AI의 공식 파트너로서, Arize AX 도입과 AI 평가 체계 구축을 지원합니다. AI 애플리케이션의 품질을 측정하고 지속적으로 개선하는 체계를 구축하고자 하는 기업은 클라우드네트웍스에 문의하시기 바랍니다.
▶ Arize AI 자세히보기