AI 엔지니어링의 계획부터 실행까지 자율로 처리하는 AI 에이전트 - Arize Alyx 2.0
Alyx 2.0은 Arize AI가 출시한 AI 엔지니어링 에이전트로, Arize AX 플랫폼 전반에 내장되어 AI 시스템의 디버깅, 평가, 프롬프트 최적화, 실험을 자율적으로 계획하고 실행합니다. 단순히 질문에 답하는 챗봇이 아니라, 다단계 워크플로를 스스로 분해하고 실행하는 진정한 계획(Planning) 에이전트입니다. Alyx 2.0은 장애 원인을 수 초 안에 분석하고, 프로덕션 장애에서 테스트 데이터셋을 자동으로 생성하며, 프롬프트 실험 전체를 하나의 워크플로로 처리합니다. Arize AX 플랫폼의 트레이스 화면, 프롬프트 플레이그라운드, Eval Builder, 데이터셋·실험 페이지 등 어느 화면에서든 작동하며, AX CLI를 통해 Cursor, Claude Code 같은 외부 개발 환경과도 연결됩니다.이번 블로그에서는 계획하고 실행하는 AI 에이전트 'Alyx 2.0'의 기능과 작동 방식을 소개합니다.Arize AX, 그리고 AlyxArize AX는 개발 단계부터 실제 운영까지 AI 에이전트와 애플리케이션을 모니터링하고 개선하는 엔터프라이즈 AI 엔지니어링 플랫폼입니다. 에이전트 레벨 트레이싱, 프롬프트 최적화, 온라인·오프라인 평가(Evaluation), 실시간 모니터링 및 알림, ML·컴퓨터 비전 모델 관측성까지 AI 시스템 운영에 필요한 기능을 하나의 플랫폼에서 제공합니다. LLM 기반 AI 시스템을 운영하는 팀이 모델의 동작을 이해하고, 오류를 진단하고, 지속적으로 개선할 수 있도록 설계된 플랫폼입니다.AI 제품을 만드는 팀이라면 익숙한 상황이 있습니다. 모델은 어느 정도 완성됐는데, 정작 시간의 대부분은 트레이스를 뒤지거나, 평가 기준을 손으로 설정하거나, 여러 툴 사이를 오가며 결과를 직접 이어 붙이는 데 쓰입니다. 어떤 팀은 LLM 애플리케이션 하나를 운영하기 위해 트레이싱 툴, 평가 프레임워크, 프롬프트 관리 시스템, 실험 플랫폼을 각각 별도로 운용합니다. 이 툴들 사이를 오가며 데이터를 복사하고, 결과를 수동으로 정리하고, 다음 액션을 직접 결정하는 과정이 반복됩니다. 이 워크플로들은 파편화되어 있고, 수동적이며, 느립니다. 시스템이 점점 더 에이전틱해질수록 이 문제는 더 심각해집니다.Arize AX는 이 파편화된 워크플로를 하나의 플랫폼으로 통합합니다. 그리고 Alyx는 그 플랫폼 위에서 작동하는 에이전트입니다. Alyx는 이 Arize AX 플랫폼 전반에 내장된 AI 에이전트로, AI 엔지니어가 애플리케이션을 구축하고 개선하는 과정을 지원하도록 설계되어 있습니다. 사용자가 플랫폼의 어느 화면에 있는지에 따라 Alyx는 그에 맞는 컨텍스트와 기능을 제공합니다. 별도로 실행하는 툴이 아니라, 작업하는 화면에 항상 함께 있으면서 그 맥락에 맞는 기능을 제공하는 방식입니다.Alyx가 기존 AI 어시스턴트와 다른 이유AI 어시스턴트라는 말을 들으면 보통 질문에 답하거나, 정해진 흐름대로 실행하는 도구를 떠올립니다. 기존의 많은 AI 어시스턴트는 사전 정의된 워크플로를 실행하거나 단일 결정 트리를 따르는 수준에 머물렀습니다. 적응하지 못하고, 복잡한 액션을 조합하지 못하며, 예상치 못한 결과를 만들어내지도 못합니다.Alyx 2.0이 다른 이유는 계획(Planning) 능력에 있습니다. Alyx 2.0은 다단계 작업을 추론하고, 액션 전반에서 컨텍스트를 유지하며, 필요할 경우 UI와 직접 상호작용하고, 중요한 의사결정 지점에서 사용자 승인을 요청하는 진정한 오케스트레이터입니다. 단순히 더 나은 모델을 쓰거나 더 많은 툴 호출을 하는 것이 아니라, 계획 자체가 핵심 변화입니다.Alyx는 정교한 오케스트레이션 시스템을 기반으로 구축되어 있으며, 다단계 워크플로를 관리하고, 툴 호출을 조율하고, 복잡한 분석 전반에 걸쳐 컨텍스트를 유지합니다. 사용자가 어떤 툴을 사용해야 하는지, 어떤 정보를 쿼리에 제공해야 하는지 알 필요 없이, Alyx가 요청을 동적으로 라우팅하고, 적절한 툴을 선택하고, 작업을 연결해 질문에 답합니다.이 오케스트레이터 아키텍처가 가능하게 하는 것들은 네 가지입니다. 첫째, 복잡한 질문을 다단계 계획으로 자동 분해하는 태스크 분해입니다. 둘째, 컨텍스트에 기반해 툴을 선택하고 순서를 정하는 툴 호출 조율입니다. 어떤 툴을 어떤 순서로 호출해야 하는지를 Alyx가 스스로 결정합니다. 셋째, 반복과 툴 호출 전반에 걸쳐 컨텍스트를 유지하는 대화 연속성입니다. 앞선 분석 결과를 기억하고, 다음 단계에서 그 결과를 활용합니다. 넷째, 작업이 실패하거나 재시도가 필요할 때 에이전트가 적응하는 오류 처리 및 복구입니다. 기존의 분석 툴이 AI 시스템 데이터를 일반적인 관측성 트레이스로 취급하는 것과 달리, Alyx는 LLM 워크플로와 AI 에이전트의 고유한 구조와 의미를 이해하도록 설계되어 있습니다.결과적으로 작업의 단위 자체가 달라집니다. 프롬프트, 트레이스, 개별 평가 수준이 아니라 AI 엔지니어링 전체 라이프사이클 수준에서 작동합니다. 실제 장애에서 데이터셋을 합성하고, 장애 패턴에서 평가를 도출하고, 어노테이션을 기반으로 프롬프트를 최적화하고, 실험을 실행 및 분석하는 과정을 하나의 연속된 루프로 처리합니다. Alyx는 툴을 직접 조율하는 것이 아니라 의도를 위임하는 방식입니다.Alyx가 실제로 해결하는 것들AI 시스템 운영에서 반복적으로 발생하는 문제들이 있습니다. 트레이스를 하나씩 열어보고 어노테이션을 검토하며 어디서 무엇이 잘못됐는지 추측하는 디버깅 과정, 테스트 데이터를 손으로 만들어야 하는 데이터 생성 과정, 빈 화면에서 시작하는 프롬프트 실험 과정이 그것입니다. Alyx는 이 세 가지를 모두 다른 방식으로 처리합니다.AI 시스템에서 문제가 생겼을 때 보통은 트레이스를 하나씩 열어보고, 어노테이션을 검토하고, 어디서 무엇이 잘못됐는지 추측하는 과정을 반복합니다. 에러 메시지 하나를 추적하는 데 수 시간이 걸리는 경우도 있고, 문제를 찾았더라도 그것이 실제로 중요한 이슈인지 판단하는 데 또 시간이 필요합니다. 어노테이션이 쌓여 있어도 그것을 체계적으로 분석해 레이블로 정리하고, 어떤 것이 실제로 중요한지 판단하는 과정은 여전히 수작업에 의존합니다.Alyx에게 "무엇이 잘못됐나요?"라고 질문하면 장애 패턴, 수정 제안, 최적화된 프롬프트를 수 초 내에 제공합니다. 트레이스 어노테이션을 종합해 이산적인 레이블로 정리하고, 실제로 중요한 이슈를 판단한 뒤 평가 템플릿을 생성하고 평가 태스크를 자동으로 실행합니다. 수동 리뷰도, 레이블 체계 논의도, 수작업 연결도 필요 없습니다.대부분의 디버깅 툴은 더 많은 데이터를 보여줄 뿐입니다. Alyx는 왜 문제가 발생했는지를 설명합니다. 특정 가이드라인까지 실패 원인을 추적하고, 정확한 의사결정 경로를 제시하며 근본 원인을 도출합니다. 추측 없이, 데이터 탐색 없이, 정확히 무엇을 수정해야 할지를 알 수 있습니다.장애를 파악했다면 다음은 재현과 검증입니다. 테스트 데이터를 만드는 일은 생각보다 많은 시간을 잡아먹습니다. 실제 프로덕션 환경에서 발생한 장애를 재현하는 케이스를 수동으로 구성하는 것은 번거롭고, 자동화되지 않은 경우 일관성도 보장하기 어렵습니다. 프로덕션 환경의 실제 장애를 바탕으로 테스트 데이터셋을 자동으로 생성하고, 그 장애 패턴을 회귀 테스트로 전환합니다. 수동으로 재현하거나 버그가 배포된 뒤에야 발견할 필요가 없습니다.장애 패턴이 파악되면 그것을 평가 기준으로 전환하는 과정도 자동화됩니다. 수동으로 평가 항목을 설계하거나 어떤 실패 케이스를 테스트로 만들어야 할지 고민할 필요가 없습니다. Alyx가 장애 패턴에서 직접 회귀 테스트를 생성하고, 같은 문제가 다시 배포되기 전에 잡아낼 수 있는 체계를 만들어 줍니다. 평가 설계에 들어가는 시간을 줄이고, 실제로 중요한 문제에 집중할 수 있게 됩니다.프롬프트 실험도 마찬가지입니다. 프롬프트 실험은 보통 최악의 상태에서 시작됩니다. 빈 플레이그라운드, 데이터셋 없음, 베이스라인 없음, 어디서부터 시작해야 할지 모르는 상태. 실험을 설계하는 것 자체에 많은 준비가 필요하고, 그 준비 과정에서 시간이 소모됩니다. 데이터셋을 준비하고, 프롬프트 변형을 만들고, 평가를 연결하고, 실험을 돌리고, 결과를 분석하고, 어떤 프롬프트가 나은지 판단하는 과정이 전부 수동입니다.Alyx를 사용하면 이 과정을 위임할 수 있습니다. 데이터셋 생성, 프롬프트 변형 생성, 평가 연결, 실험 실행, 결과 분석, 개선 사항 추천을 하나의 연속된 워크플로 안에서 처리합니다. 인터페이스를 클릭하거나 실험을 수동으로 실행하는 것이 아니라, 의도를 지시하면 Alyx가 실행을 담당합니다.Alyx가 작동하는 곳Alyx는 특정 화면에서만 작동하는 툴이 아닙니다. Arize AX 플랫폼 안에서 작업이 일어나는 곳이라면 어디서든 Alyx가 함께합니다. 각 화면에서 Alyx가 제공하는 기능은 그 화면의 맥락에 맞게 달라집니다.트레이스 상세 화면에서는 특정 트레이스에 대한 트러블슈팅과 스팬 분석, 어노테이션을 지원합니다. 프롬프트 플레이그라운드에서는 프롬프트 최적화와 실험 실행을 지원합니다. Eval Builder와 Task Builder에서는 커스텀 평가 항목 구성을 지원합니다. 트레이스 테이블의 검색창에서는 자연어를 필터 문법으로 변환하는 기능을 제공합니다. 자연어로 조건을 입력하면 Alyx가 이를 Arize AX의 필터 문법으로 변환해 적용합니다. 트레이스 메인 페이지에서는 여러 트레이스를 동시에 분석하고 패턴을 발견하는 멀티 트레이스 분석을 지원합니다. 데이터셋·실험 페이지에서는 실험 결과 분석과 데이터셋 관리를 지원합니다.여러 화면에서 공통으로 제공되는 기능도 있습니다. ArizeQL Generator는 자연어나 기존 코드(SQL, Python)를 커스텀 메트릭 생성을 위한 AQL로 변환합니다. 기존에 작성해둔 SQL 쿼리나 Python 코드가 있다면 그것을 그대로 AQL로 변환해 Arize AX에서 사용할 수 있습니다. Prompt Optimization은 품질 향상이나 특정 이슈 해결을 위해 프롬프트를 최적화합니다.LLM 외에 ML 및 컴퓨터 비전 임베딩 시각화 화면에서도 Alyx를 활용할 수 있습니다. 임베딩 페이지에서 특정 포인트나 클러스터를 선택한 뒤 "Summarize with Alyx"를 사용하면 해당 선택 항목에 대한 요약을 제공합니다.브라우저 안에서 Alyx가 자연어 의도로 작업을 처리한다면, AX CLI는 같은 데이터를 머신 리더블 형태로 만들어 코딩 에이전트가 직접 활용할 수 있도록 확장합니다. CLI로 최근 스팬 데이터를 로컬 파일로 추출한 뒤 Cursor나 Claude Code에 전달해 패턴 분석을 요청하는 방식으로, Arize AX의 데이터를 이미 사용 중인 개발 환경과 연결할 수 있습니다.Alyx 데이터 프라이버시엔터프라이즈 환경에서 데이터 보안은 빠질 수 없는 고려 사항입니다. AI 엔지니어링 플랫폼을 도입할 때 가장 먼저 확인하게 되는 것 중 하나가 데이터가 어떻게 처리되는지입니다. 특히 프로덕션 트레이스에는 민감한 사용자 데이터나 비즈니스 로직이 포함될 수 있기 때문에, Alyx가 그 데이터를 어떻게 다루는지는 도입 전에 명확히 파악해야 할 사항입니다.Arize의 Alyx는 Azure OpenAI를 기반으로 구축되어 있으며, 고객 데이터가 서드파티 제공업체에 직접 노출되지 않도록 보호합니다. Alyx의 입출력 데이터는 OpenAI 모델 개선, Microsoft 또는 서드파티 제품 개선, Azure OpenAI 모델 자동 개선 어디에도 사용되지 않으며, 모델은 Stateless로 운영되어 프롬프트나 결과물이 저장되지 않습니다. Azure OpenAI 서비스는 Microsoft가 완전히 통제하며, OpenAI가 운영하는 ChatGPT나 OpenAI API 같은 서비스와는 상호작용하지 않습니다.사용자 자신의 OpenAI 또는 Anthropic(AWS Bedrock, Vertex AI 경유) 모델을 Alyx에 직접 연결해 사용하는 것도 가능합니다. 고객 지원 기능의 경우, 지원 관련 질문을 할 경우 해당 질문 내용이 서드파티 서비스인 RunLLM에 전달됩니다. 공유되는 데이터는 해당 질문 텍스트에 한정되며, 추가적인 모델 정보나 사용자 데이터는 공유되지 않습니다.Alyx를 만드는 데 Alyx를 사용했습니다Arize는 2년 전 GPT-3.5로 Alyx 구축을 시작했습니다. 당시 에이전트는 유행어에 불과했고, 모델은 충분하지 않았으며, 툴 호출은 막 등장하던 시점이었습니다. 그러나 Arize는 하나의 가설을 갖고 있었습니다. 미래는 UI를 클릭하거나 어시스턴트와 채팅하는 것이 아니라, 원하는 것을 말하면 에이전트가 그것을 실행하는 방식이 될 것이라는 가설이었습니다.Arize는 Arize AX와 Alyx를 사용해 Alyx 자체를 구축했습니다. 그 과정에서 얻은 교훈들이 Alyx의 다음 방향을 만들어가고 있습니다. 자신이 만드는 제품을 직접 사용하면서 개선하는 이 방식은 Alyx가 실제 AI 엔지니어링 워크플로에서 어떤 문제가 발생하는지를 정확히 이해하고 있다는 것을 의미합니다. 이론적으로 설계된 기능이 아니라, 실제로 사용하면서 필요하다고 느낀 기능들로 구성된 에이전트입니다.Alyx를 구축하면서 Arize 팀을 놀라게 한 순간들이 여러 번 있었습니다. 명시적으로 설계하지 않은 것들을 Alyx가 스스로 해낸 것입니다. 이것이 진정한 에이전트를 구축하는 것의 재미이자 도전입니다.진짜 에이전트를 만드는 것의 어려움Arize는 Alyx를 구축하면서 마주한 기술적 과제들을 공개적으로 밝히고 있습니다.컨텍스트 관리는 매우 어렵습니다. 메시지 버스, UI 상태, 컨텍스트 윈도우 팽창. 중요한 정보를 잃지 않으면서 모든 것을 일관되게 유지하는 것은 지속적인 도전입니다. 회귀를 방지하기 위해 에이전트를 테스트하는 문제는 아직 해결되지 않았습니다. 시스템이 적응형으로 설계되어 있을 때, 프롬프트나 아키텍처 변경이 이전 워크플로를 깨뜨리지 않는지 어떻게 확인할 것인가. Arize는 Alyx 자체를 위한 커스텀 평가 프레임워크를 별도로 구축해야 했습니다. UI 통합도 예상보다 훨씬 어렵습니다. 프로그래매틱 액션과 서브 에이전트, 작고 재사용 가능하도록 툴을 스마트하게 분리하는 것. 모든 결정이 복잡하게 얽혀 있습니다.이 과제들을 공개하는 이유는 단순합니다. AI 엔지니어링 툴을 만드는 팀이 실제로 겪는 문제들을 Arize도 똑같이 겪으면서 Alyx를 만들었기 때문입니다. Alyx는 이론적인 설계가 아니라 실제 운영 경험에서 나온 에이전트입니다.Arize가 보는 Alyx의 미래Claude Code와 Cursor가 소프트웨어 개발을 혁신했을 때, 기존 워크플로에 AI를 추가한 것이 아니었습니다. 개발자가 코드와 상호작용하는 방식 자체를 근본적으로 재정의했습니다. 파일을 수동으로 검색하거나, 쿼리를 작성하거나, 툴을 구성하는 대신, 필요한 것을 자연어로 설명하면 지능적인 에이전트가 컨텍스트를 이해하고, 코드베이스를 탐색하고, 행동을 취했습니다.Arize는 Alyx를 AI 시스템의 구축, 디버깅, 최적화를 위한 필수 불가결한 에이전트로 만들겠다는 비전을 갖고 있습니다. 핵심 통찰은 같습니다. 복잡한 기술 작업의 미래는 더 많은 대시보드를 만들거나 더 많은 구성을 노출하는 것이 아닙니다. 애플리케이션을 이해하고 자연스러운 대화를 통해 복잡한 워크플로를 대신 실행할 수 있는 지능형 에이전트를 만드는 것입니다.AI 엔지니어링 툴의 미래는 Alyx처럼 생겼습니다. 도메인을 이해하고, 복잡한 워크플로를 실행하고, 정교한 시스템과의 자연어 상호작용을 가능하게 하는 지능형 에이전트. 이것은 기존 툴에 AI 기능을 추가하는 것이 아닙니다. 인간과 AI가 기술적 작업에서 협력하는 방식을 재정의하는 것입니다. Claude Code와 Cursor가 소프트웨어 개발에 가져온 혁신, 즉 수동 탐색과 구성에서 지능적이고 대화형 지원으로의 전환이 AI 엔지니어링에도 오고 있습니다. Alyx는 그것이 어떤 모습인지에 대한 Arize의 비전입니다.마치며AI PM이나 AI 엔지니어에게 가장 어려운 일은 프롬프트를 작성하는 것이 아닙니다. 그 주변의 모든 것이 문제입니다. 긴 세션에 걸쳐 컨텍스트를 관리하는 것, 모호한 장애를 재현 가능한 테스트 케이스로 전환하는 것, 겉보기엔 문제없는 프롬프트 변경 이후 에이전트가 왜 동작을 멈췄는지 파악하는 것. 이 문제들은 AI 시스템이 정교해질수록 더 빈번하게 발생하고, 해결하는 데 더 많은 시간이 필요합니다.Alyx는 이 문제들을 해결하기 위해 설계된 에이전트입니다. 장애 원인을 분석하고, 테스트 데이터를 생성하고, 평가 항목을 만들고, 프롬프트 실험을 실행하는 과정을 하나의 연속된 워크플로로 처리합니다. 사용자가 각 단계를 직접 조율할 필요 없이, 의도를 지시하면 Alyx가 계획을 세우고 실행합니다. Arize AX 플랫폼 전반에서 작동하며, AX CLI를 통해 Cursor나 Claude Code 같은 외부 개발 환경과도 연결됩니다.AI 엔지니어링의 방식이 바뀌고 있습니다. 툴을 직접 조율하는 것에서 의도를 위임하는 것으로, 수동 워크플로에서 에이전트가 계획하고 실행하는 방식으로. Alyx는 그 변화의 중심에 있습니다.클라우드네트웍스는 Arize AI 공식 파트너로서 국내 기업들이 Arize AX를 도입하고 실제 운영 환경에 적용하는 과정을 지원하고 있습니다. AI 시스템을 운영하면서 겪는 모니터링, 평가, 디버깅의 어려움을 Arize AX와 Alyx로 해결하고자 하는 팀이라면 클라우드네트웍스를 통해 도입 방향을 구체화할 수 있습니다.▶ Arize AI 자세히보기
March 30, 2026