AI 시대에 클라우드 비용은 기업 경쟁력과 직결되는 문제가 됐습니다. 쿠버네티스 환경을 운영하는 기업이라면 한 번쯤 이런 의문을 품어봤을 것입니다. "우리는 정말 클라우드를 제대로 활용하고 있는 걸까?" 대부분의 클라우드 비용 관리 솔루션은 현황을 보여주고 권고하는 수준에 머뭅니다.
Cast AI는 여기서 한 걸음 더 나아가, 클라우드 자원을 사람의 개입 없이 자율적으로 분석하고 직접 최적화하는 플랫폼입니다. 이 글에서는 Cast AI가 쿠버네티스, 데이터베이스, GPU 인프라 영역에서 각각 어떤 가치를 제공하는지 살펴봅니다.
Cast AI가 출발한 문제 의식
5년 전, Cast AI는 하나의 질문을 던졌습니다. "우리는 클라우드를 제대로 활용하고 있는 걸까?"
Cast AI가 발표한 2025 쿠버네티스 비용 벤치마크 보고서에 따르면, 기업들이 쿠버네티스 환경에서 프로비저닝한 컴퓨팅 자원 중 CPU는 평균 10%, 메모리는 평균 23%만 실제로 사용되고 있습니다. 대부분의 자원이 사용되지 않은 채 비용만 발생시키고 있는 셈입니다.
이 문제는 단순히 설정을 잘못해서 생기는 것이 아닙니다. 개발자들은 애플리케이션의 가용성을 보장하기 위해 자원을 넉넉하게 확보하려는 성향이 있고, 클러스터 규모가 커질수록 수작업으로 자원을 최적화하는 것은 구조적으로 한계가 있습니다. AI 워크로드가 확산되면서 이 문제는 더욱 심각해졌습니다. GPU 인스턴스는 가격 변동성이 크고, AWS 기준 단일 NVIDIA H100 인스턴스의 월 비용은 약 5,000달러에 달합니다. 이를 효율적으로 관리하지 못하면 기업의 클라우드 비용 부담은 감당하기 어려운 수준으로 커집니다.
Cast AI의 미션은 이 문제를 해결하는 것입니다. "클라우드를 더 효율적으로 만드는 것."
Cast AI는 이를 애플리케이션 성능 자동화(APA, Application Performance Automation)라는 개념으로 구현합니다.
기존 솔루션과 무엇이 다른가
클라우드 비용 관리 솔루션은 이미 시장에 많이 존재합니다. Cast AI는 이 솔루션들이 공통적으로 갖는 세 가지 한계를 정확히 짚어냅니다.
클라우드 비용 대시보드는 낭비 현황을 보여주지만 직접 고치지 않습니다. 모니터링 플랫폼은 경고를 보내지만 조치를 취하지 않습니다. 라이트사이징 툴은 변경을 제안하지만 실행은 사람이 해야 합니다.
Cast AI는 비용을 단순히 관리하는 것이 아니라 자동화하고, 비효율을 보여주는 것에 그치지 않고 직접 수정하며, 쿠버네티스를 튜닝 대상이 아니라 자율적으로 작동하는 시스템으로 만드는 것을 목표로 합니다. 수천 개의 클러스터와 실제 워크로드 데이터를 학습한 머신러닝 엔진이 실시간으로 클러스터를 분석하고 자동으로 최적화하며, 수백만 가지 경우의 수를 자율 자동화로 해결합니다. 고객은 도입 후 몇 분 안에 절감 규모를 직접 확인할 수 있습니다.
쿠버네티스 최적화: 클라우드 비용을 자율적으로 줄이다
Cast AI의 가장 핵심적인 제품 영역입니다. 쿠버네티스 클러스터의 컴퓨팅 리소스 관리를 완전 자동화하여 컴퓨팅 비용을 30~60% 이상 절감하고 성능과 안정성을 함께 개선합니다. AWS, Google Cloud, Azure를 비롯한 모든 클라우드 및 온프레미스 환경을 지원합니다.
Cast AI의 쿠버네티스 최적화는 크게 세 가지 방식으로 작동합니다.
오토스케일러(Node AutoScaler)는 파드가 스케줄 불가 상태일 때 적절한 크기의 새 노드를 자동으로 추가하고, 사용률이 낮은 빈 노드를 제거합니다. 특히 머신러닝 기반으로 스팟 인스턴스 중단을 최대 30분 전에 예측하여 사용자가 느끼지 못하는 방식으로 안정적인 인스턴스로 워크로드를 사전에 이전합니다. 스팟 인스턴스는 온디맨드 대비 비용이 낮지만 예고 없이 중단될 수 있다는 불안정성 때문에 도입을 꺼리는 기업이 많습니다. Cast AI는 이 중단을 사전에 예측하고 대응함으로써 스팟 인스턴스의 비용 효율성을 극대화하면서도 서비스 안정성을 동시에 보장합니다.
워크로드 라이트사이징(WOOP, Workload Rightsizing)은 실제 사용 패턴에 기반한 CPU 및 메모리 요청량을 자동으로 최적화합니다. 서비스 중단 없이 워크로드를 조정하며, 자기학습 기능으로 한 번 설정하면 이후에는 시스템이 스스로 판단하고 최적화합니다. 과소 프로비저닝으로 인한 성능 불안정과 과잉 프로비저닝으로 인한 비용 낭비를 동시에 해결한다는 점이 핵심입니다. Java 기반 애플리케이션에 대한 특화 처리도 제공하는데, JVM은 시작 시 힙 메모리를 미리 예약하는 특성상 쿠버네티스가 인식하는 사용량이 실제보다 항상 높게 표시됩니다. Cast AI는 이 특성을 고려한 전용 분석 방식을 적용하여 Java 워크로드에서 추가로 30~50% 절감이 가능합니다.
리밸런서(Rebalancer)는 클러스터 전체의 노드 구성을 최적화합니다. 시간이 지나면서 클러스터에는 자원이 비효율적으로 분산된 노드들이 생기는데, 리밸런서는 이를 자동으로 감지하고 비효율적인 노드를 비용 효율적인 노드로 교체합니다. 빈 패킹(Bin Packing)을 통해 가능한 적은 수의 노드에 워크로드를 효율적으로 배치하여 불필요한 노드를 줄입니다.
여기에 더해 Cast AI는 컨테이너 라이브 마이그레이션(Container Live Migration)이라는 독보적인 기능을 제공합니다. 기존에는 데이터베이스나 AI·ML 작업처럼 상태를 유지해야 하는 스테이트풀(Stateful) 워크로드를 다운타임 없이 이전하는 것이 사실상 불가능했습니다. 이 워크로드들은 비용이 비싼 온디맨드 인스턴스에서 계속 실행될 수밖에 없었고, 비용 최적화의 사각지대로 남아있었습니다. Cast AI는 서비스 중단 없이 이 워크로드들을 자유롭게 이동할 수 있게 하여, 기존에는 건드릴 수 없었던 영역까지 자동화 범위를 확장했습니다. 나아가 세계 최초로 Kubernetes 1.33 기반 실시간(in-flight) 워크로드 라이트사이징을 구현하여 파드 재시작 없이 CPU와 메모리를 즉시 조정하는 제로 다운타임을 실현했습니다.
실제 자동차 제조사 사례에서는 Cast AI 활성화 이후 클라우드 비용 90% 실시간 절감이 확인됐습니다. 활성화 이전 일일 컴퓨팅 비용 750달러 수준에서 활성화 이후 비용이 거의 제로 수준으로 떨어진 결과입니다.
데이터베이스 최적화: 코드 한 줄 없이 DB 성능을 높이다
Cast AI의 데이터베이스 최적화(DBO, Database Optimization)는 플러그앤플레이 방식의 완전 자율 데이터베이스 캐시 및 최적화 프록시입니다. 애플리케이션 성능 향상, 안정성 증가, 비용 최소 60% 절감 효과를 코드 변경 없이 제공합니다.
데이터베이스 성능을 높이기 위해 캐싱을 도입하려면 통상 세 가지 작업이 필요합니다. 캐시할 쿼리를 수동으로 찾아내고, 앱 수준에서 캐시 로직을 직접 개발하며, 별도 설정 작업도 거쳐야 합니다. 서비스 규모가 커질수록 이 복잡도는 빠르게 증가하고, 결국 캐싱 도입 자체를 포기하거나 리드 레플리카를 늘리는 방식으로 대응하는 경우가 많습니다.
DBO는 이 과정을 완전히 자동화합니다. AI 엔진이 데이터 패턴을 분석하여 자주 액세스되는 쿼리를 자동으로 식별하고 캐시하며, 캐시된 데이터는 데이터베이스가 아닌 캐시에서 즉시 제공됩니다. 데이터베이스로 향하는 쿼리 자체가 줄어들기 때문에 응답 속도 개선과 데이터베이스 부하 감소가 동시에 이루어집니다. 최대 10배 성능 향상을 달성하며, 리드 레플리카를 제거하고 데이터베이스 리소스를 다운스케일링할 수 있어 비용 절감 효과도 함께 나타납니다. 현재 AWS, Google Cloud, Azure의 PostgreSQL 및 MySQL을 지원합니다.
실제 고객 사례에서 데이터베이스 최적화 활성화 직후 데이터베이스 부하 20~30% 감소, CPU 사용량 30% 절감이 확인됐습니다. 또 다른 Hi-tech 기업 사례에서는 활성화 즉시 캐시 히트율 76.49%를 달성하여, 전체 읽기 쿼리의 4분의 3 이상이 데이터베이스에 도달하지 않고 캐시에서 처리됐습니다.
OMNI Compute: GPU 자원을 클라우드 경계 없이 활용하다
OMNI Compute는 Cast AI가 2026년 1월 출시한 통합 컴퓨팅 제어 플랫폼으로, GPU를 포함한 컴퓨팅 자원을 클라우드와 리전의 경계 없이 통합 운용할 수 있도록 합니다.
AI 워크로드를 운영하는 기업들은 공통적인 어려움을 겪습니다. 원하는 리전에 GPU가 부족해 AI 사업 추진이 지연되고, 더 저렴한 GPU 공급업체가 있어도 워크로드를 이전하기 어려우며, 멀티 클라우드 환경을 구성하려면 막대한 비용과 복잡성이 수반됩니다. 특정 클라우드나 리전에 종속되는 순간, 가격 협상력도 잃게 됩니다.
OMNI Compute는 여러 클라우드와 리전에 분산된 GPU 자원을 단일 쿠버네티스 클러스터로 통합 관리하는 방식으로 이 문제를 해결합니다. 하이퍼스케일러(AWS, Google Cloud, Azure)는 물론 네오클라우드 전반에서 가장 저렴한 GPU 용량을 자동으로 찾아 프로비저닝하며, 코드 변경 없이 기존 쿠버네티스 클러스터에서 바로 사용할 수 있습니다. 예를 들어 AWS N. Virginia 리전 클러스터에서 Ohio의 EC2, 유럽의 GCP VM, 미국 중서부의 Oracle Cloud 인스턴스까지 단일 클러스터로 통합 관리가 가능합니다.
Cast AI 공동창업자 로랑 길 사장은 "OMNI Compute는 인프라 계층에서 GPU를 범용 자원으로 만들어, 특정 클라우드나 리전에 묶여 있던 컴퓨팅 용량을 자유롭게 활용할 수 있게 한다"고 설명했습니다.
마치며
Cast AI는 쿠버네티스 최적화, 데이터베이스 최적화, OMNI Compute를 통해 클라우드 인프라 전반을 자율적으로 최적화하는 플랫폼입니다. 단순히 비용을 보여주거나 권고하는 수준이 아니라, 클라우드 자원을 사람의 개입 없이 실시간으로 분석하고 직접 최적화한다는 점이 핵심입니다. 현재 전 세계 2,100여 개 조직이 Cast AI를 도입하여 실질적인 클라우드 비용 절감 효과를 누리고 있으며, 국내를 포함한 다양한 산업의 글로벌 기업들이 실제 운영 환경에서 그 효과를 입증하고 있습니다.
클라우드네트웍스는 Cast AI 공식 파트너로서 국내 엔터프라이즈 고객의 쿠버네티스 환경 비용 최적화부터 데이터베이스 성능 개선, GPU 인프라 운용까지 Cast AI 도입 전 과정을 지원합니다. 도입을 검토 중이시거나 궁금한 점이 있으시면 언제든지 문의해 주시기 바랍니다.
▶ Cast AI 자세히보기