AI 인프라 파트너, 브릭섬

복잡한 GPU 인프라 구축과 관리는 브릭섬에 맡기고, 비즈니스 성장에 집중하세요

About

브릭섬은?

브릭섬(Bricksum)은 'BRICK(기술의 조각)'과 'SUM(조합)'의 합성어입니다. 세상에 흩어진 뛰어난 기술들을 잘 엮어 더 큰 가치를 만들겠다는 우리의 철학이 담겨 있습니다. 오픈소스부터 최신 기술까지, 브릭섬은 각각의 기술이 최대의 시너지를 낼 수 있도록 조합해 고객의 AI·IT 문제를 함께 고민하고 해결합니다.

브릭섬 팀은 KT, LG전자, AI 인프라 스타트업 등 다양한 현장에서 누적 2천 장 이상의 GPU를 직접 구축하고 운용해본 경험을 가진 ML 엔지니어와 DevOps 전문가들로 구성되어 있습니다. 고객의 입장에서 고민하고, 실전에서 검증된 방법으로 문제를 함께 해결해 나가는 AI 인프라 파트너가 되겠습니다.

Service

AI 인프라 구축 및 운영 서비스

GPU를 구매하는 것으로 모든 준비가 끝나는 것은 아닙니다. 설치, 네트워크 토폴로지 구성, OS 및 드라이버 설정, 오케스트레이션 솔루션 구축, 운영과 유지보수까지 실제로 준비해야 할 일이 매우 많습니다. 브릭섬은 이러한 복잡하고 반복적인 작업을 대신 수행하여, 고객이 오직 AI 어플리케이션 개발과 비즈니스에만 집중할 수 있도록 지원합니다.

1

AI 인프라 S/W 설치

OS, GPU 드라이버, 네트워크 설정, CUDA, Docker 등은 서로 복잡한 종속성을 가지고 있어, 설치 오류나 충돌로 인해 인프라를 초기화부터 다시 시작해야 하는 경우가 자주 발생합니다. 브릭섬은 이러한 설치 과정을 고객의 요구와 최적의 성능에 맞춰 정확하게 구성하며, 모든 복잡한 작업을 대신 처리해드립니다.

브릭섬 제공 서비스

GPU 인프라용 Starter 패키지

  • • 기본 설치 패키지: OS, NVIDIA Driver, Network Driver
  • • 추가 AI 패키지: CUDA, Docker, PyTorch, TensorFlow, Anaconda
2

GPU 오케스트레이션 플랫폼 구축

여러 팀과 ML 엔지니어들이 함께 사용하는 고가의 GPU 인프라에서는 자원 분배가 핵심 과제입니다. 이를 위해 스케줄러와 오케스트레이션 솔루션이 반드시 필요합니다. 브릭섬은 고객의 환경과 요구사항에 맞춰 최적의 솔루션을 선정하고, 안정적으로 설치 및 구성합니다.

브릭섬 제공 서비스

GPU 오케스트레이션 플랫폼 구축

  • • Kubernetes, Slurm 등 고객 맞춤형 GPU 오케스트레이션 툴 구축
3

인프라 모니터링 및 유지보수

AI 인프라의 안정적 운영을 위해 고객의 환경에 맞는 모니터링 시스템을 설계하고 구축합니다. 또한 서버실 정기점검, 서버실 이전 작업, 장애 복구 지원 등 GPU 서버 운영에 필요한 다양한 유지보수 서비스를 제공합니다.

브릭섬 제공 서비스

GPU 운영 및 유지보수

  • • 서버실 정기점검
  • • OS 재설치, 네트워크 구성 변경 지원
  • • 서버 장애 발생시 복구 지원
Product

클루마(Cluma)

이 모든 문제를 통합적으로 해결하기 위해 브릭섬은 클루마(Cluma)를 제공합니다. Cluma는 Cluster와 Master의 합성어로, AI 인프라 관리자의 '파트너'가 되기 위해 탄생한 솔루션입니다. 쿠버네티스 기반의 GPU 오케스트레이션 플랫폼으로, 인프라 관리자에게 실제로 필요한 핵심 기능만을 선별하여 구성하였습니다.

Cluma 하나로 AI 인프라 설치, GPU 오케스트레이션 플랫폼 도입, 모니터링 및 유지보수까지 모두 해결할 수 있어, 복잡한 인프라 운영을 단순하고 효율적으로 전환할 수 있습니다.

누구보다 빠른 ML 개발환경 생성

인프라 관리자나 DevOps 엔지니어는 반복적인 개발 환경 생성 업무에 많은 시간을 소모합니다. 클루마는 이 과정을 자동화하여 ML팀이 요청한 환경을 빠르고 정확하게 구성하며, 이를 통해 관리자는 보다 중요한 업무에 집중할 수 있습니다.

다이어그램 기반 환경 생성

CPU, 메모리, GPU 자원 설정은 물론, 스토리지 구성 및 각종 환경 설정을 시각화하여 다이어그램 형태로 미리 확인할 수 있습니다. 이를 통해 인프라 관리자는 ML팀의 요청에 대해 정확하고 빠르게 환경을 생성할 수 있으며, 불필요한 커뮤니케이션을 줄여 양측의 업무 부담을 크게 줄일 수 있습니다.

멀티노드 환경 구성 지원

멀티노드 환경을 구성하기 위해서는 노드 간 네트워크 연결, 공통 스토리지 마운트 등 복잡한 작업이 수반됩니다. 클루마는 이러한 멀티노드 구성을 자동화하여 하나의 네트워크로 통합하고, 동일한 스토리지를 연결함으로써 ML팀이 별도의 설정 없이 곧바로 멀티노드 환경에서 작업을 시작할 수 있도록 지원합니다.

고정된 자원제공, 동적 자원제공 선택

어떤 팀은 리소스를 고정적으로 사용해야 하는 반면, 어떤 팀은 필요할 때만 스크립트를 실행하여 결과를 얻는 방식으로, 요청 시에만 동적으로 자원을 제공하는 것이 효율적입니다.

Static 환경

고정형 자원 할당 방식입니다. 예를 들어 ML팀이 GPU 8개가 포함된 컨테이너 4개를 요청하는 경우, 인프라 관리자는 해당 리소스를 고정적으로 할당하여 환경을 생성하고 제공합니다. 이렇게 생성된 환경은 관리자가 삭제하기 전까지 유지되며, 상시적으로 또는 자주 GPU 환경이 필요한 팀에 적합합니다.

Dynamic 환경

요청 기반의 유동형 자원 할당 방식입니다. 인프라 관리자는 ML팀에게 실제 자원을 미리 할당하지 않고, 필요한 시점에 Job 형태로 제출하여 자원을 요청할 수 있는 인터페이스만 제공합니다. ML팀은 작업이 필요할 때만 자원을 사용하고, 사용 후에는 자원이 자동으로 회수되기 때문에 GPU 자원을 효율적으로 운용할 수 있습니다.

ML 그룹별 인원별 권한관리와 연계한 모니터링

GPU 클러스터 운영에 필수적인 핵심 기능만을 모아, 모니터링과 자원 제어가 모두 가능한 관리자 전용 Control Dashboard를 제공합니다.

그룹별 리소스 관리 및 모니터링

ML팀 또는 구성원 단위로 제공된 자원(노드, 컨테이너, 스토리지 등)을 그룹별로 구분하여 관리하고 모니터링할 수 있습니다. 각 그룹의 리소스 사용 현황을 한눈에 파악할 수 있으며, 클러스터 내에서 장애나 이상 징후가 발생할 경우 Control Dashboard를 통해 신속하게 확인하고 대응할 수 있습니다.

미사용 자원에 대한 알림 및 회수

Static 환경 중 일정 기간 이상 GPU 자원이 사용되지 않는 경우, 관리자에게 자동으로 알림을 전송하거나 설정에 따라 해당 자원을 회수하는 기능을 제공합니다. 이를 통해 불필요하게 점유된 리소스를 줄이고, 전체 GPU 사용률을 보다 효율적으로 관리할 수 있습니다.

Contact

든든한 AI 인프라 파트너가
되어 드리겠습니다

AI 인프라와 Cluma에 대해 궁금한 점이 있으시면 언제든지 연락주세요.

이메일 문의

contact@bricksum.com