AI&MLOps Platform 서비스
Samsung Cloud Platform의 사용자가 직접 Kubeflow 기반 MLOps환경을 생성 및 운용하도록함.
https://standout.tistory.com/1295
Kubeflow Mini와 AI&MLOps Platform 2개의 상품으로 구성한다.
Kubeflow Mini는 Kubeflow의 소스 그대로, AI&MLOps Platform는 Kubeflow의 에 SDS의 내재화 모델이 포함되어있다.
AI&MLOps Platfor는 GPU스케줄링, 모니터링, 로깅 기능을 제공한다.
https://standout.tistory.com/1296
목표, 탐색범위, 탐색 알고리즘, 최대시도를 설정 가능하다.
다양한 머신러닝 프레임워크 모델서버를 활용한 서빙을 지원한다.
추론환경에서 A/B TEST와 오토스케일링을 지원한다.
각 스텝을 그래프로 표현해 실행 모니터링 및 공유가 가능하다.
AI&MLOps Platform Add-on Feature 서비스
AI&MLOps Platform의 주요 확장 기능
딥러닝 분산학습시 Job UI를 통해 편리성을 제공한다.
GPU job Scheduler 기능을 내장하여 다수의 사용자가 한정된 GPU 자원을 사용할때 효율적이다.
추론서비스, 추론결과 로깅 및 분석이 가능하다.
SCP 사용자 인증 및 연동 관리자 환경을 제공하여 안정적인 관리가 가능하다.
CloudML Notebook
Kubernetes 기반으로 머신러닝 모델을 위한 Jypyter Notebook 환경을 제공하는 상품
소스코드를 블록 단위로 단계적으로 실행할 수 있어 데이터 분석과 시각화작업의 빠른 결과확인이 가능하다.
CloudML Studio
Kubernetes 기반으로 머신러닝 모델을 생성하고 학습시키기 위한 IDE 워크플로우를 제공하는 상품
비전문가도 쉽게 적용할 수 있도록 드래그앤 드랍으로 머신러닝의 워크플로우는 손쉽게 구성 할 수 있도록 함.
출력데이터를 그래프 등으로 쉽게 표현해준다
CloudML Pipeline
Kubernetes 기반으로 머신러닝 모델의 학습 및 실행을 파이프라인 형태로 관리하는 상품
실행이력 모니터링 및 실시간 실행 로그모니터링 지표 모니터링을 제공한다.
모델별 조건에 맞는 실행옵션을 설정하여 다양한 학습을 실행 시킬 수 있다.
CloudML Experiments
Kubernetes 기반으로 머신러닝 모델학습의 실험정보를 기록 및 비교하여 챔피언 모델을 관리하는 상품
실험수행 리스트 및 현재상태를 조회할 수 있다.
전체실험 목록 및 세부모델 내역 등을 조회할 수 있다.
오픈소스 MLflow를 기반으로 전체 실험관리 및 모델별 세부관리 이력내역등을 비교 분석 할 수 있다.