본문 바로가기

명사 美 비격식 (무리 중에서) 아주 뛰어난[눈에 띄는] 사람[것]

이론

CRISP-DM: 데이터 분석 및 데이터 마이닝 프로젝트 수행의 국제 표준 프로세스, 6 방법론

CRISP-DM

Cross Industry Standard Process for Data Mining

비즈니스 이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 배포, 

실제로 순차적으로만 진행되지는 않는다. 

성능이 낮을경우 준비단계로 이동하거나 품질문제가 발견되면 데이터 이해단계로 복귀하는 반복구조를 가진다.

체계적 분석, 성공률향상, 다양한산업적용, 재사용이 가능하나 

반복작업이 많고 대규모 AI프로젝트, 딥러인 MLOps 환경에서는 추가 구조 가 필요하는 등의 세부가 부족하고 

배포이후 현대 AI시스템에서는 MLOPs와 함께 사용이 필요해 운영관리가 부족하다.

실제로 머신러닝, 데이터분석, 추천시스템, 이상탐지, 고객이탈, AI 서비스, 빅데이터 분석에 활용된다.

데이터 분석 및 데이터 마이닝 프로젝트 수행의 국제 표준  프로세스6 방법론
1. Budiness Understanding
프로젝트의 목적과 해결할 문제를 정의하는 단계, 목표정의, 비즈니스 문제분석, 성공기준 설정, 데이터 분석 방향 결정

2. Data Understanding
수집된 데이터를 탐색하고 데이터 구조와 품질을 파악하는 단계, 데이터 수집, 구조확인, 시각화 이상치/결측치 탐색, 데이터 패턴 분석, 통계분석 및 EDA Exploratory Data Analysis, 시각화

3. Data Preparation
모델링에 사용할 데이터를 정제하고 가공하는 단계다. 실제 프로젝트에서 가장 많은 시간이 소요됨. 결측치 처리, 이상치 제거, 데이터 정규화, Feature Engineering, 데이터 통합, 학습용/테스트용 데이터 분리 GIGO Garbage In, Garbage Out

4. Modeling
데이터를 기반으로 머신러인 또는 통계 모델을 생성하는 단계, 알고리즘선택, 모델학습, 파라미터 튜닝, 모델 성능 비교, 선형회귀 의사결정트리 랜덤포레스트 SVM 딥러닝 클러스터링

5. Evaluation
생성된 모델이 실제 비즈니스 목적에 적합한지 검증, 정확도 평가 성능검증 과적합 여부 확인, 비즈니스 목표 충족 여부 판단, Accuacy, Precision, Recall, F1-Score, RMSE

6. Deployment
완성된 모델을 실제 서비스나 시스템에 적용하는 단계, 시스템 패포 api 서비스화, 모델 모니터링, 유지보수, 성능개선, 웹서비스 추천 시스템적용, AI 챗봇 운영, 이상탐지 시스템 적용