의사결정 나무 모형
데이터에서 관찰된 패턴을 기반으로 트리 구조를 생성, 노드(node)와 가지(edge)로 구성
고객 세그먼테이션, 신용 점수화, 의료 진단 등 다양한 분야에서 사용된다.
의료 분야에서는 환자의 특성을 기반으로 질병의 가능성을 예측하거나 치료 계획을 수립하는 데에 활용될 수 있다.
가장 상위 노드를 루트 노드(root node)라고 하며, 각 결정 노드(decision node)는 특정 특성에 대한 질문을 나타내고, 각 잎 노드(leaf node)는 최종 예측 값을 나타낸다.
의사결정나무모형의 구성요소 는 아래와 같다.
뿌리 노드(root node)
자식 노드(child node)
부모 노드(parent node)
끝 노드(terminal node)
중간 노드(internal node)
가지(branch)
깊이(depth)
의사결정 나무 모형은 간단하면서도 강력한 예측 모델이며, 다른 알고리즘과 결합하여 앙상블 모델을 구성하는 데에도 사용될 수 있다. 프로세스는 아래와 같다.
1. 분할 기준 선택
어떤 특성을 사용하여 데이터를 분할할지 선택
정보 이득(information gain), 지니 불순도(Gini impurity), 엔트로피(entropy) 등의 지표를 사용해 결정
2. 트리 생성
선택된 분할 기준을 사용하여 데이터를 재귀적으로 분할하면서 트리를 구성
데이터의 일부를 한 그룹으로 분류하며, 이 과정은 각 노드에서 최적의 분할 기준을 찾아나가는 방식
3. 가지치기(pruning)
필요에 따라 가지치기 기법을 적용하여 모델을 최적화
'인공지능' 카테고리의 다른 글
기계학습 알고리즘과 주요 기계학습 알고리즘: 선형 회귀, 의사결정 나무 모형, 딥러닝 (0) | 2024.06.24 |
---|---|
딥러닝: Deep Neural Network (DNN), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN) (0) | 2024.06.24 |
선형모형: 다중선형회귀모형, 선형 로지스틱 회귀모형, 다항회귀모형, 일반화 가법모형 (0) | 2024.06.24 |
일반화 성능이 저하되는 현상: 과적합과 과적합의 원인, 방지방법 (0) | 2024.06.24 |
기계학습과 기계학습의 분야 (0) | 2024.06.24 |