본문 바로가기

명사 美 비격식 (무리 중에서) 아주 뛰어난[눈에 띄는] 사람[것]

인공지능

의사결정 나무 모형: 노드와 가지, 가지치기

의사결정 나무 모형

데이터에서 관찰된 패턴을 기반으로 트리 구조를 생성, 노드(node)와 가지(edge)로 구성

고객 세그먼테이션, 신용 점수화, 의료 진단 등 다양한 분야에서 사용된다.
의료 분야에서는 환자의 특성을 기반으로 질병의 가능성을 예측하거나 치료 계획을 수립하는 데에 활용될 수 있다.

 

가장 상위 노드를 루트 노드(root node)라고 하며, 각 결정 노드(decision node)는 특정 특성에 대한 질문을 나타내고, 각 잎 노드(leaf node)는 최종 예측 값을 나타낸다.

의사결정나무모형의 구성요소 는 아래와 같다.

뿌리 노드(root node)
자식 노드(child node)
부모 노드(parent node)
끝 노드(terminal node)
중간 노드(internal node)
가지(branch)
깊이(depth)

 

 

 

 

의사결정 나무 모형은 간단하면서도 강력한 예측 모델이며, 다른 알고리즘과 결합하여 앙상블 모델을 구성하는 데에도 사용될 수 있다. 프로세스는 아래와 같다.

 

1. 분할 기준 선택
어떤 특성을 사용하여 데이터를 분할할지 선택
정보 이득(information gain), 지니 불순도(Gini impurity), 엔트로피(entropy) 등의 지표를 사용해 결정

2. 트리 생성
선택된 분할 기준을 사용하여 데이터를 재귀적으로 분할하면서 트리를 구성
데이터의 일부를 한 그룹으로 분류하며, 이 과정은 각 노드에서 최적의 분할 기준을 찾아나가는 방식

3. 가지치기(pruning)
필요에 따라 가지치기 기법을 적용하여 모델을 최적화