본문 바로가기

명사 美 비격식 (무리 중에서) 아주 뛰어난[눈에 띄는] 사람[것]

인공지능

일반화 성능이 저하되는 현상: 과적합과 과적합의 원인, 방지방법

과적합(Overfitting)

기계학습 모델이 학습 데이터에 너무 맞추어져 새로운 데이터에 대한 일반화 성능이 저하되는 현상 

과적합된 모델은 학습 데이터의 노이즈나 세부적인 패턴까지 학습하여, 실제로는 관련 없는 특성까지 모델이 고려할 수 있다.

 


과적합의 주요 원인은 아래와 같다.

 

1. 모델의 복잡성
너무 많은 매개변수:  학습 데이터셋의 개별 데이터 포인트에 대해 과도하게 적합됨
깊은 신경망 구조: 너무 깊거나 많은 층(layer)을 가질 경우 과적합의 위험이 높아짐

2. 학습 데이터의 부족

작은 데이터셋: 일반적인 패턴을 파악하기 어렵고, 데이터의 특이한 예외 상황에 과도하게 반응

3. 학습 시간과 반복 횟수
너무 많은 반복: 너무 많은 에포크(epoch)를 진행할 경우, 모델이 학습 데이터에 지나치게 적합됨

 

 

 

과적합 방지를 위한 방법은 아래와 같다.


데이터 확장(Data Augmentation)

데이터를 인위적으로 확장하여 학습 데이터의 다양성을 증가시킴.

규제(Regularization)

가중치 감소(weight decay)나 드롭아웃(dropout)과 같은 규제 기법을 사용해 모델의 복잡성을 줄인다.

교차 검증(Cross-validation)

학습 데이터를 여러 개의 서브셋으로 나누어 모델을 여러 번 학습하고 평가하여 일반화 성능을 평가한다.

적절한 데이터셋 크기

충분한 양의 다양한 데이터를 사용하여 모델이 일반적인 패턴을 학습하도록 한다.