과적합(Overfitting)
기계학습 모델이 학습 데이터에 너무 맞추어져 새로운 데이터에 대한 일반화 성능이 저하되는 현상
과적합된 모델은 학습 데이터의 노이즈나 세부적인 패턴까지 학습하여, 실제로는 관련 없는 특성까지 모델이 고려할 수 있다.
과적합의 주요 원인은 아래와 같다.
1. 모델의 복잡성
너무 많은 매개변수: 학습 데이터셋의 개별 데이터 포인트에 대해 과도하게 적합됨
깊은 신경망 구조: 너무 깊거나 많은 층(layer)을 가질 경우 과적합의 위험이 높아짐
2. 학습 데이터의 부족
작은 데이터셋: 일반적인 패턴을 파악하기 어렵고, 데이터의 특이한 예외 상황에 과도하게 반응
3. 학습 시간과 반복 횟수
너무 많은 반복: 너무 많은 에포크(epoch)를 진행할 경우, 모델이 학습 데이터에 지나치게 적합됨
과적합 방지를 위한 방법은 아래와 같다.
데이터 확장(Data Augmentation)
데이터를 인위적으로 확장하여 학습 데이터의 다양성을 증가시킴.
규제(Regularization)
가중치 감소(weight decay)나 드롭아웃(dropout)과 같은 규제 기법을 사용해 모델의 복잡성을 줄인다.
교차 검증(Cross-validation)
학습 데이터를 여러 개의 서브셋으로 나누어 모델을 여러 번 학습하고 평가하여 일반화 성능을 평가한다.
적절한 데이터셋 크기
충분한 양의 다양한 데이터를 사용하여 모델이 일반적인 패턴을 학습하도록 한다.
'인공지능' 카테고리의 다른 글
의사결정 나무 모형: 노드와 가지, 가지치기 (0) | 2024.06.24 |
---|---|
선형모형: 다중선형회귀모형, 선형 로지스틱 회귀모형, 다항회귀모형, 일반화 가법모형 (0) | 2024.06.24 |
기계학습과 기계학습의 분야 (0) | 2024.06.24 |
인공지능의 두가지 방향성: 범용적인공지능 AGI, 인공지능 Specific AI (0) | 2024.06.24 |
인공지능, 기계학습, 딥러닝의 차이 (0) | 2024.06.24 |