엔트로피 = “데이터의 혼란도 / 불확실성 / 섞임 정도”
데이터가 얼마나 뒤섞여 무질서한지를 나타내는 값.
엔트로피가 높다는 의미는 데이터가 많이 섞여있고, 엔트로피가 적다는 것은 데이터가 비슷한 것끼리 모여있다는 말.
https://namu.wiki/w/%EC%97%94%ED%8A%B8%EB%A1%9C%ED%94%BC
엔트로피
The law that entropy always increases, holds, I think, the supre
namu.wiki
정보이론에서의 엔트로피는 '어떤 사건이 얼마나 예측하기 어려운지'를 나타내며
동전던지기 처럼 50%일경우 엔트로피가 노ㅠ고,
항상 앞면만 나온다면 엔트로피가 0.
머신러닝에서는 데이터가 얼마나 섞였는가로 해석되어
a클래스로만 이루어졌다면 완전 순수로 엔트로피 0
a50% b50%이라면 엔트로피 최대로 가장 혼란스럽다고 표현한다.
직관적으로 엔트로피가 낮으면 질서있고 확실한 상태,
엔트로피가 높으면 무질서하고 예측이 어려운 섞인 카드 덱과 같다고 이해한다.
머신러닝에서 의사결정트리는 엔트로피를 가장 많이 줄이는 질문을 찾아 분기한다 .
어떤조건으로 나눠야 데이터가 가장 깔끔하게 분리되는가를 말한다.
정보획득량이란 분할전 엔트로피 - 분할 후 엔트로피
즉 분할후 얼마나 깔끔해졌는가를 말하며 정보획득량이 클수록 좋은 분할이다. 반대로 정보 획득량이 0 인경우 엔트로피가 줄어들지않았다는 의미로 아무정보도 얻지못했다는 말이다.
정보획득량 = 1.0 - 1.0 = 0
정보획득량 과 = 분할전 엔트로피
아주 적절한 질문으로 완벽히 그룹을 나누었다는 의미임으로 같을때 최대정보 획득량이라한다.
정보획득량 = 1.0 - 0 = 1.0
'이론' 카테고리의 다른 글
| 머신러닝의 Ensemble Learning 앙상블이란? (0) | 2026.06.02 |
|---|---|
| UCI Machine Learning Repository란? : 머신러닝 커뮤니케이션, 가장 유명한 데이터셋 저장소, 머신러닝 연습용 데이터 모음 사이트 (0) | 2026.05.29 |
| Temsorflow란?: 대규모 머신러닝 모델을 학습하고 배포하는데 최적화된 구조의 Google이 개발한 오픈소스 딥러닝 프레임워크, Temsorflow의 뜻 (0) | 2026.05.28 |
| Tensor 텐서란?: Scalar, Vector, Matrix함께 이해하기, 물리학과 머신러닝에서의 쓰임 (0) | 2026.05.28 |
| 정규분포 Gaussian Distribution란? (0) | 2026.05.28 |