본문 바로가기

명사 美 비격식 (무리 중에서) 아주 뛰어난[눈에 띄는] 사람[것]

이론

Entropy 엔트로피란?

엔트로피 = “데이터의 혼란도 / 불확실성 / 섞임 정도”

데이터가 얼마나 뒤섞여 무질서한지를 나타내는 값. 
엔트로피가 높다는 의미는 데이터가 많이 섞여있고, 엔트로피가 적다는 것은 데이터가 비슷한 것끼리 모여있다는 말.

https://namu.wiki/w/%EC%97%94%ED%8A%B8%EB%A1%9C%ED%94%BC

 

엔트로피

The law that entropy always increases, holds, I think, the supre

namu.wiki

 

 

 

정보이론에서의 엔트로피는 '어떤 사건이 얼마나 예측하기 어려운지'를 나타내며 

동전던지기 처럼 50%일경우 엔트로피가 노ㅠ고, 

항상 앞면만 나온다면 엔트로피가 0. 

 

 

 

머신러닝에서는 데이터가 얼마나 섞였는가로 해석되어

a클래스로만 이루어졌다면 완전 순수로 엔트로피 0

a50% b50%이라면 엔트로피 최대로 가장 혼란스럽다고 표현한다.

 

 

 

 

직관적으로 엔트로피가 낮으면 질서있고 확실한 상태,

엔트로피가 높으면 무질서하고 예측이 어려운 섞인 카드 덱과 같다고 이해한다.

머신러닝에서 의사결정트리는 엔트로피를 가장 많이 줄이는 질문을 찾아 분기한다 .

어떤조건으로 나눠야 데이터가 가장 깔끔하게 분리되는가를 말한다.

 



정보획득량이란 분할전 엔트로피 - 분할 후 엔트로피

즉 분할후 얼마나 깔끔해졌는가를 말하며 정보획득량이 클수록 좋은 분할이다.  반대로 정보 획득량이 0 인경우 엔트로피가 줄어들지않았다는 의미로 아무정보도 얻지못했다는 말이다.

정보획득량 = 1.0 - 1.0  = 0

정보획득량 과 = 분할전 엔트로피

아주 적절한 질문으로 완벽히 그룹을 나누었다는 의미임으로  같을때 최대정보 획득량이라한다.

정보획득량 = 1.0 - 0  = 1.0