본문 바로가기

명사 美 비격식 (무리 중에서) 아주 뛰어난[눈에 띄는] 사람[것]

이론

비선형 차원축소, t-SNE, t-distributed Stochastic Neighbor Embedding

입력변수 개수를 차원, 차원의 저주를 보완하기위해 혹은 시각화하기위한 과정을 차원축소라고 한다 .

https://standout.tistory.com/1779

 

입력변수의 개수 차원 Dimension, 차원의 저주 Curse of Dimensionality 와 차원축소 Dimensionality Reduction하

차원Dimension입력변수의 개수.사람 등록을 위해 키, 몸무게, 나이가 필요하다면 이 3개가 차원이 된다 .x=(170,65,20)즉 위 벡터는 3개의 요소를 가지므로 3차원 공간의 한 점이 된다. 차원의 저주Curse o

standout.tistory.com

 

 

 

 

차원축소의 방법에는 특성선택, 특성추출이있다. 

https://standout.tistory.com/1780

 

차원축소의 방법: 특성선택 & 특성추출(선형 & 비선형)

입력변수 개수를 차원, 차원의 저주를 보완하기위해 혹은 시각화하기위한 과정을 차원축소라고 한다 .차원축소에는 대표적으로 선형차원축소와 비선형 차원축소가있다. Autoencoder는 비선형 차

standout.tistory.com

 

 

 

 

특성추출에서의 비선형차원축소 방법중 아래의 방법을 확인해보자 . 

 

 

 t-SNE, t-distributed Stochastic Neighbor Embedding

고차원에 가까운 점은 저차원에서도 가깝게 배치하는 등으로 주로 시각화에 사용한다.

 

784차원 손글씨 데이터를 2차원으로 군집으로 쉽게 확인하는등의 예.

숫자 0 이미지들은 한군집, 숫자1 이미지들을 다른 군집~~ 이런식으로.

비지도학습의 시각화목적으로 복잡한 비선형 구조표현이 가능하다

느리고 겨리과재현성이 낮은 단점이 있다.

 

고차원 데이터 군집 시각화에 사용한다.

만일 이미지개수가 70, 000개, 각 이미지가 28*28 = 728 픽셀이라면 784차원 데이터인데 이를 2차원으로 변환한다.

 

앞선 PCA가 분산이 큰 방향을 찾지만 데이터가 복잡하게 휘어있으면 잘 표현하지 못한다.

고차원 공간에서 이웃인 데이터들이 저차원에서도 이웃이 되도록 배치하는것.

https://standout.tistory.com/1781

 

선형차원축소, PCA Principal Component Analysis: 가장 기본적인 차원축소

입력변수 개수를 차원, 차원의 저주를 보완하기위해 혹은 시각화하기위한 과정을 차원축소라고 한다 .https://standout.tistory.com/1779 입력변수의 개수 차원 Dimension, 차원의 저주 Curse of Dimensionality 와

standout.tistory.com

 

 

 

 

아래는 예시코드.  n_components=2 최종 차원 2차원으로,

perplexity 한점이 고려할 이웃의 수의 정도,

learning_rate 최적화시 이동속도로 너무 작으면 수렴이 느리고 너무 크면 결과가 불안정하다. 

t-SNE는 초기위치를 랜덤하게 정해 결과재현성이 낮은데 이를 보완하기 위해 random_state=42.난수고정.

from sklearn.manifold import TSNE

tsne = TSNE(
n_components=2,
perplexity=30,
learning_rate=200,
random_state=42
)

X_tsne = tsne.fit_transform(X)