본문 바로가기

명사 美 비격식 (무리 중에서) 아주 뛰어난[눈에 띄는] 사람[것]

AI/LLM

토픽 모델링이란?: 비슷한 위치에 모인 단어와 문서를 같은 주제 Topic으로 묶는 기술.

토픽 모델링

비슷한 위치에 모인 단어와 문서를 같은 주제 Topic으로 묶는 기술. 

스포츠, 영화, 정치”라고 라벨을 달지 않아도, 알고리즘이 단어들의 분포와 동시 등장 패턴을 분석해서 문서를 몇 개의 주제(topic)로 묶는다 .

단순한 긍정 부정 분류를 넘어 영화 내용등 주제별로 세밀하게 나누어 분석함. 

좋다/나쁘다라는 감정분석이 아니라 '무슨이야기인가'를 묻는 토픽은 감정분석 목적이 다르다.

 

 

텍스트 분석은 텍스트표현, 유사도계산, 토픽 군집화로 3단 계층이다. 

텍스트표현: 문장을 숫자로 바꾼다. TF-IDF, Word2Vec, BERT

유사도계산: 벡터간 얼마나 비슷한지 코사인유사도

토픽 군집화: 비슷한것들끼리 묶어서 주제를 생성 LDA, K-means, BERTopic

https://standout.tistory.com/1831

 

단어유사도 측정 방법 : 코사인 유사도 Cosine Similarity 벡터 간 방향이 얼마나 비슷한가

단어유사도 측정 방법 : 코사인 유사도 Cosine Similarity 벡터 간 방향이 얼마나 비슷한가모든 벡터 기반 NLP에서 공통으로 쓰이는 표준 거리 함수Word Embedding 계열(Word2Vec, GloVe, FastText), TF-IDF 문서 비

standout.tistory.com

https://standout.tistory.com/1832

 

빈도분석 - TF-IDF란? , Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합.

빈도분석 - TF-IDF, Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합. 빈도가 높다는 것은 글을 대표한다라는 질문에서 시작됨. 빈도가 높다고 해서 무조건 중요한 것은 아니라는 한계

standout.tistory.com

https://standout.tistory.com/1834

 

문장을 숫자로 바꾸기 워드임베딩, 단어의 의미 벡터(embedding)를 데이터로부터 학습하는 신경망

빈도분석문장을 숫자로 바꾸는 가장 기초 방법은 빈도기반 방법이있다. 문장을 숫자로 바꾸는 가장 기초 방법은 빈도기반 방법이있다. Count, Frequency, Binary occurrence.https://standout.tistory.com/1833 빈도

standout.tistory.com

https://standout.tistory.com/1831

 

단어유사도 측정 방법 : 코사인 유사도 Cosine Similarity 벡터 간 방향이 얼마나 비슷한가

단어유사도 측정 방법 : 코사인 유사도 Cosine Similarity 벡터 간 방향이 얼마나 비슷한가모든 벡터 기반 NLP에서 공통으로 쓰이는 표준 거리 함수Word Embedding 계열(Word2Vec, GloVe, FastText), TF-IDF 문서 비

standout.tistory.com

https://standout.tistory.com/1835

 

비슷한것들끼리 묶어서 주제를 생성하는 토픽 군집화의 전통적인 방법: LDA Latent Dirichlet Allocation.

비슷한 맥락에서 등장하는 단어들은 비슷한 의미를 가진다는 분산가설 Distributional Hypothesis 에서 출발함“You shall know a word by the company it keeps”Word2Vec, BERT, GPT 전부의 철학. 단어를 여러 축 차원에

standout.tistory.com

 

 

 

전통적 토픽 모델에는 LDA Latent Dirichlet Allocation.

단어를 백터로 바꾸진 않고 확률분포로 토픽을 생성한다.

여러단어 확률분포로 토픽, 토픽이 혼합되어 문서. Topic 1: 영화(0.3), 배우(0.2), 연기(0.15)

https://standout.tistory.com/1835

 

비슷한것들끼리 묶어서 주제를 생성하는 토픽 군집화의 전통적인 방법: LDA Latent Dirichlet Allocation.

비슷한 맥락에서 등장하는 단어들은 비슷한 의미를 가진다는 분산가설 Distributional Hypothesis 에서 출발함“You shall know a word by the company it keeps”Word2Vec, BERT, GPT 전부의 철학. 단어를 여러 축 차원에

standout.tistory.com