빈도분석이란? Count, Frequency(count를 비율로 바꾼것), Binary occurrence(나왔는지, 안나왔는지만 보는 방식). feat.TF-IDF, Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합

빈도분석

문장을 숫자로 바꾸는 가장 기초 방법은 빈도기반 방법이있다.

Count, Frequency(count를 비율로 바꾼것), Binary occurrence(나왔는지, 안나왔는지만 보는 방식).

텍스트 데이터를 수치화하기 위해 단어가 등장하는 횟수를 세는 가장 기초적인 방법

감상문 등에서 긍정, 부정 단어가 몇 번 나왔는지 세어 점수를 매기는 방식의 단순 단어빈도방법으로 직설적인 부정표현이 드문 평가문일 경우 단순 빈도 분석만으로는 긍정적으로 해석될 수 있다.

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(docs)

print(vectorizer.get_feature_names_out())
print(X.toarray())

import numpy as np

freq = X.toarray() / X.toarray().sum(axis=1, keepdims=True)

print(freq)

binary = (X.toarray() > 0).astype(int)

print(binary)

특정 글이 평균보다 얼마나 더 강한 긍정 표현을 쓰는지 비교하여 분석하며

단어의 등장 여부를 예/아니오 이진빈도로 판단하여 간단하고 빠르지만 의미파악에는 한계가 있다.

인공지능 책에서 자주 나오는 단어를 통해 해당 글의 주제를 역으로 예상하는 등의 특정분야 사용이 가능함.

빈도분석 - TF-IDF, Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합.

빈도가 높다는 것은 글을 대표한다라는 질문에서 시작됨. 빈도가 높다고 해서 무조건 중요한 것은 아니라는 한계를 극복하고자했다. IT문서내에서는 컴퓨터라는 단어가 빈도가 높지만 중요도가 낮고 , 초등학교 일기에서 '나는 오늘'이 가장 많이 나온다고 해서 일기의 핵심주제가 된다는 의미가 아니듯.

https://standout.tistory.com/1832

빈도분석 - TF-IDF란? , Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합.

빈도분석 - TF-IDF, Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합. 빈도가 높다는 것은 글을 대표한다라는 질문에서 시작됨. 빈도가 높다고 해서 무조건 중요한 것은 아니라는 한계

standout.tistory.com

저작자표시 (새창열림)

'AI > NLP' 카테고리의 다른 글

Model load error. Was model saved using code from an older Gensim Version? Python과 gensim의 버전문제 key_to_index 버전에 영향을 덜받도록 key를 숫자화해 사용하기 (0)	2026.06.25
빈도분석 - TF-IDF란? , Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합. (0)	2026.06.25
단어유사도 측정 방법 : 코사인 유사도 Cosine Similarity 벡터 간 방향이 얼마나 비슷한가 (0)	2026.06.25

" standout

" standout

빈도분석이란? Count, Frequency(count를 비율로 바꾼것), Binary occurrence(나왔는지, 안나왔는지만 보는 방식). feat.TF-IDF, Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합

'AI > NLP' 카테고리의 다른 글

티스토리툴바

" standout

빈도분석이란? Count, Frequency(count를 비율로 바꾼것), Binary occurrence(나왔는지, 안나왔는지만 보는 방식). feat.TF-IDF, Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합

'AI > NLP' 카테고리의 다른 글

'AI/NLP' Related Articles

티스토리툴바