빈도분석
문장을 숫자로 바꾸는 가장 기초 방법은 빈도기반 방법이있다.
Count, Frequency(count를 비율로 바꾼것), Binary occurrence(나왔는지, 안나왔는지만 보는 방식).
텍스트 데이터를 수치화하기 위해 단어가 등장하는 횟수를 세는 가장 기초적인 방법
감상문 등에서 긍정, 부정 단어가 몇 번 나왔는지 세어 점수를 매기는 방식의 단순 단어빈도방법으로 직설적인 부정표현이 드문 평가문일 경우 단순 빈도 분석만으로는 긍정적으로 해석될 수 있다.
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(docs)
print(vectorizer.get_feature_names_out())
print(X.toarray())
import numpy as np
freq = X.toarray() / X.toarray().sum(axis=1, keepdims=True)
print(freq)
binary = (X.toarray() > 0).astype(int)
print(binary)
특정 글이 평균보다 얼마나 더 강한 긍정 표현을 쓰는지 비교하여 분석하며
단어의 등장 여부를 예/아니오 이진빈도로 판단하여 간단하고 빠르지만 의미파악에는 한계가 있다.
인공지능 책에서 자주 나오는 단어를 통해 해당 글의 주제를 역으로 예상하는 등의 특정분야 사용이 가능함.
빈도분석 - TF-IDF, Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합.
빈도가 높다는 것은 글을 대표한다라는 질문에서 시작됨. 빈도가 높다고 해서 무조건 중요한 것은 아니라는 한계를 극복하고자했다. IT문서내에서는 컴퓨터라는 단어가 빈도가 높지만 중요도가 낮고 , 초등학교 일기에서 '나는 오늘'이 가장 많이 나온다고 해서 일기의 핵심주제가 된다는 의미가 아니듯.
https://standout.tistory.com/1832
빈도분석 - TF-IDF란? , Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합.
빈도분석 - TF-IDF, Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합. 빈도가 높다는 것은 글을 대표한다라는 질문에서 시작됨. 빈도가 높다고 해서 무조건 중요한 것은 아니라는 한계
standout.tistory.com