본문 바로가기

명사 美 비격식 (무리 중에서) 아주 뛰어난[눈에 띄는] 사람[것]

AI/NLP

(4)
Model load error. Was model saved using code from an older Gensim Version? Python과 gensim의 버전문제 key_to_index 버전에 영향을 덜받도록 key를 숫자화해 사용하기 실행하는데 어러가났다. Model load error. Was model saved using code from an older Gensim Version?발견된 ko.bin 경로: ['/content/models/ko.bin', '/content/models/ko.bin']사용할 ko.bin 경로: /content/models/ko.binERROR:gensim.models.word2vec:Model load error. Was model saved using code from an older Gensim Version? Try loading older model using gensim-3.8.3, then re-saving, to restore compatibility with current code...
빈도분석이란? Count, Frequency(count를 비율로 바꾼것), Binary occurrence(나왔는지, 안나왔는지만 보는 방식). feat.TF-IDF, Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합 빈도분석문장을 숫자로 바꾸는 가장 기초 방법은 빈도기반 방법이있다. Count, Frequency(count를 비율로 바꾼것), Binary occurrence(나왔는지, 안나왔는지만 보는 방식).텍스트 데이터를 수치화하기 위해 단어가 등장하는 횟수를 세는 가장 기초적인 방법감상문 등에서 긍정, 부정 단어가 몇 번 나왔는지 세어 점수를 매기는 방식의 단순 단어빈도방법으로 직설적인 부정표현이 드문 평가문일 경우 단순 빈도 분석만으로는 긍정적으로 해석될 수 있다. from sklearn.feature_extraction.text import CountVectorizervectorizer = CountVectorizer()X = vectorizer.fit_transform(docs)print(vectorize..
빈도분석 - TF-IDF란? , Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합. 빈도분석 - TF-IDF, Term Frequency Inverse Document Frequency 단어빈도 역문서 빈도의 조합. 빈도가 높다는 것은 글을 대표한다라는 질문에서 시작됨. 빈도가 높다고 해서 무조건 중요한 것은 아니라는 한계를 극복하고자했다. IT문서내에서는 컴퓨터라는 단어가 빈도가 높지만 중요도가 낮고 , 초등학교 일기에서 '나는 오늘'이 가장 많이 나온다고 해서 일기의 핵심주제가 된다는 의미가 아니듯.from sklearn.feature_extraction.text import TfidfVectorizerdocs = [ "나는 오늘 밥을 먹었다", "나는 오늘 빵을 먹었다", "나는 어제 국을 먹었다"]vectorizer = TfidfVectorizer()X = ve..
단어유사도 측정 방법 : 코사인 유사도 Cosine Similarity 벡터 간 방향이 얼마나 비슷한가 단어유사도 측정 방법 : 코사인 유사도 Cosine Similarity 벡터 간 방향이 얼마나 비슷한가모든 벡터 기반 NLP에서 공통으로 쓰이는 표준 거리 함수Word Embedding 계열(Word2Vec, GloVe, FastText), TF-IDF 문서 비교, BERT / GPT 임베딩등에 사용됨. K-means BERTTopic 등 클러스터링/토픽 모델링에 간접적으로 사용됨. from sklearn.metrics.pairwise import cosine_similarityv1 = model.wv["밥"].reshape(1, -1)v2 = model.wv["빵"].reshape(1, -1)sim = cosine_similarity(v1, v2)print(sim) 단어 벡터에 입력된 두 단어의 좌..