AI/LLM (5) 썸네일형 리스트형 토픽 모델링이란?: 비슷한 위치에 모인 단어와 문서를 같은 주제 Topic으로 묶는 기술. 토픽 모델링비슷한 위치에 모인 단어와 문서를 같은 주제 Topic으로 묶는 기술. 스포츠, 영화, 정치”라고 라벨을 달지 않아도, 알고리즘이 단어들의 분포와 동시 등장 패턴을 분석해서 문서를 몇 개의 주제(topic)로 묶는다 .단순한 긍정 부정 분류를 넘어 영화 내용등 주제별로 세밀하게 나누어 분석함. 좋다/나쁘다라는 감정분석이 아니라 '무슨이야기인가'를 묻는 토픽은 감정분석 목적이 다르다. 텍스트 분석은 텍스트표현, 유사도계산, 토픽 군집화로 3단 계층이다. 텍스트표현: 문장을 숫자로 바꾼다. TF-IDF, Word2Vec, BERT 유사도계산: 벡터간 얼마나 비슷한지 코사인유사도토픽 군집화: 비슷한것들끼리 묶어서 주제를 생성 LDA, K-means, BERTopichttps://standout.t.. 비슷한것들끼리 묶어서 주제를 생성하는 토픽 군집화의 전통적인 방법: LDA Latent Dirichlet Allocation. (feat.pyLDAvis) 비슷한 맥락에서 등장하는 단어들은 비슷한 의미를 가진다는 분산가설 Distributional Hypothesis 에서 출발함“You shall know a word by the company it keeps”Word2Vec, BERT, GPT 전부의 철학. 단어를 여러 축 차원에 따라 좌표로 표현하며 같은 공간에 위치한 단어들은 비슷한 뉘앙스나 시제를 가졌다고 판단함. 유사성 측정뿐만 아니라 단어간의 관계를 수학적으로 처리가 가능해 왕 - 남자 + 여자 = 여왕 추론이 가능함. 우리말을 벡터공간으로 변환해 의미를 숫자로 파악하고 다시 자연어로 변환하는 과정을 거침. chat gpt 사람의 언어로는 약간 비슷하다 처럼 추상적이지만 컴퓨터로 10점만점에 몇점 식으로 정량적 연산을 수행할 수 있음. 충분한 .. 문장을 숫자로 바꾸기 워드임베딩, 단어의 의미 벡터(embedding)를 데이터로부터 학습하는 신경망 모델 Word Vector, Word2Vec 자연어를 컴퓨터가 이해할 수 있는 숫자 벡터로 변환하는 과정 (feat.원핫 인코딩 One-Hot-Encoding) 빈도분석문장을 숫자로 바꾸는 가장 기초 방법은 빈도기반 방법이있다. 문장을 숫자로 바꾸는 가장 기초 방법은 빈도기반 방법이있다. Count, Frequency, Binary occurrence.https://standout.tistory.com/1833 빈도분석이란? Count, Frequency(count를 비율로 바꾼것), Binary occurrence(나왔는지, 안나왔는지만 보는빈도분석문장을 숫자로 바꾸는 가장 기초 방법은 빈도기반 방법이있다. Count, Frequency(count를 비율로 바꾼것), Binary occurrence(나왔는지, 안나왔는지만 보는 방식).텍스트 데이터를 수치화하기 위해standout.tistory.com 이후 개선된 가중치 방식으로 TF-IDF, IDF, 확장되.. wordcloud 만들때 데이터가 string형인가 dict형인가 generate() , generate_from_frequencies() - TypeError: unhashable type: 'dict' wordcloud.generate TypeError: unhashable type: 'dict'키를 찾고있는데 딕셔너리가 보여 에러가남.^^^^^^^^^^^^ File "D:\study\sk_playdata\study_ai\llm_workspace\day32_llm_nlp_analysis\test_konlpy_pjt\.venv\Lib\site-packages\wordcloud\wordcloud.py", line 586, in process_text words = re.findall(regexp, text, flags) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\playdata2\AppData\Local\Programs\Python\Python311\Lib\re\__in.. NLTK의 토큰화 모델이 다운로드되지 않았을 때: Resource punkt not found Resource punkt_tab not found. (feat.nltk.download('punkt')) LookupError Traceback (most recent call last) /tmp/ipykernel_2213/2634140280.py in () ----> 1 sent_tokens = nltk.sent_tokenize(clean_lower) 2 print(sent_tokens) /usr/local/lib/python3.12/dist-packages/nltk/tokenize/__init__.py in sent_tokenize(text, language) 117 :param language: the model name in the Punkt corpus 118 """ --> 119 tokenizer .. 이전 1 다음