PyThon 자연어 전처리란? - 정제하기 punctuation, lower, re.sub()

정제

단어 집합으로부터 노이즈 데이터를 제거하는 작업, 불필요한 문자/기호 제거

불필요한 문자, 특수문자, 중복 데이터 등 분석에 방해가 되는 노이즈를 제거하는 과정

자연어와 자연어처리, Natural Language, NLP Natural Language Processing (feat. 정형데이터와 비정형데이터):

정형 데이터: 표, 필드값이 명확함, 숫자/문자 구분 가능, Excel, Python, SQL비정형 데이터: 텍스트기반, 이미지기반, 음성, 영상기반자연데이터는 구조가 없고 형태가 다양하고 분석이 어렵지만 중

standout.tistory.com

- 파이썬의 string punctuation은 영어 문장에서 자주 사용되는 특수문자 목록을 제공한다.

- 정규식을 이용한 특수문자 제거 re.sub()

- 대소문자 통일 lower()

import string

text = "Hello!!! NLP, Python? @2025"

for p in string.punctuation:
    text = text.replace(p, "")

print(text)

- 특수문자제거 정규식 활용

import re

text = "Hello!!! NLP, Python? @2025"

clean_text = re.sub(r'[^\w\s]', '', text)

print(clean_text)

코드를 줄여주는 정규표현식

정규표현식 regular expression, 간단히 regexp 또는 regex, rational expression) 또는 정규식이라 불림. 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어 텍스트패턴을 기술하기 위한, 패

standout.tistory.com

- 한글만 남기기 정규식 활용

import re

text = "안녕하세요!!! Python @2025 😊"

clean_text = re.sub(r'[^가-힣a-zA-Z0-9\s]', '', text)

print(clean_text)

- 대소문자 통일

text = "I Love NLP And PYTHON"

result = text.lower()

print(result)

- 중복 공백 제거

import re

text = "Python     NLP      Study"

result = re.sub(r'\s+', ' ', text)

print(result)

- 중복데이터제거

data = [
    "자연어처리",
    "인공지능",
    "자연어처리",
    "머신러닝"
]

result = list(set(data))

print(result)

" standout