UCI Machine Learning Repository
미국 University of California, Irvine에서 운영, 현재 689데이터셋을 제공하고있음. 머신러닝 커뮤니케이션 사이트
머신러닝 공부할때 가장 유명한 데이터셋 저장소, 머신러닝 연습용 데이터 모음 사이트
초보자들이 무료이고 회원가입이 거의 필요가없고 csv형태 데이터가 많은데다 유명하고 논문/수업에서 자주 사용해 인기가 많다 .
대표적으로 유명한 데이터셋은 iris, wine quality, breast cancer, adult, heart disease가 있다 .
UCI Machine Learning Repository
Test out our new website Want to visit our new website?
archive.ics.uci.edu
예시코드
if not os.path.exists(csv_path):
# UCI Letter Recognition 데이터셋 URL입니다.
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/letter-recognition/letter-recognition.data"
# 임시 원본 데이터 파일 경로입니다.
raw_path = os.path.join(DATA_DIR, "letter-recognition.data")
# 인터넷에서 데이터를 다운로드합니다.
urllib.request.urlretrieve(url, raw_path)
# UCI 데이터셋은 헤더가 없으므로 컬럼명을 직접 지정합니다.
columns = [
"letter", "x_box", "y_box", "width", "height", "onpix", "x_bar", "y_bar",
"x2bar", "y2bar", "xybar", "x2ybr", "xy2br", "x_ege", "xegvy",
"y_ege", "yegvx"
]
# CSV 파일을 pandas DataFrame으로 읽습니다.
df_raw = pd.read_csv(raw_path, header=None, names=columns)
# CSV 파일 형태로 저장합니다.
df_raw.to_csv(csv_path, index=False)
print("데이터 다운로드 및 CSV 저장 완료:", csv_path)
else:'이론' 카테고리의 다른 글
| 머신러닝의 Ensemble Learning 앙상블이란? (0) | 2026.06.02 |
|---|---|
| Entropy 엔트로피란? (0) | 2026.06.02 |
| Temsorflow란?: 대규모 머신러닝 모델을 학습하고 배포하는데 최적화된 구조의 Google이 개발한 오픈소스 딥러닝 프레임워크, Temsorflow의 뜻 (0) | 2026.05.28 |
| Tensor 텐서란?: Scalar, Vector, Matrix함께 이해하기, 물리학과 머신러닝에서의 쓰임 (0) | 2026.05.28 |
| 정규분포 Gaussian Distribution란? (0) | 2026.05.28 |