본문 바로가기

명사 美 비격식 (무리 중에서) 아주 뛰어난[눈에 띄는] 사람[것]

이론

UCI Machine Learning Repository란? : 머신러닝 커뮤니케이션, 가장 유명한 데이터셋 저장소, 머신러닝 연습용 데이터 모음 사이트


UCI Machine Learning Repository

미국 University of California, Irvine에서 운영, 현재 689데이터셋을 제공하고있음. 머신러닝 커뮤니케이션 사이트

머신러닝 공부할때 가장 유명한 데이터셋 저장소, 머신러닝 연습용 데이터 모음 사이트

초보자들이 무료이고 회원가입이 거의 필요가없고 csv형태 데이터가 많은데다 유명하고 논문/수업에서 자주 사용해 인기가 많다 .

대표적으로 유명한 데이터셋은 iris, wine quality, breast cancer, adult, heart disease가 있다 .

https://archive.ics.uci.edu/

 

UCI Machine Learning Repository

Test out our new website Want to visit our new website?

archive.ics.uci.edu

 

 

 

예시코드

if not os.path.exists(csv_path):
    # UCI Letter Recognition 데이터셋 URL입니다.
    url = "https://archive.ics.uci.edu/ml/machine-learning-databases/letter-recognition/letter-recognition.data"

    # 임시 원본 데이터 파일 경로입니다.
    raw_path = os.path.join(DATA_DIR, "letter-recognition.data")

    # 인터넷에서 데이터를 다운로드합니다.
    urllib.request.urlretrieve(url, raw_path)

    # UCI 데이터셋은 헤더가 없으므로 컬럼명을 직접 지정합니다.
    columns = [
        "letter", "x_box", "y_box", "width", "height", "onpix", "x_bar", "y_bar",
        "x2bar", "y2bar", "xybar", "x2ybr", "xy2br", "x_ege", "xegvy",
        "y_ege", "yegvx"
    ]

    # CSV 파일을 pandas DataFrame으로 읽습니다.
    df_raw = pd.read_csv(raw_path, header=None, names=columns)

    # CSV 파일 형태로 저장합니다.
    df_raw.to_csv(csv_path, index=False)

    print("데이터 다운로드 및 CSV 저장 완료:", csv_path)
else: