분류 전체보기 (1605) 썸네일형 리스트형 통계학의 개념과 분류: 통계학 모집단 표본 모수 통계량, 기술통계 추론통계 통계학 자연 및 사회현상에 나타나는 다양한 상황이나 측정값들을 요약해서 표현하는 것. 모집단은 연구의 대상이 되는 전체 집단을 의미하며, 표본은 모집단에서 선택된 일부 집단이다. 모수는 모집단의 특성을 나타내는 수치적 측정값이고, 통계량은 표본의 특성을 나타내는 수치적 측정값으로 표본을 분석하여 모집단의 모수를 추정하거나, 표본 간의 차이를 비교하는 데 사용된다. 통계학 크게 기술통계, 추론통계로 나뉜다. 기술통계 (Descriptive Statistics) 평균, 중앙값, 표준편차 등의 통계량을 사용하여 데이터의 중심 경향성과 분포를 설명 데이터를 요약, 표현, 해석하는 데 사용되는 방법 주어진 데이터의 특성을 설명하고 요약하여 데이터의 패턴을 파악 추론통계 (Inferential Statistic.. 통계의 양면성과 세가지 관점: 통계를 통한 거짓말, 통계 없는 거짓말, 진실을 더하는 통계 통계의 양면성통계는 데이터를 이해하고 판단하는 데 중요한 도구이나,때로 다양한 해석과 오해를 야기할 수 있는 양면성을 가지고 있다.통계의 양면성을 이해하고 올바르게 사용하는 것이 중요하다.적절한 데이터 수집, 정확한 분석, 투명한 해석을 통해 통계를 활용할 때, 진실과 신뢰성 있는 정보를 제공할 수 있다. 통계의 양면성을 이해하는 세 가지 관점에 대해 알아보자. 1. 통계를 통한 거짓말 특정 방식으로 해석하거나 특정 부분만 강조함으로써 왜곡 표본의 크기나 구성을 왜곡하여 특정 결과를 지지하는 증거로 사용할 수 있다. 축의 범위를 변형하거나 데이터를 적절하지 않게 나타내어 실제보다 더 크거나 작게 보이도록 할 수 있다. 2. 통계 없는 거짓말 특정 입장을 강조하거나 부정적인 이미지를 만들기 위해 , 자신.. 기계학습 알고리즘과 주요 기계학습 알고리즘: 선형 회귀, 의사결정 나무 모형, 딥러닝 기계학습 알고리즘데이터에서 패턴을 발견하고 학습하는 데 사용되는 다양한 기법https://standout.tistory.com/78 알고리즘이란?알고리즘 해결가능한 문제를 풀기위한 절차 자료구조(선형, 배열, 리스트, 스택..)를 잘 활용해야 성능(적은시간, 적은메모리)이 좋아진다. https://ko.wikipedia.org/wiki/%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 알standout.tistory.com 주요 기계학습 알고리즘주요 기계학습 알고리즘에는 선형 회귀, 의사결정 나무 모형, 그리고 딥러닝이 있다.모델들은 각각의 장단점을 가지고 있으며, 문제에 맞게 적절히 선택하여 사용하는 것이 중요하다. 1. 선형 회귀 (Linear Regression)주택 가격 예측, .. 딥러닝: Deep Neural Network (DNN), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN) 딥러닝 (Deep Learning)이미지 인식, 자연어 처리, 음성 인식 등인공 신경망을 여러 층(layer)으로 쌓아서 구성한 모델다층 구조로 인해 복잡한 데이터 패턴을 자동으로 학습특성 추출 과정에서 사람의 개입을 최소화하고 데이터로부터 필요한 특징을 자동으로 학습 Deep Neural Network (DNN)기본적인 인공신경망(ANN)보다 더 깊고 복잡함, 여러 개의 은닉층(hidden layer)을 추가하여 깊은 구조를 가짐.이미지 분류, 텍스트 분류, 회귀 등 다양한 문제에 적용입력층(input layer), 은닉층(hidden layers), 출력층(output layer)으로 구성되어 각 층은 뉴런(neuron)으로 이루어져 있고, 인접한 층의 모든 뉴런들은 연결되어 있다. Convol.. 의사결정 나무 모형: 노드와 가지, 가지치기 의사결정 나무 모형데이터에서 관찰된 패턴을 기반으로 트리 구조를 생성, 노드(node)와 가지(edge)로 구성고객 세그먼테이션, 신용 점수화, 의료 진단 등 다양한 분야에서 사용된다. 의료 분야에서는 환자의 특성을 기반으로 질병의 가능성을 예측하거나 치료 계획을 수립하는 데에 활용될 수 있다. 가장 상위 노드를 루트 노드(root node)라고 하며, 각 결정 노드(decision node)는 특정 특성에 대한 질문을 나타내고, 각 잎 노드(leaf node)는 최종 예측 값을 나타낸다.의사결정나무모형의 구성요소 는 아래와 같다.뿌리 노드(root node) 자식 노드(child node) 부모 노드(parent node) 끝 노드(terminal node) 중간 노드(internal node) 가지.. 선형모형: 다중선형회귀모형, 선형 로지스틱 회귀모형, 다항회귀모형, 일반화 가법모형 선형모형 주택 가격 예측, 수치 예측 등의 문제최소제곱법(Least Squares) 등을 사용하여 입력 변수의 계수(coefficient)를 추정입력 변수와 출력 변수 간의 직선적인 관계, 모델이 단순하고 이해하기 쉬우며, 해석하기 쉽다. 다중선형회귀모형 (Multivariate Linear Regression)주택 가격 예측에서 주택의 크기, 위치, 방의 개수 등 여러 변수를 고려하여 가격을 예측 한 개 이상의 독립 변수(입력 변수)가 종속 변수(출력 변수)에 영향을 미치는 선형 관계 선형 로지스틱 회귀모형 (Linear Logistic Regression) 고객이 제품을 구매할 확률을 예측하여 마케팅 전략을 수립로지스틱 함수를 사용하여 확률을 예측하며, 임계값을 기준으로 예측 클래스를 결정일반적으로.. 일반화 성능이 저하되는 현상: 과적합과 과적합의 원인, 방지방법 과적합(Overfitting)기계학습 모델이 학습 데이터에 너무 맞추어져 새로운 데이터에 대한 일반화 성능이 저하되는 현상 과적합된 모델은 학습 데이터의 노이즈나 세부적인 패턴까지 학습하여, 실제로는 관련 없는 특성까지 모델이 고려할 수 있다. 과적합의 주요 원인은 아래와 같다. 1. 모델의 복잡성너무 많은 매개변수: 학습 데이터셋의 개별 데이터 포인트에 대해 과도하게 적합됨깊은 신경망 구조: 너무 깊거나 많은 층(layer)을 가질 경우 과적합의 위험이 높아짐2. 학습 데이터의 부족작은 데이터셋: 일반적인 패턴을 파악하기 어렵고, 데이터의 특이한 예외 상황에 과도하게 반응3. 학습 시간과 반복 횟수너무 많은 반복: 너무 많은 에포크(epoch)를 진행할 경우, 모델이 학습 데이터에 지나치게 적합됨 .. 기계학습과 기계학습의 분야 기계학습과 기계학습의 분야 기계학습이란?인공지능(AI)의 한 분야데이터와 통계적 모델링 기법을 사용하여 컴퓨터 시스템이 스스로 학습할 수 있게 만드는 기술https://standout.tistory.com/1529 자동화에서 자율화로 진화되는 인공지능: 추론방법, 룰베이스 와 기계학습추론룰을 사용하여 모순되지 않는 답을 도출한다. 룰베이스 (Rule-Based)사람의 체험과 지견에 의해 얻어지는 지식규칙 기반 시스템, "만약-그러면" 규칙을 사용하여 동작 명확성, 예측 가능standout.tistory.com 기계학습의 분야 지도학습(Supervised Learning)입력 데이터와 해당 데이터에 대한 출력(정답, 레이블)을 이용하여 모델을 학습시키는 방법 특정 이미지가 고양이인지 개인지 분류하는 모델을.. 이전 1 ··· 10 11 12 13 14 15 16 ··· 201 다음