인공지능 (29) 썸네일형 리스트형 통계분석기법 - 변수의 측정과 척도에 따른 분석방법 (feat.그래프) 예시로 근무부서에 따른 직무만족도 차이를 분석해보자.근무부서가 메인이자 독립변수고직무만족도가 종속적인 성질이자 종속변수가 될것이다.여기서 근무부서는 범주형, 직무만족도는 연속형이 속하는데https://standout.tistory.com/1547 숫자에 의미가 있는가, 질적자료와 양적자료질적자료(Qualitative Data)범주형비수치적인 데이터, 개체나 사건의 특성이나 속성주로 텍스트나 설문조사에서 사용빈도 분석, 분할표, 막대 차트, 원형 차트 등을 통해 데이터의 상대적인 분포standout.tistory.com 이 경우부서별로 그룹간의 평균을 구해 그 차이를 비교하는 분산분석( ANOVA )이 좋을 것이다.이처럼 독립변수와 종속변수가 범주(명서)형인가 연속(등비)형인가에 따라 분석방법을 나누어 놓.. 통계학의 개념과 분류: 통계학 모집단 표본 모수 통계량, 기술통계 추론통계 통계학 자연 및 사회현상에 나타나는 다양한 상황이나 측정값들을 요약해서 표현하는 것. 모집단은 연구의 대상이 되는 전체 집단을 의미하며, 표본은 모집단에서 선택된 일부 집단이다. 모수는 모집단의 특성을 나타내는 수치적 측정값이고, 통계량은 표본의 특성을 나타내는 수치적 측정값으로 표본을 분석하여 모집단의 모수를 추정하거나, 표본 간의 차이를 비교하는 데 사용된다. 통계학 크게 기술통계, 추론통계로 나뉜다. 기술통계 (Descriptive Statistics) 평균, 중앙값, 표준편차 등의 통계량을 사용하여 데이터의 중심 경향성과 분포를 설명 데이터를 요약, 표현, 해석하는 데 사용되는 방법 주어진 데이터의 특성을 설명하고 요약하여 데이터의 패턴을 파악 추론통계 (Inferential Statistic.. 통계의 양면성과 세가지 관점: 통계를 통한 거짓말, 통계 없는 거짓말, 진실을 더하는 통계 통계의 양면성통계는 데이터를 이해하고 판단하는 데 중요한 도구이나,때로 다양한 해석과 오해를 야기할 수 있는 양면성을 가지고 있다.통계의 양면성을 이해하고 올바르게 사용하는 것이 중요하다.적절한 데이터 수집, 정확한 분석, 투명한 해석을 통해 통계를 활용할 때, 진실과 신뢰성 있는 정보를 제공할 수 있다. 통계의 양면성을 이해하는 세 가지 관점에 대해 알아보자. 1. 통계를 통한 거짓말 특정 방식으로 해석하거나 특정 부분만 강조함으로써 왜곡 표본의 크기나 구성을 왜곡하여 특정 결과를 지지하는 증거로 사용할 수 있다. 축의 범위를 변형하거나 데이터를 적절하지 않게 나타내어 실제보다 더 크거나 작게 보이도록 할 수 있다. 2. 통계 없는 거짓말 특정 입장을 강조하거나 부정적인 이미지를 만들기 위해 , 자신.. 기계학습 알고리즘과 주요 기계학습 알고리즘: 선형 회귀, 의사결정 나무 모형, 딥러닝 기계학습 알고리즘데이터에서 패턴을 발견하고 학습하는 데 사용되는 다양한 기법https://standout.tistory.com/78 알고리즘이란?알고리즘 해결가능한 문제를 풀기위한 절차 자료구조(선형, 배열, 리스트, 스택..)를 잘 활용해야 성능(적은시간, 적은메모리)이 좋아진다. https://ko.wikipedia.org/wiki/%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 알standout.tistory.com 주요 기계학습 알고리즘주요 기계학습 알고리즘에는 선형 회귀, 의사결정 나무 모형, 그리고 딥러닝이 있다.모델들은 각각의 장단점을 가지고 있으며, 문제에 맞게 적절히 선택하여 사용하는 것이 중요하다. 1. 선형 회귀 (Linear Regression)주택 가격 예측, .. 딥러닝: Deep Neural Network (DNN), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN) 딥러닝 (Deep Learning)이미지 인식, 자연어 처리, 음성 인식 등인공 신경망을 여러 층(layer)으로 쌓아서 구성한 모델다층 구조로 인해 복잡한 데이터 패턴을 자동으로 학습특성 추출 과정에서 사람의 개입을 최소화하고 데이터로부터 필요한 특징을 자동으로 학습 Deep Neural Network (DNN)기본적인 인공신경망(ANN)보다 더 깊고 복잡함, 여러 개의 은닉층(hidden layer)을 추가하여 깊은 구조를 가짐.이미지 분류, 텍스트 분류, 회귀 등 다양한 문제에 적용입력층(input layer), 은닉층(hidden layers), 출력층(output layer)으로 구성되어 각 층은 뉴런(neuron)으로 이루어져 있고, 인접한 층의 모든 뉴런들은 연결되어 있다. Convol.. 의사결정 나무 모형: 노드와 가지, 가지치기 의사결정 나무 모형데이터에서 관찰된 패턴을 기반으로 트리 구조를 생성, 노드(node)와 가지(edge)로 구성고객 세그먼테이션, 신용 점수화, 의료 진단 등 다양한 분야에서 사용된다. 의료 분야에서는 환자의 특성을 기반으로 질병의 가능성을 예측하거나 치료 계획을 수립하는 데에 활용될 수 있다. 가장 상위 노드를 루트 노드(root node)라고 하며, 각 결정 노드(decision node)는 특정 특성에 대한 질문을 나타내고, 각 잎 노드(leaf node)는 최종 예측 값을 나타낸다.의사결정나무모형의 구성요소 는 아래와 같다.뿌리 노드(root node) 자식 노드(child node) 부모 노드(parent node) 끝 노드(terminal node) 중간 노드(internal node) 가지.. 선형모형: 다중선형회귀모형, 선형 로지스틱 회귀모형, 다항회귀모형, 일반화 가법모형 선형모형 주택 가격 예측, 수치 예측 등의 문제최소제곱법(Least Squares) 등을 사용하여 입력 변수의 계수(coefficient)를 추정입력 변수와 출력 변수 간의 직선적인 관계, 모델이 단순하고 이해하기 쉬우며, 해석하기 쉽다. 다중선형회귀모형 (Multivariate Linear Regression)주택 가격 예측에서 주택의 크기, 위치, 방의 개수 등 여러 변수를 고려하여 가격을 예측 한 개 이상의 독립 변수(입력 변수)가 종속 변수(출력 변수)에 영향을 미치는 선형 관계 선형 로지스틱 회귀모형 (Linear Logistic Regression) 고객이 제품을 구매할 확률을 예측하여 마케팅 전략을 수립로지스틱 함수를 사용하여 확률을 예측하며, 임계값을 기준으로 예측 클래스를 결정일반적으로.. 일반화 성능이 저하되는 현상: 과적합과 과적합의 원인, 방지방법 과적합(Overfitting)기계학습 모델이 학습 데이터에 너무 맞추어져 새로운 데이터에 대한 일반화 성능이 저하되는 현상 과적합된 모델은 학습 데이터의 노이즈나 세부적인 패턴까지 학습하여, 실제로는 관련 없는 특성까지 모델이 고려할 수 있다. 과적합의 주요 원인은 아래와 같다. 1. 모델의 복잡성너무 많은 매개변수: 학습 데이터셋의 개별 데이터 포인트에 대해 과도하게 적합됨깊은 신경망 구조: 너무 깊거나 많은 층(layer)을 가질 경우 과적합의 위험이 높아짐2. 학습 데이터의 부족작은 데이터셋: 일반적인 패턴을 파악하기 어렵고, 데이터의 특이한 예외 상황에 과도하게 반응3. 학습 시간과 반복 횟수너무 많은 반복: 너무 많은 에포크(epoch)를 진행할 경우, 모델이 학습 데이터에 지나치게 적합됨 .. 이전 1 2 3 4 다음