Search

비전공자가 꼭 알아야 하는 통계 개념 BEST 25

안녕하세요! 커널아카데미 데이터분석 부트캠프입니다! 통계와 관련해서 고민이 많으신 분들을 위해, 비전공자가 꼭 알아야 하는 통계 개념을 정리해드려요. 통계학과 졸업 후 삼성 계열사에서 재직하셨던, AI 스쿨의 Stella 멘토님께서 직접 선정하신 통계 필수 개념 BEST 25이니, 낯선 개념이셔도 하나씩 꼼꼼히 읽어보시기를 추천드립니다 감사합니다. 커널아카데미 데이터분석 부트캠프 드림
no
용어
설명
카테고리
연관 용어
중요도
1
머신러닝 (Machine Learning)
인공 지능의 한 분야로, 컴퓨터가 학습 모형을 기반으로 주어진 데이터를 통해 스스로 학습하고 개선하도록 함. 데이터마이닝과 많은 기법이 중첩되어 사용되지만, 머신러닝의 경우 새로운 데이터에 적용해 결과를 예측하는 ‘일반화’에 좀 더 치중하는 것이 데이터를 해석하는 것에 집중하는 데이터마이닝과의 차이.
분석방법
-
★★★
2
강화학습 (Reinforcement Learning)
머신러닝의 한 영역으로, 어떤 환경 안에서 선택 가능한 행동들 중 보상을 최대화하는 행동이나 행동 순서를 선택하도록 하는 학습 모형. 행동심리학에서 영감을 받아 제안됨. 일반적으로 학습 데이터 (Training Data)이 제시되지 않으며, 최적화 문제에 많이 활용.
ML모델링, 분석방법
-
3
비모수 통계, 비모수 검정 (Non-parametric Statistics, NPAR Testing)
모수에 대한 가정을 전제로 하는 전통적인 통계 분석방법과 달리, 모집단의 분포에 대한 가정 없이 주어진 데이터에서 직접 확률을 계산하여 통계 검정을 하는 분석법. 정규분포를 따르지 않거나 근사할 수 없는 데이터, 표본이 적은 데이터에서도 적용할 수 있는 방법이 존재함. 순위, 중앙값 등을 활용하는 경우가 많음.
가설검정
중앙값
★★★★★
4
신뢰구간 (Confidence Interval)
모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법. 표본에서 얻은 통계량으로 모수를 추정할 때 신뢰 하한과 신뢰 상한 사이의 구간으로 추정하는 구간추정의 방법으로 하나의 추정치를 도출하는 점 추정(Point Estimation)보다 실무에서 더 유용함.
가설검정
-
★★
5
중심극한정리 (CLT, Central Limit Theorem)
동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리. n은 통상적으로 30 이상일 때 적당히 크다고 판단하며, 다양한 추론 통계학 방법들을 사용하는 근거로 활용됨.
확률과 기초통계
-
★★★★★
6
자유도 (DF, Degrees of Freedom)
통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 의미. (독립적으로 자유롭게 바뀔 수 있는 값의 수) 일반적으로 표본 수에서 제약조건의 수 또는 추정해야 하는 모수의 개수를 빼서 얻을 수 있음. 일부 확률분포는 자유도에 따라 분포의 모양이 결정됨. (ex. 카이제곱분포)
분산분석, 확률과 기초통계, 회귀분석
-
★★★★
7
독립성 (Independent)
확률론에서는 한 사건이 일어날 확률이 다른 사건이 일어날 확률에 영향을 미치지 않는다는 의미. 데이터에서는 하나의 특성이 다른 요소에 영향을 미치지 않는다 (연관성이 없다)는 의미로도 많이 사용됨.
확률과 기초통계, 회귀분석
-
★★★★
8
이상값,이상치 (Outlier)
다른 자료와는 극단적으로 크거나 작은 관측값. 산점도나 상자도표 같은 시각화 방법 또는 ESD나 IQR을 활용한 기준치로 판단할 수 있음. 데이터 분석에서 이상값의 존재는 결과를 왜곡할 수 있기 때문에 전처리 및 탐색 과정에서 제거, 조정(치환) 등의 방법으로 처리하거나, 비모수적 방법으로 분석하는 것이 적절함.
확률과 기초통계
비모수 통계
★★★★
9
변동계수 (CV, Coefficient of Variation)
표준편차를 평균으로 나눈 값으로, 측정의 단위와 무관하기 때문에 여러 데이터의 산포도(Dispersion)을 비교할 때 유용함.
확률과 기초통계
대푯값
★★★
10
MECE (Mutually Exclusive and Collectively Exhaustive)
전체 집합을 중복되지 않고 누락되지도 않는 부분집합으로 생각해서, 각각의 합이 전체가 되게 하는 분석적 구조. 각각의 집합은 중복되지 않으며 (상호배제, Mutually Exclusive), 모든 집합을 합했을 때 전체에서 빠지는 것도 없어야(전체적으로 완전, Collectively Exhausitve) 함. 데이터를 통해 문제의 원인을 파악하는 과정에서 유용한 사고.
확률과 기초통계
-
★★★
11
중앙값 (Median)
평균과 함께 데이터의 중심을 나타내는 중심 경향치(Centroid)로 자주 사용되는 대푯값. 관측치를 크기순으로 나열했을 때, 한가운데 위치하는 값. 이상값에 민감하다는 평균의 한계를 보완할 수 있는 대푯값으로 데이터가 비대칭적이거나 이상값이 많을 때 유용함. 비모수 통계에서는 평균의 대안으로도 많이 활용.
확률과 기초통계
대푯값, 비모수 통계
★★★
12
통계량 (Statistic)
표본 데이터를 이용해 계산하는 수치로, 모집단(Population)의 특성을 나타내는 모수(Parameter) 를 추정하는 과정에서 활용됨. 표본 통계량의 확률 분포를 표본 분포(Sampling Distribution)라고 함.
확률과 기초통계
-
★★
13
불편추정량 (Unbiased Estimator)
표본으로부터 모수를 추정하는 추정량(Esimator) 중에서, 추정량의 기댓값이 모수와 같은 경우(Unbiased) 이 추정량을 불편 추정량이라 함. 추정량의 기댓값이 모수와 다른 경우는 편향(Bias)이 있기 때문에 편의 추정량(Biased Estimator)라고 함. 일반적으로는 불편 추정량이 편의 추정량보다 모수의 추정에 적합함.
확률과 기초통계
-
★★
14
기술통계학 (Descriptive Statistics)
측정이나 실험에서 수집한 데이터의 정리, 요약, 해석, 표현 등을 통해 그 표본이나 데이터의 특성을 규명하고 설명하여 이해할 수 있도록 하는 통계적 방법론
확률과 기초통계
-
★★
15
사전 확률 (Prior Probability)
특정 사상이 일어나기 전의 확률로 베이즈 추론에서 관측자가 관측을 하기 전에 가지고 있는 확률 분포. 사전 확률과 가능도(우도,Likelihood)가 주어지면 베이즈 정리를 통해 사후 확률을 얻을 수 있음.
확률과 기초통계
-
★★
16
우도, 가능도 (Likelihood)
확률 분포의 모수가, 어떤 확률변수 표본과 일관되는 정도를 나타내는 척도로 얼마나 그럴듯한 (가능성 높은)지를 확인할 수 있음. 주어진 표집값(표본)에 대한 모수의 가능도는 이 모수를 따르는 분포가 주어진 관측값에 부여하는 확률. 우도가 높은 통계량을 얻는 것은 모집단의 추론이라는 추론 통계학의 목표를 생각할 때 매우 중요함.
확률과 기초통계
-
★★
17
기댓값 (Expected Value)
어떤 확률 과정을 무한히 반복했을 때, 얻을 수 있는 값의 평균으로서 기대할 수 있는 값. 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값.
확률과 기초통계
-
★★
18
대푯값 (Representative Value)
어떤 데이터(표본)를 대표하는 값을 대푯값이라 함. 중심을 설명하는 값은 중심 경향치(Centroid)라 하며 대표적으로 평균, 중앙값, 최빈값 등을 들 수 있고, 자료의 값들이 흩어진 정도를 대표하는 산포도(Dispersion)에는 대표적으로 범위, 분산, 백분위수 등이 있음. 분포의 모양을 대표하는 왜도, 첨도 역시 빈번하지 않지만 종종 사용되는 대푯값.
확률과 기초통계
왜도, 첨도, 변동계수, 중앙값
★★
19
왜도 (Skewness)
자료의 비대칭적인 분포 정도를 표현하는 대푯값으로 왜도가 0이면 좌우가 대칭인 분포를 의미함. 왜도가 큰 양수일수록 우측 꼬리가 길어지므로 우측에 더 많이 퍼지고 음수일수록 좌측 꼬리가 긴 분포를 나타냄.
확률과 기초통계
대푯값
20
첨도 (Kurtosis)
분포의 꼬리가 두꺼운 정도 (얼마나 뾰족한지의 정도)를 나타내는 대푯값. 관측값이 얼마나 중심에 몰려있는지 또는 퍼져있는지 측정할 때 사용. 3에 가까우면 정규분포와 같은 모양을 가지며, 3보다 크면 정규분포보다 꼬리가 두꺼운 분포를 갖게 됨.
확률과 기초통계
대푯값
21
최소제곱법 (Least Squares Method)
관측된 데이터와 평균의 오차를 제곱해서 더한 제곱합이 가장 작아지도록 모형을 만드는 방법. 선형회귀분석에서는 가능한 여러 직선들 중 관측 데이터에 가장 가까운 (오차합이 적은) 공식을 찾는 방법.
회귀분석
-
★★★★
22
평균제곱오차 (MSE, Mean Squared Error)
예측 모델의 성능을 평가하는 척도 중 하나로, 실제 관측값과 모형이 예측한 값의 차이(Error)를 제곱하여 예측 정확성을 측정하는 것. 오차 제곱합을 전체 데이터의 개수 n으로 나눠서 계산하며 예측하는 Y값이 연속형이 경우에 주로 MSE가 사용됨.
ML모델링, 회귀분석
-
★★
23
등분산성 (Homoscedasticity)
분산이 동일한지를 의미하는데 일반적으로 회귀분석을 포함한 다양한 통계 분석 방법에서 가정으로 요구되는 “잔차의 분산이 동일한지”를 나타냄. 예측값에 대한 잔차를 그린 Residual Plot으로 확인할 수 있음. 등분산성이 위배된다고 판단되면 기본 가정을 만족하지 못하므로 정규화나 이를 해소할 수 있는 분석 방법을 고려해야 함.
회귀분석
-
24
이동평균 (Moving Average)
전체 데이터 집합에서 연속된 일련의 데이터 평균을 만들어내는 계산으로 롤링 평균(Rolling Mean)이라고도 함. 동일한 가중치가 적용되는 단순 이동평균의 대표적 사례는 주식시장에서 n일 동안의 주식 종가로 계산한 것.
시계열분석
-
★★★
25
협업 필터링 (Collaborative Filtering)
다수의 사용자 데이터를 활용하여 사용자가 좋아할 만한 대상을 예측하는 방법으로, 데이터에서 확인된 과거의 선호 경향이 미래에도 유지될 것이라는 전제에 따름. 유저 기반의 협업 필터링과 아이템 기반의 협업 필터링으로 나뉠 수 있으며 많은 추천 시스템의 근간이 되었던 방법.
ML모델링
-
★★★★