통계와 관련해서 고민이 많으신 분들을 위해, 비전공자가 꼭 알아야 하는 통계 개념을 정리해드려요.
감사합니다.
커널아카데미 AI 부트캠프 드림
용어 | 설명 | 연관용어 | 학습단계 | 유형 | 중요도 | 핵심답변 | 면접빈출 |
회귀분석 (Regression Analysis) | 변수들 간의 함수적 관계를 추론하는 통계적 분석 방법. 독립변수를 통해 종속변수를 예측하는 방법. 상관분석으로는 입증이 어려운 인과관계를 확인하고, 회귀 모형을 활용해 예측에 활용할 수 있음. | 독립변수, 종속변수, 상관분석 | 2단계 | 분석방법 | ★★★★★ | O | O |
분산분석 (ANOVA, Analysis of Variance) | 통계학에서 3개 이상 집단의 평균 차이를 비교하는 분석 방법. (2개인 경우 T검정) 각 집단의 평균 차이에 의해 생긴 집단 간 분산과 각 집단 내 분산의 비율로 얻은 검정통계량과 F분포를 이용하여 가설검정을 함. 평균 차이를 비교하는 근거가 집단 내 분산과 집단 간 분산이기 때문에 분산분석이라고 하며, 통상 ANOVA라고 부름. 분산분석의 귀무가설은 “모든 집단의 평균이 같다”이, 대립가설은 “적어도 하나 이상 집단의 평균은 다르다” 임. | T검정, 귀무가설, 대립가설 | 2단계 | 분석방법 | ★★★★★ | O | O |
베이즈 통계학 (Bayesian Statistics) | 베이즈 확률에 기반한 통계학 이론으로, 베이즈 통계학에서 확률은 어떠한 사건이 일어날 것이라는 합리적 기대의 척도. 이것은 확률을 어떤 사건을 무한대로 반복할 때의 상대빈도로 이해하는 빈도주의 통계학과 다름. 사전 확률을 기반으로 해서 표본이 작더라도 좋은 추론을 할 수 있다는 장점이 있으나, 사전 확률에 의견이 포함될 수 있으며 연산이 복잡하다는 지적도 있음. | 조건부 확률 | 1단계 | 분석방법 | ★★★★ | O | |
군집분석, 클러스터분석 (Cluster analysis) | 주어진 데이터들의 특성으로부터 유사한 군집(클러스터)을 정의하고, 각 군집을 대표하는 중심점을 찾는 데이터 마이닝의 방법. 군집(클러스터)은 비슷한 특성을 가진 데이터들의 집단으로 각 관측값은 하나의 군집에 속함. 분류분석(Classification)과 달리 정답지(Label)이 존재하지 않는 비지도 학습의 일종. k-means 클러스터링이 대표적인 방법. | 비지도학습, K-means 군집분석 | 2단계 | 분석방법 | ★★★★ | O | |
지도학습 (Supervised Learning) | Label, 즉 정답이 있는 데이터에 대해서 분석하는 방법으로 수집된 기존 데이터를 통해 미래나 새로운 데이터를 예측하는 방법. Y가 범주형 자료인 경우 분류 분석(Classification), 연속형 자료인 경우 회귀분석(Regression)을 주로 활용. | 비지도학습 | 1단계 | 분석방법 | ★★★★ | O | |
비지도학습 (Unsupervised Learning) | 지도학습(Supervised Learning)과 다르게 Label, 즉 정답지가 없는 데이터를 분석하는 방법. 정답이 없는 상태의 데이터를 최대한 유사한 집단으로 나눌 때 주로 사용. 대표적인 비지도 학습 방법으로 군집분석(Clustering), 연관분석(Association Analysis)이 있음. | 지도학습 | 1단계 | 분석방법 | ★★★★ | O | |
의사결정나무 (Decision Tree) | 독립변수들(X)로 범주형 종속변수(Y)를 예측하는 분류 분석에서 가장 널리 활용되는 모형. 직관적이고 시각화가 쉬운 분류 규칙으로 구성되기 때문에 결과 해석이 쉽고 빠름. 의사결정 나무의 깊이가 너무 깊어질 경우 학습 데이터에만 성능이 좋고 일반화 시 성능이 떨어지는 과적합(Overfitting)이 일어날 수 있어 주의해야 함. | 분류분석, 과적합 | 2단계 | 분석방법 | ★★★★ | O | |
탐색적 분석, EDA (Exploratory Data Analysis) | 데이터를 분석하는 첫 단계 중 하나로 도표, 그래프, 요약통계량 등의 시각적/비시각적 방법을 통해 데이터를 파악하는 과정. 여러 통계적 가정의 만족 여부를 파악하거나 이상값(Outlier)의 존재 등에 따라 적절한 가설 수립 및 데이터 분석 기법 선정에 활용. | 이상값 | 2단계 | 분석방법 | ★★★ | ||
머신러닝 (Machine Learning) | 인공 지능의 한 분야로, 컴퓨터가 학습 모형을 기반으로 주어진 데이터를 통해 스스로 학습하고 개선하도록 함. 데이터마이닝과 많은 기법이 중첩되어 사용되지만, 머신러닝의 경우 새로운 데이터에 적용해 결과를 예측하는 ‘일반화’에 좀 더 치중하는 것이 데이터를 해석하는 것에 집중하는 데이터마이닝과의 차이. | - | 1단계 | 분석방법 | ★★★ | ||
시계열분석 (TSA, Time Series Analysis) | 시간의 흐름에 따라 기록된 자료인 시계열 데이터를 분석하고 여러 변수들 간의 인과관계를 분석하는 방법론. 추세, 주기, 계절성, 패턴 등의 특성을 파악해서 데이터에 가장 잘 설명하는 모형을 만들고, 모형을 이용하여 예측에 활용함. | 추세, 주기성, 계절성 | 1단계 | 분석방법 | ★★★ | ||
분류분석 (Classification) | 데이터가 범주형 Label을 갖고 있는 경우, 다른 변수들을 활용해 데이터를 가장 잘 분류할 수 있는 모형을 만드는 지도학습의 한 방법. 확보된 데이터로 미래를 예측(분류) 하는데 활용. 대표적으로 의사결정 나무(Decision Tree)가 있으며, 데이터의 실제 Label과 예측(분류)된 Label을 통해 정확도를 측정하거나 비교할 수 있음. | 지도학습, 의사결정나무 | 1단계 | 분석방법 | ★★★ | ||
로지스틱 회귀분석 (Logistic Regression) | 선형 회귀분석의 목표 및 과정과 유사하지만 종속 변수가 이진(Binary) 범주형 자료인 경우 활용함. 로지스틱 회귀 모형을 이용하면 새로운 데이터를 0또는 1로 분류(예측) 할 수 있기 때문에 분류(Classification) 기법의 하나로 구분됨. | 분류분석 | 1단계 | 분석방법,회귀분석 | ★★★ | ||
딥러닝 (Deep Learning) | 인간의 뉴런 구조와 비슷한 인공신경망을 구성하여, 여러 노드의 연결로 데이터를 처리하고 학습하는 머신러닝 방법의 일종. 딥러닝의 콘셉트는 매우 오래되었지만, 과적합(Overfitting) 문제가 해결되고 컴퓨팅 파워가 향상되면서 다시 각광받기 시작했고 음성, 영상, 자연어 등에서 활발히 사용됨. | 머신러닝, 과적합 | 2단계 | 분석방법 | ★★ | ||
상관분석 (Correlation Analysis) | 두 변수 간에 어떤 선형적 관계를 갖고 있는지를 분석하는 방법. 상관계수를 이용해 선형 상관관계의 정도를 파악하지만, 그 결과가 인과관계를 설명하지는 않으므로 해석에 유의해야 함. 두 변수의 인과관계 검증이 필요한 경우 회귀분석을 통해 확인. | 상관계수 | 1단계 | 분석방법 | ★★ | ||
종속변수 (Dependent Variable) | 다른 변수의 영향을 받는 변수로, 반응 변수라 표현 하기도 하며 보통 Y로 표기됨. 회귀분석, 모형 등에서 예측하고자 하는 변수이고 비즈니스에서 활용될 때는 예측하고 움직이고 싶은 목표에 해당하는 변수. | 독립변수 | 1단계 | 분석방법 | ★★ | ||
독립변수 (Independent Variable) | 종속변수 Y에 영향을 주는 변수로 설명변수( Explanatory Variable), 입력 변수(Input Variable)로 표현하기도 하며, X변수라고도 함. Input이나 원인에 해당하며 회귀분석 등의 모델에서 독립변수들의 관계로 종속변수를 설명함. | 종속변수 | 1단계 | 분석방법 | ★★ | ||
일원분산분석 (One-way ANOVA) | 하나의 종속변수와 하나의 독립변수에 대해 평균 차이를 검정하는 방법. 이때 독립변수의 수준을 처리(Treatment)라고 하며, 처리가 2개(2개 집단, 예를 들어 성별)인 경우 T검정을, 3개 이상의 처리가 존재하는 경우 ANOVA를 사용. 귀무가설을 기각할 충분한 증거가 있는 경우, 어떤 처리(집단)에서 다른 처리와 차이가 있었는지 확인하는 사후 비교를 진행하여 결론을 내림. | 처리, 사후비교 | 1단계 | 분산분석,분석방법 | ★★ | ||
이원분산분석 (Two-way ANOVA) | 독립변수가 두 개 이상일 때 집단 간 차이가 유의한지를 검증하는 데 사용. 예를 들어 성별과 인종에 따른 체중을 비교한다면 독립변수가 성별, 인종으로 2개이므로 이원 분산분석을 사용. 이때 각 변수의 독립적인 효과 외에도 상호작용(교호작용)이 존재할 수 있으므로 상호작용 효과를 함께 검정하여 적절한 분석으로 결론을 내려야 함. | 상호작용 | 2단계 | 분산분석,분석방법 | ★★ | ||
강화학습 (Reinforcement Learning) | 머신러닝의 한 영역으로, 어떤 환경 안에서 선택 가능한 행동들 중 보상을 최대화하는 행동이나 행동 순서를 선택하도록 하는 학습 모형. 행동심리학에서 영감을 받아 제안됨. 일반적으로 학습 데이터 (Training Data)이 제시되지 않으며, 최적화 문제에 많이 활용. | - | 1단계 | ML모델링,분석방법 | ★ | ||
비모수 통계, 비모수 검정 (Non-parametric Statistics, NPAR Testing) | 모수에 대한 가정을 전제로 하는 전통적인 통계 분석방법과 달리, 모집단의 분포에 대한 가정 없이 주어진 데이터에서 직접 확률을 계산하여 통계 검정을 하는 분석법. 정규분포를 따르지 않거나 근사할 수 없는 데이터, 표본이 적은 데이터에서도 적용할 수 있는 방법이 존재함. 순위, 중앙값 등을 활용하는 경우가 많음. | 중앙값 | 2단계 | 가설검정 | ★★★★★ | O | O |
유의수준 (Significant Level) | 1종 오류가 일어날 확률의 최대 허용치로 일반적으로 0.05를 사용하며 알파(α)로 표시. 통계적 가설 검정에서 유의 확률(P-value)과 비교하여 귀무가설을 기각하는 결정을 판단하는 임계치. 오류의 확률을 유의수준으로 정의했으므로, 신뢰수준은 1에서 유의수준을 뺀 것이 됨. 일반적으로 유의수준은 0.05를 가장 많이 활용하며, 사회과학에서는 0.1을 사용하기도 함. | 1종오류, 유의확률 | 2단계 | 가설검정 | ★★★★★ | O | O |
유의확률,P값 (Significance Probability, P-value) | 귀무 가설(Null Hypothesis)이 참이라는 가정 하에, 표본에서 실제로 관측된 통계량이 기각역과 '같거나 더 극단적인' 값일 확률. 유의수준보다 P-value가 작다면 귀무가설이 참인 경우 거의 발생하기 어려운 희박한 상황이므로, 귀무가설을 기각할 만한 충분한 증거가 있다고 판단할 수 있음. | 귀무가설, 유의수준, 유의확률 | 2단계 | 가설검정 | ★★★★★ | O | O |
1종오류 (Type 1 Error) | 귀무가설이 참이지만 귀무가설을 기각하는 오류로 알파 오류라고도 함. 양성을 밝히고 싶은 문제에서는 실제로는 음성인데 양성으로 잘못 판정하는 오류. 1종 오류를 범할 확률의 최대허용 한계를 유의수준 (Significant Level)이라고 하고 α로 표시함. | 귀무가설, 유의수준 | 2단계 | 가설검정 | ★★★★★ | O | O |
귀무가설 (Null Hypothesis) | 입증하고 싶은 가설인 대립가설과 반대로 기존의 사실에 해당하는 가설로, 틀렸음을 증명하고 기각하고 싶은 가설. 귀무가설은 ‘의미/차이가 없다’인 경우가 많아 영가설 (Null Hypothesis)라고도 함. 가설검정에서는 이 귀무가설을 기각할 만한 충분한 증거를 확보하고자 함. | 대립가설 | 1단계 | 가설검정 | ★★★★★ | O | O |
대립가설 (Alternative Hypothesis) | 귀무가설에 반대되는, 대립하는 가설로 데이터를 통해 입증하려는 가설. 대립가설 자체를 판단할 수는 없으며, 충분한 증거를 통해 귀무가설을 기각함으로써 이에 반대되는 대립가설을 채택하는 반증의 과정으로 확인하게 됨. | 귀무가설 | 1단계 | 가설검정 | ★★★★★ | O | O |
2종오류 (Type 2 Error) | 귀무가설이 거짓이지만 귀무가설을 기각하지 못하는 오류로 베타 오류라고도 함. 양성을 밝히고 싶은 문제에서는 실제로 양성인데 음성으로 판단하는 오류. | 귀무가설 | 2단계 | 가설검정 | ★★★★ | O | |
검정통계량 (Test Statistic) | 귀무가설이 참이라는 가정하에 얻은 통계량으로, 검정통계량이 기각역보다 크면 (=유의확률이 유의수준보다 작으면) 귀무가설을 기각할 충분한 증거가 있으므로 귀무가설을 기각함. 반대의 경우 귀무가설을 기각할 충분한 증거가 없다고 표현함. | 귀무가설 | 2단계 | 가설검정 | ★★★ | ||
독립성 검정 (Test of Independence) | 관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립성) 여부를 검정. 독립성 검정의 귀무가설은 ‘두 요인이 독립이다’로, 귀무가설 하에서 계산된 기대 빈도와 실제 관측 빈도를 비교하여 검정통계량을 계산하고 카이제곱 분포를 활용하여 검정. | 귀무가설, 검정통계량, 카이제곱검정 | 2단계 | 가설검정 | ★★★ | ||
카이제곱검정 (Chi-squared Test) | 카이제곱 분포에 기초한 통계적 검정 방법으로 기대 빈도와 관찰된 빈도의 차이를 통해 가설을 검정함. 적합도 검정 (Goodness of Fit Test), 독립성 검정 (Test of Independence)과 동질성 검정 (Test of Homogeneity)이 그 예시. 클릭 수처럼 반응을 빈도로 측정할 수 있는 A/B 테스트 분석에도 많이 활용됨. | 독립성 검정, 적합도 검정, 동질성 검정, A/B 테스트 | 1단계 | 가설검정 | ★★★ | ||
T검정 (T-Test) | 두 표본 평균이 의미 있게 차이가 나는지를 검정할 때 사용되는 통계적 가설 검정법. 검정통계량이 귀무가설 하에서 t분포를 따르기 때문에 T검정, T-Testing으로 부름. 평균을 비교하려는 표본 집단이 3개 이상인 경우 F검정을 활용하는 분산분석을 시행. | 귀무가설, 분산분석 | 1단계 | 가설검정 | ★★★ | ||
신뢰구간 (Confidence Interval) | 모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법. 표본에서 얻은 통계량으로 모수를 추정할 때 신뢰 하한과 신뢰 상한 사이의 구간으로 추정하는 구간추정의 방법으로 하나의 추정치를 도출하는 점 추정(Point Estimation)보다 실무에서 더 유용함. | - | 1단계 | 가설검정 | ★★ | ||
적합도 검정 (Goodness of Fit Test) | 표본에서 실제 관측된 값들이 특정 분포를 따르고 있는지 검정하는 방법. 한 개의 변수를 대상으로 하며 기존에 이미 알고 있는 비교 기준이 존재하고 그 분포와의 적합도를 검정함. 카이제곱검정을 활용. | 카이제곱검정 | 1단계 | 가설검정 | ★★ | ||
동질성 검정 (Test of Homogeneity) | 서로 다른 데이터가 범주 내에서 동일한 비율을 나타내는지 검정하는 방법으로 카이제곱 검정을 활용. 독립성 검정이 행과 열 변수의 독립 여부를 검정한다면, 동질성 검정은 각 행(또는 열)이 동질적인지를 검정함. | 카이제곱검정, 독립성 검정 | 2단계 | 가설검정 | ★★ | ||
중심극한정리 (CLT, Central Limit Theorem) | 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리. n은 통상적으로 30 이상일 때 적당히 크다고 판단하며, 다양한 추론 통계학 방법들을 사용하는 근거로 활용됨. | - | 1단계 | 확률과 기초통계 | ★★★★★ | O | O |
상관계수 (Correlation Coefficient) | 두 변수 사이 선형 관계의 정도를 수치적으로 나타낸 척도. 데이터의 측정 단위에서 무관하게 항상 -1에서 1 사이로 계산됨. 상관계수가 0이라면 두 변수의 선형 관계가 없다는 의미이며 1에 가까울수록 강한 양의 상관관계를, -1에 가까울수록 강한 음의 상관관계를 나타냄. 단, 상관계수는 선형 관계만을 측정하므로 상관계수가 0이라고 해서 두 변수 사이에 어떤 관계도 없다고 판단할 수 없음. 단위의 영향을 받는 공분산의 문제를 해소할 수 있는 척도이지만 이상값(Outlier)에 민감하다는 한계도 있음. | 공분산, 이상값 | 1단계 | 확률과 기초통계 | ★★★★★ | O | O |
A/B 테스트 (A/B Testing) | 두 개 또는 그 이상의 변형을 대조하는 실험 방법으로, 관심 대상인 처리(Treatment) 요인을 제외한 나머지가 같다고 볼 수 있는 동질 집단에 서로 다른 Treatment를 부여하여 효과의 차이를 검정하는 방법. 마케팅이나 웹(온라인)에서 유저의 반응에 따라 최적의 안을 선택하기 위해 많이 활용됨. 처리를 제외한 나머지 조건이 균등해야 하여 임의추출(SRS)을 많이 활용하고, 분석 과정에서 동질성을 검정하기도 함. | 처리, 임의추출, 실험계획법 | 2단계 | 확률과 기초통계 | ★★★★★ | O | O |
자유도 (DF, Degrees of Freedom) | 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 의미. (독립적으로 자유롭게 바뀔 수 있는 값의 수) 일반적으로 표본 수에서 제약조건의 수 또는 추정해야 하는 모수의 개수를 빼서 얻을 수 있음. 일부 확률분포는 자유도에 따라 분포의 모양이 결정됨. (ex. 카이제곱분포) | - | 1단계 | 분산분석,확률과 기초통계,회귀분석 | ★★★★ | O | |
독립성 (Independent) | 확률론에서는 한 사건이 일어날 확률이 다른 사건이 일어날 확률에 영향을 미치지 않는다는 의미. 데이터에서는 하나의 특성이 다른 요소에 영향을 미치지 않는다 (연관성이 없다)는 의미로도 많이 사용됨. | - | 1단계 | 확률과 기초통계,회귀분석 | ★★★★ | O | |
이상값,이상치 (Outlier) | 다른 자료와는 극단적으로 크거나 작은 관측값. 산점도나 상자도표 같은 시각화 방법 또는 ESD나 IQR을 활용한 기준치로 판단할 수 있음. 데이터 분석에서 이상값의 존재는 결과를 왜곡할 수 있기 때문에 전처리 및 탐색 과정에서 제거, 조정(치환) 등의 방법으로 처리하거나, 비모수적 방법으로 분석하는 것이 적절함. | 비모수 통계 | 1단계 | 확률과 기초통계 | ★★★★ | O | |
공분산 (Covariance) | 2개의 확률변수의 선형 관계를 나타내는 값. 하나의 값이 상승할 때 다른 값도 상승하는 선형 상관성이 있다면 양수의, 반대로 하나의 값이 상승할 때 다른 값이 하락하면 음의 값을 갖게 됨. 두 확률변수가 갖는 단위의 크기에 영향을 받을 수 있어서 단위의 효과를 제거한 상관계수를 더 많이 활용함. | 상관계수 | 2단계 | 확률과 기초통계 | ★★★ | ||
변동계수 (CV, Coefficient of Variation) | 표준편차를 평균으로 나눈 값으로, 측정의 단위와 무관하기 때문에 여러 데이터의 산포도(Dispersion)을 비교할 때 유용함. | 대푯값 | 1단계 | 확률과 기초통계 | ★★★ | ||
이항분포 (Binomial Distribution) | 서로 독립이며 확률이 p인 베르누이 시행을 n번 반복해서 시행했을 때, 성공한 횟수 X의 확률 분포. 이항분포의 기값은 시행 횟수 n 과 성공 확률 p를 곱한 np. | 베르누이 시행 | 2단계 | 확률과 기초통계 | ★★★ | ||
추론통계학 (Inferential Statistics) | 표본과 통계량을 이용하여 모집단의 특성을 추측하는 통계 방법론. 모집단의 특성을 확인하려면 모집단 전체의 데이터를 확보해야 하지만 비용,시간 등의 문제로 불가능한 경우가 많으므로 추론 통계학이 널리 이용됨. 도수 확률(Frequency Probability)을 이용하는 빈도주의와 사전 확률(Prior Probability)을 기반으로 하는 베이즈 추론의 두 학파가 있음. | 베이즈 통계학 | 1단계 | 확률과 기초통계 | ★★★ | ||
IID (Independent and Identically distributed) | 확률변수가 여러 개 있을 때 이들이 상호 독립적(Independent)이며, 모두 동일한 확률분포 (Identically distributed)라는 의미. 회귀분석을 포함한 많은 통계학의 방법에서 오차항이나 샘플링에 대해 IID를 가정함. IID 가정을 만족하지 못하는 경우 비모수 통계를 활용할 수 있음. | 독립성, 회귀분석 | 2단계 | 확률과 기초통계 | ★★★ | ||
임의추출,랜덤추출 (Simple Random Sampling, SRS) | 모집단에서 무작위로 표본을 추출하는 것으로, 각 데이터가 표본에 뽑힐 확률이 1/N로 같음. 계통 추출, 층화 추출 처럼 각 데이터가 표본에 뽑힐 확률이 다른 방법들과 구분되며, 가장 흔하게 이용되는 샘플링 방법. A/B 테스트에서 실험 집단을 동질하게 만들기 위해서도 많이 활용됨. | A/B 테스트 | 1단계 | 확률과 기초통계 | ★★★ | ||
MECE (Mutually Exclusive and Collectively Exhaustive) | 전체 집합을 중복되지 않고 누락되지도 않는 부분집합으로 생각해서, 각각의 합이 전체가 되게 하는 분석적 구조. 각각의 집합은 중복되지 않으며 (상호배제, Mutually Exclusive), 모든 집합을 합했을 때 전체에서 빠지는 것도 없어야(전체적으로 완전, Collectively Exhausitve) 함. 데이터를 통해 문제의 원인을 파악하는 과정에서 유용한 사고. | - | 1단계 | 확률과 기초통계 | ★★★ | ||
중앙값 (Median) | 평균과 함께 데이터의 중심을 나타내는 중심 경향치(Centroid)로 자주 사용되는 대푯값. 관측치를 크기순으로 나열했을 때, 한가운데 위치하는 값. 이상값에 민감하다는 평균의 한계를 보완할 수 있는 대푯값으로 데이터가 비대칭적이거나 이상값이 많을 때 유용함. 비모수 통계에서는 평균의 대안으로도 많이 활용. | 대푯값, 비모수 통계 | 1단계 | 확률과 기초통계 | ★★★ | ||
선택편향 (Selection Bias) | 편향(Bias)의 한 종류로, 표본이 모집단을 충분히 대표할 수 있도록 다양하게 추출되지 못하고 특정 집단에서 집중적으로 선택되면서 발생하는 편향을 의미. 층화 추출 등의 샘플링 방법을 활용하여 줄일 수 있음. 일반적으로 모수가 많은 경우, 임의추출을 활용하면 선택 편향은 발생하지 않는 것으로 기대함. | 임의추출 | 2단계 | 확률과 기초통계 | ★★★ | ||
통계량 (Statistic) | 표본 데이터를 이용해 계산하는 수치로, 모집단(Population)의 특성을 나타내는 모수(Parameter) 를 추정하는 과정에서 활용됨. 표본 통계량의 확률 분포를 표본 분포(Sampling Distribution)라고 함. | - | 1단계 | 확률과 기초통계 | ★★ | ||
베르누이 시행 (Bernoulli Trial) | 임의의 결과가 '성공' 또는 '실패'의 두 가지 중 하나인 실험을 의미. 성공 또는 실패가 동시에 나타나지 않으며, 각 시행은 독립적으로 다음 시행의 결과에 영향을 주지 않음. 대표적인 예시는 동전 던지기. 베르누이 시행에서 성공이 ‘1’, 실패가 ‘0’의 값을 가질 때 확률 변수 X의 분포를 베르누이 분포(Bernoulli distribution)라고 함. | 이항분포 | 1단계 | 확률과 기초통계 | ★★ | ||
불편추정량 (Unbiased Estimator) | 표본으로부터 모수를 추정하는 추정량(Esimator) 중에서, 추정량의 기댓값이 모수와 같은 경우(Unbiased) 이 추정량을 불편 추정량이라 함. 추정량의 기댓값이 모수와 다른 경우는 편향(Bias)이 있기 때문에 편의 추정량(Biased Estimator)라고 함. 일반적으로는 불편 추정량이 편의 추정량보다 모수의 추정에 적합함. | - | 1단계 | 확률과 기초통계 | ★★ | ||
기술통계학 (Descriptive Statistics) | 측정이나 실험에서 수집한 데이터의 정리, 요약, 해석, 표현 등을 통해 그 표본이나 데이터의 특성을 규명하고 설명하여 이해할 수 있도록 하는 통계적 방법론 | - | 1단계 | 확률과 기초통계 | ★★ | ||
사전 확률 (Prior Probability) | 특정 사상이 일어나기 전의 확률로 베이즈 추론에서 관측자가 관측을 하기 전에 가지고 있는 확률 분포. 사전 확률과 가능도(우도,Likelihood)가 주어지면 베이즈 정리를 통해 사후 확률을 얻을 수 있음. | - | 1단계 | 확률과 기초통계 | ★★ | ||
우도, 가능도 (Likelihood) | 확률 분포의 모수가, 어떤 확률변수 표본과 일관되는 정도를 나타내는 척도로 얼마나 그럴듯한 (가능성 높은)지를 확인할 수 있음. 주어진 표집값(표본)에 대한 모수의 가능도는 이 모수를 따르는 분포가 주어진 관측값에 부여하는 확률. 우도가 높은 통계량을 얻는 것은 모집단의 추론이라는 추론 통계학의 목표를 생각할 때 매우 중요함. | - | 1단계 | 확률과 기초통계 | ★★ | ||
기댓값 (Expected Value) | 어떤 확률 과정을 무한히 반복했을 때, 얻을 수 있는 값의 평균으로서 기대할 수 있는 값. 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값. | - | 1단계 | 확률과 기초통계 | ★★ | ||
대푯값 (Representative Value) | 어떤 데이터(표본)를 대표하는 값을 대푯값이라 함. 중심을 설명하는 값은 중심 경향치(Centroid)라 하며 대표적으로 평균, 중앙값, 최빈값 등을 들 수 있고, 자료의 값들이 흩어진 정도를 대표하는 산포도(Dispersion)에는 대표적으로 범위, 분산, 백분위수 등이 있음. 분포의 모양을 대표하는 왜도, 첨도 역시 빈번하지 않지만 종종 사용되는 대푯값. | 왜도, 첨도, 변동계수, 중앙값 | 1단계 | 확률과 기초통계 | ★★ | ||
조건부확률 (Conditional Probability) | 어떤 사건 A가 발생한(주어진) 상황에서 다른 사건 B가 일어날 확률. 일반적으로 사건 A에 대한 B의 조건부확률 P(A|B)과 사전 B에 대한 A의 조건부 확률 P(B|A)는 같지 않으나 착각하는 사람들이 많으며, 그 대표적 사례가 몬티홀 문제. | 베이즈 통계학 | 1단계 | 확률과 기초통계 | ★★ | ||
표준오차 (Standard Error) | 표본 분포의 표준 편차. 표준편차가 표본 데이터에서 각 값의 산포를 나타내는 대푯값이라면, 표준오차는 표준편차를 표본크기의 제곱근으로 나눈 것으로 표본이 커질수록 작아짐. | 대푯값 | 1단계 | 확률과 기초통계 | ★ | ||
왜도 (Skewness) | 자료의 비대칭적인 분포 정도를 표현하는 대푯값으로 왜도가 0이면 좌우가 대칭인 분포를 의미함. 왜도가 큰 양수일수록 우측 꼬리가 길어지므로 우측에 더 많이 퍼지고 음수일수록 좌측 꼬리가 긴 분포를 나타냄. | 대푯값 | 1단계 | 확률과 기초통계 | ★ | ||
첨도 (Kurtosis) | 분포의 꼬리가 두꺼운 정도 (얼마나 뾰족한지의 정도)를 나타내는 대푯값. 관측값이 얼마나 중심에 몰려있는지 또는 퍼져있는지 측정할 때 사용. 3에 가까우면 정규분포와 같은 모양을 가지며, 3보다 크면 정규분포보다 꼬리가 두꺼운 분포를 갖게 됨. | 대푯값 | 1단계 | 확률과 기초통계 | ★ | ||
복원추출 (Sampling with Replacement) | 한번 추출된 표본을 되돌려 넣고 다음 표본을 추출하는 방법. 동일한 표본은 중복으로 선택될 수 있으며, 표본이 한번 선택되어도 다시 복원되기 때문에 추출될 확률은 같음. 모집단의 크기와 추출하려는 표본의 수나 비중에 따라 편향을 줄이기 위해 사용. | 비복원추출 | 1단계 | 확률과 기초통계 | ★ | ||
비복원추출 (Sampling without Replacement) | 한번 추출된 표본은 되돌려 넣지 않고 다음 표본을 추출하는 방법. 표본을 추출할 때마다 나머지 표본들의 추출 확률이 변화하는 점이 복원추출과 차이. | 복원추출 | 1단계 | 확률과 기초통계 | ★ | ||
주성분분석 (PCA, Principal Component Analysis) | 고차원의 데이터를 저차원의 데이터로 환원시키는 기법으로, 선형 연관성이 있는 데이터를 서로 선형 연관성이 없는 직교 데이터로 변환하게 됨. 원래 데이터에서 독립변수 간의 다중공선성이 발견된 경우 주성분분석을 활용하는 경우가 많음. | 차원축소, 다중공선성 | 2단계 | ML모델링,회귀분석 | ★★★★★ | O | O |
결정계수 (R-squared, Coefficient of determination) | 추정된 선형 모형이 얼마나 전체 데이터에 대해서 설명력이 있는지를 수치로 표현한 척도. 종속변수의 변동성 중 독립변수로 설명되는 변동의 비율. 0에서 1사이의 값을 갖게 되며, 1에 가까울수록 설명력이 강함. | 독립변수 | 1단계 | 회귀분석 | ★★★★★ | O | O |
다중공선성 (Multicollinearity) | 회귀분석에서 독립변수들 사이에 강한 상관관계가 나타나는 문제. 회귀분석의 가정을 위배하는 것이기 때문에 분석을 시행/활용하기 전에 해결해야 하는 문제. 독립변수들 간의 상관계수를 구하거나 산점도로 발견하거나 분산 팽창 요인(VIF)을 통해 판단함. 다중공선성을 해결할 때는 변수 선택법을 통해 독립변수를 줄이거나, 주성분 분석(PCA) 등의 차원 축소 방법이 많이 사용됨. | 상관관계, 독립변수, 차원축소, 주성분분석, 전진선택법, 후진제거법, 단계적방법 | 2단계 | 회귀분석 | ★★★★★ | O | O |
최소제곱법 (Least Squares Method) | 관측된 데이터와 평균의 오차를 제곱해서 더한 제곱합이 가장 작아지도록 모형을 만드는 방법. 선형회귀분석에서는 가능한 여러 직선들 중 관측 데이터에 가장 가까운 (오차합이 적은) 공식을 찾는 방법. | - | 1단계 | 회귀분석 | ★★★★ | O | |
수정 결정계수 (Adjust R-squared) | 일반적인 결정 계수에서는 유의미하지 않은 변수가 모형에 추가되어도 항상 증가한다는 문제가 있음. 따라서 변수의 개수를 고려하여 상대적인 설명력을 보여주는 척도로 수정 결정 계수가 제안됨. 여러 모형을 비교하는 기준으로 활용. | 결정계수 | 2단계 | 회귀분석 | ★★★★ | O | |
정규성 (Normality) | 회귀 모형에서 예측값과 실제 관측값의 오차인 잔차는 정규분포를 따른다고 가정하는데, 이를 만족하는지를 의미함. 정규성 여부는 보통 QQ Plot을 사용하여 진단하며, 충족하지 못할 경우 이상치 제거나 데이터 변환 등을 통해 해결하고 분석을 진행. | 이상값 | 2단계 | 회귀분석 | ★★★ | ||
회귀계수 (Regression Coefficient) | 회귀 모형에서 독립변수가 종속변수에 미치는 영향을 나타내는 값. 회귀계수의 부호에 따라 두 변수의 관계가 양인지 음인지 판단할 수 있음. 특정 독립변수의 회귀계수 크기는 다른 독립변수가 동일할 때 해당 독립변수가 종속변수에 대한 영향을 의미함. 단, 이 크기는 해당 변수의 통계적 유의성이 확인된 경우에 실질적인 의미를 가진다고 볼 수 있음. | 독립변수, 종속변수 | 1단계 | 회귀분석 | ★★★ | ||
전진선택법 (Forward Selection) | 변수 선택 방법 중 하나로, 아무 독립변수가 없는 모형에서 시작해 가장 성능이 좋은 (유의미한, 설명력이 강한) 변수를 추가하는 방식으로 모형을 완성하는 방식. 더 이상 추가할 유의미한 변수가 없을 때까지 반복적으로 실행. | 독립변수, 결정계수 | 2단계 | 회귀분석 | ★★ | ||
후진제거법 (Backward Elimination) | 변수 선택 방법 중 하나로, 전진 선택법과 달리 확보한 모든 변수가 모형에 포함된 상태로 시작해 변수를 하나씩 제거하는 방식. 유의미한 모형의 성능 저하가 관찰될 때까지 가장 설명력이 낮은 변수를 제거함. | 독립변수, 결정계수 | 2단계 | 회귀분석 | ★★ | ||
단계적방법 (Stepwise Selection) | 변수 선택 방법 중에서 전진 선택과 후진 제거의 한계를 보완하는 방식. 두 가지 방법 모두 한번 추가/제거된 변수는 다시 고려되지 않으므로 최적의 조합을 찾기 어렵다는 단점이 있음. 단계적 방법은 매 단계마다 추가/제거를 반복함. 시간은 더 오래 걸리지만 최적의 모형을 찾을 확률이 높음. | 독립변수, 결정계수 | 2단계 | 회귀분석 | ★★ | ||
더미변수 (Dummy Variable) | 범주형 척도인 독립변수를 모형에서 활용할 수 있는 수치형 변수로 변환하기 위해 0과 1로 치환한 이진 변수. | 독립변수 | 2단계 | 회귀분석 | ★★ | ||
평균제곱오차 (MSE, Mean Squared Error) | 예측 모델의 성능을 평가하는 척도 중 하나로, 실제 관측값과 모형이 예측한 값의 차이(Error)를 제곱하여 예측 정확성을 측정하는 것. 오차 제곱합을 전체 데이터의 개수 n으로 나눠서 계산하며 예측하는 Y값이 연속형이 경우에 주로 MSE가 사용됨. | - | 1단계 | ML모델링,회귀분석 | ★★ | ||
등분산성 (Homoscedasticity) | 분산이 동일한지를 의미하는데 일반적으로 회귀분석을 포함한 다양한 통계 분석 방법에서 가정으로 요구되는 “잔차의 분산이 동일한지”를 나타냄. 예측값에 대한 잔차를 그린 Residual Plot으로 확인할 수 있음. 등분산성이 위배된다고 판단되면 기본 가정을 만족하지 못하므로 정규화나 이를 해소할 수 있는 분석 방법을 고려해야 함. | - | 1단계 | 회귀분석 | ★ | ||
처리 (Treatment) | 각 실험 단위에서 특정한 실험 조건을 의미하며 분산분석 등의 통계적 가설 검정에서는 비교하려는 요인을 의미. 인종에 따른 신장 차이를 검정하려는 경우, 인종이 처리가 됨. A/B 테스트에서는 처리를 제외한 요소를 최대한 동질적으로 유지한 각 집단의 비교로 처리 효과를 확인함. | A/B 테스트 | 1단계 | 가설검정,분산분석 | ★★★★ | O | |
상호작용 (Interaction) | 종속변수에 영향을 미치는 2개 이상의 독립변수가 있는 경우 각각이 미치는 주 효과 (Main Effect) 외에 독립변수의 조합에서 생기는 상호작용이 유의미하게 존재하는지 유의하게 해석하여 모형에 포함시켜야 함. 요인이 2가지인 이원 분산분석에서 고려해야 함. | 독립변수, 종속변수, 이원분산분석 | 2단계 | 분산분석 | ★★★★ | O | |
사후비교, 다중비교 (Post-hoc Analysis, Multiple Comparisons) | 주로 분산분석에서 귀무가설이 기각되었을 때, 실제 평균 차이가 어떤 집단의 쌍에서 확인되는지 밝히기 위해 시행하는 추가적인 분석 방법. 모든 집단의 평균이 같다는 귀무가설이 기각되더라도, 실제로 평균값이 유의미하게 다른 집단을 확인해야 하기 때문에 분산분석에서는 필수적으로 이어져야 함. 튜키(Tukey’s HSD), 셰페(Scheffe) 등의 방법이 널리 사용. | 귀무가설 | 2단계 | 분산분석 | ★★★ | ||
실험계획법 (Design of Experiments, DOE) | 효율적으로 실험을 설계하고, 결과를 분석하기 위한 통계학의 응용분야. 검증하려는 가설에 맞게 실험 환경과 도구를 설정하고 적절한 할당(또는 표본추출), 가설 검정을 통해 실험으로 확인하고자 하는 처리(Treatment)의 효과를 판단함. 가설에 맞는 실험 계획이 이루어지지 않은 실험에서 얻은 데이터로는 의미 있는 판단을 내리기 어렵기 때문에 A/B 테스트에서도 실험 계획은 매우 중요한 단계임. | A/B테스트, 처리 | 2단계 | 분산분석 | ★★ | ||
자기상관 (Autocorrelation) | 시계열 데이터에서 현재 값과 이전 시간의 값 사이의 상관관계를 의미. 시차만 다른 동일한 데이터에 존재하는 상관관계이므로 ‘스스로’, ’자기자신의’라는 의미의 auto-를 붙임. 더빈 왓슨 통계량을 통해 자기 상관의 존재를 확인할 수 있음. | 상관계수 | 2단계 | 시계열분석 | ★★★★ | O | |
이동평균 (Moving Average) | 전체 데이터 집합에서 연속된 일련의 데이터 평균을 만들어내는 계산으로 롤링 평균(Rolling Mean)이라고도 함. 동일한 가중치가 적용되는 단순 이동평균의 대표적 사례는 주식시장에서 n일 동안의 주식 종가로 계산한 것. | - | 1단계 | 시계열분석 | ★★★ | ||
계절성 (Seasonality) | 데이터에서 특정한 시기(명절, 이벤트), 주, 특정 요일 등에 나타나는 패턴을 뜻함. 예를 들면 한국의 월별 기온은 계절에 따라 변화하는 계절성을 지님. 계절성 요소를 제거하거나 완화하는 방식을 활용해 모형의 예측 정확도를 높일 수 있음. | 주기성 | 1단계 | 시계열분석 | ★★★ | ||
지수평활법 (Exponential Smoothing) | 시계열 데이터에서 최근 관측값에 더 많은 가중치를 부여하고 현 시점에서 멀어질수록 낮은 가중치를 주는 방식으로 지수적으로 과거 비중을 줄여 예측을 부드럽게 하는 방식. 뚜렷한 추세가 있는 경우 추세를 고려한 모형이 더 적합함. | 추세 | 2단계 | 시계열분석 | ★★ | ||
추세 (Trend) | 데이터가 증가하거나 감소하는 경향. 선형적이거나 비선형(곡선) 형태의 추세가 모두 가능하며 장기적인 방향성을 나타냄. 이동평균 (Moving Average) 등을 통해 변동을 완화하고 추세를 추정하거나 명확하게 표현할 수 있음. | 이동평균 | 1단계 | 시계열분석 | ★★ | ||
주기성 (Cyclicity) | 장기적인 증가 또는 감소의 경향으로, 계절성과 유사하지만 계절성의 반복 주기가 주, 월, 계절 등으로 뚜렷한 것과 달리 더 긴 주기로 발생하는 패턴. 경제 성장과 하락의 주기나 인구통계학적 세대의 주기 등이 해당됨. | 계절성 | 1단계 | 시계열분석 | ★★ | ||
과적합 (Overfitting) | 머신러닝에서 학습 데이터(Training Data)를 과하게 학습해 오차가 굉장히 적어지는 현상. 학습 데이터에 대해서는 좋은 성능을 보이지만 새로운 데이터에 대해서는 좋은 설명력을 갖지 못하므로 모형을 일반화하여 사용하기 어려움. 차원 축소나 정규화, 교차 검증 등을 시도하여 해결해 볼 수 있음. | 차원축소, 과소적합 | 2단계 | ML모델링 | ★★★★★ | O | O |
앙상블 기법 (Ensemble Model) | 더 좋은 예측 성능을 위해 한 개의 모형이 아니라 여러 개의 모형을 함께 사용하여 성능을 향상시키는 기법. 흔히 집단지성으로 비유하는 경우가 많음. 여러 모형이 예측한 값의 평균 또는 투표의 방법으로 최종 예측값을 도출하는 방법을 사용. | 부스팅, 배깅, 랜덤포레스트 | 1단계 | ML모델링 | ★★★★★ | O | O |
협업 필터링 (Collaborative Filtering) | 다수의 사용자 데이터를 활용하여 사용자가 좋아할 만한 대상을 예측하는 방법으로, 데이터에서 확인된 과거의 선호 경향이 미래에도 유지될 것이라는 전제에 따름. 유저 기반의 협업 필터링과 아이템 기반의 협업 필터링으로 나뉠 수 있으며 많은 추천 시스템의 근간이 되었던 방법. | - | 1단계 | ML모델링 | ★★★★ | O | |
손실함수 (Loss Function) | 지도학습에서 실제 결과(정답)와 모형에서 추정된 추정값의 차이를 최소화하도록 정의하는 함수. 손실(Loss)을 최소화하는 방향으로 모형이 학습되도록 하는데 사용하며, 가장 직관적인 손실 함수의 예시는 평균제곱오차(MSE). | 평균제곱오차, 지도학습 | 2단계 | ML모델링 | ★★★★ | O | |
차원축소 (Dimensionality Reduction) | 데이터가 가진 차원(변수)의 개수를 줄이면서 모형의 성능을 최대한으로 유지하는 방법. 고차원 데이터일 때 발생하는 비용이나 시간, 과적합, 설명과 시각화의 어려움 등의 문제를 해결하기 위해 사용됨. | 과적합, PCA, 다중공선성 | 2단계 | ML모델링,회귀분석 | ★★★★ | O | |
부스팅 (Boosting) | 배깅(Bagging)처럼 동일하게 복원 랜덤 샘플링을 하지만, 가중치를 부여하는 것이 가장 큰 차이. 배깅에서는 병렬로 (동시에) 학습하는 반면, 부스팅은 순차적으로 학습시키면서 이전 학습에서 예측을 실패한 데이터에 더 큰 가중치를 부여하면서 점점 모형 성능을 개선하려고 함. 성능은 배깅보다 우수하나 학습 속도가 느리고, 이상값이나 과적합에서는 한계를 갖게 됨. AdaBoost, XGBoost가 대표적인 예. | 앙상블 기법, 배깅, 과적합, 복원추출 | 2단계 | ML모델링 | ★★★★ | O | |
배깅 (Bagging) | Boostrap Aggregating의 약어로 데이터를 가방(Bag)에 쓸어 담고 복원 추출로 여러 개의 표본을 만들면서 각 모형을 학습시키고, 예측 결과들을 투표해서 최종 예측값을 도출함. 학습 데이터가 적을 때 복원 추출로 다양한 표본을 만들 수 있어 유용하며 효율을 높일 수 있음. | 앙상블 기법, 부스팅, 복원추출 | 2단계 | ML모델링 | ★★★★ | O | |
랜덤포레스트 (Random Forest) | 분류나 회귀분석에 사용되는 앙상블 기법의 일종으로, 여러 개의 의사결정 나무 모형 결과를 활용하여 최종 예측/분류의 판단을 내리는 방식. 여러 모형을 종합한 결과이기 때문에 월등히 높은 정확성을 보이며 학습이 간편하고 빠르기 때문에 많이 활용됨. | 앙상블 기법, 분류분석, 회귀분석 | 2단계 | ML모델링 | ★★★★ | O | |
F1 Score | 정밀도(Precision)와 민감도(=재현율)의 조화평균으로 계산되는 분류 모형의 성능 평가 지표. 두 측정 방식을 모두 고려한 성능 평가가 가능하며, 데이터의 비율이 매우 불균형한 경우에도 합리적인 평가 지표가 될 수 있음. 0과 1 사이의 값을 가지며 1에 가까울수록 모형의 성능이 좋다고 판단할 수 있음. | 분류분석, 민감도, 정밀도 | 2단계 | ML모델링 | ★★★★ | O | |
K-means 클러스터링 (K-means Clustering) | K개의 중심점(Centroid)을 기반으로 K개의 군집(Cluster)으로 데이터를 구분하는 방법으로 정답이 없는 비지도 학습의 일종. 유사한 데이터들을 하나의 그룹으로 묶어주는 것이 목적. 군집별 중심점을 찾고, 이를 기준으로 데이터를 군집으로 분류한 뒤 다시 중심점을 계산하는 과정을 더 이상 중심점이 바뀌지 않을 때까지 반복함. 직관적이고 각 데이터의 거리만을 활용하기에 계산이 편하고 빠른 장점이 있으나, 초기값의 랜덤 선택의 영향이 크고 이상값(Outlier)에 민감하다는 문제도 있음. | 비지도학습, 이상값 | 2단계 | ML모델링 | ★★★ | ||
민감도 (Sensitivity) , 재현율 (Recall) | 실제 양성(Positive) 중에서 모형이 양성(Positive)으로 예측한 비율. 양성을 얼마나 민감하게 잘 분류해 내는지를 나타내는 척도. 양성을 음성으로 잘못 판단할 경우 위험도나 비용이 높은 문제에서는 민감도를 중요한 모형 평가 기준으로 활용함. 암과 같은 질병의 진단 문제에서는 실제 환자를 문제가 없다고 판단하면 위험하기 때문에 민감도가 중요할 수 있음. 재현율이라고도 함. | 분류분석, 특이도, F1 Score | 1단계 | ML모델링 | ★★★ | ||
특이도 (Specificity) | 실제 음성(Negative)을 모형이 정확하게 예측한 비율. 음성을 양성으로 잘못 판단하는 거짓 긍정(FP, False Positive)의 비용이나 위험이 큰 문제에서는 특이도가 중요한 평가 지표가 됨. 예를 들어, 스팸메일을 분류하는 문제에서는 스팸메일(양성)을 발견하는 것만큼 정상 메일을 잘 통과시키는 것도 중요할 수 있음. 일반적으로 민감도와 특이도 사이에서 Trade-off가 있기 때문에 모형의 목적에 적합한 평가 지표를 활용해야 함. | 분류분석, 민감도 | 1단계 | ML모델링 | ★★★ | ||
정확도 (Accuracy) | 분류 모형이 예측(분류)한 값이 실제 정답을 얼마나 잘 예측했는지 나타내는 척도로 전체 데이터 중 예측이 정확한 데이터의 비율. 코로나 진단 키트를 예로 들면 전체 진단 수 중에서 음성은 음성으로, 양성은 양성으로 정확히 맞춘 비율을 의미. 아주 간단한 분류 모형의 성능 평가 지표지만, 데이터가 불균형한 경우에는 의미 있게 모형을 평가하지 못하기 때문에 F1 Score나 다른 지표를 대안으로 사용함. | 분류분석, F1 Score | 1단계 | ML모델링 | ★★★ | ||
과소적합 (Underfitting) | 머신러닝에서 모형의 성능이 부족하여 학습 데이터(Training Data)를 충분히 설명하지 못하도록 학습된 것을 의미. 학습 데이터를 과하게 학습한 과적합(Overfitting)과 반대되는 상황. 과소적합의 경우 모형을 의미 있게 쓰기 어려우므로 변수나 데이터를 추가, 복잡한 모형 적용, 앙상블 기법 사용 등을 검토. | 머신러닝, 과적합, 앙상블 기법 | 1단계 | ML모델링 | ★★ | ||
정밀도 (Precision) | 모형이 양성으로 예측한 값 중에서 실제 양성인 값의 비율. 코로나 진단 키트에서는 양성으로 나온 환자 중 실제 양성의 수를 의미. 민감도(=재현율)와 함께 정확한 양성 분류(True Positive)를 측정하는 지표지만 비율을 계산하는 기준(분모)이 다름. 두 가지를 결합한 F1 Score도 많이 활용됨. | 분류분석, 민감도, F1 Score | 1단계 | ML모델링 | ★★ |


