/////
Search
Duplicate
🔢

통계 및 수학 질문

목차

고유값과 고유벡터

벡터에 행렬 연산을 취했을 때 크기만 변하고 방향은 그대로인 벡터를 고유벡터, 변한 크기를 고유값이라고 한다
자세한 설명

샘플링과 리샘플링

샘플링모집단에서 임의의 표본들을 뽑아내는 것으로 표본 추출을 의미한다.
리샘플링은 말 그대로 샘플링을 다시 수행하는 것이다. 이 때 샘플링을 수행하는 대상은 원래의 샘플 즉, 표본이다.
자세한 설명

확률변수와 확률모형

확률변수확률로 표현하기 위한 event를 정의하는 것이다.
확률모형불확실성을 확률로써 계량하기 위해 확률함수로써 수학적으로 만든 모형이다.
자세한 설명

공분산과 상관계수

공분산(covariance)각 확률변수들이 어떻게 퍼져있는지를 나타내는 값이라고 해석할 수 있다.
상관계수공분산을 각각의 확률변수의 분산들의 곱을 제곱근한 것으로 나누어준 것이다.
자세한 설명

상관관계와 인과관계

상관관계가 있다고 인과관계가 있는 것은 아니다.
상관관계2개의 변수가 선형 관계가 있는 범위를 표현하는 통계적 측도(measure). 데이터의 원인과 결과는 설명할 수 없다. 선형인 아닌 비선형 관계는 상관관계로 설명할 수 없다.
자세한 설명

베르누이 분포 / 이항 분포 /정규분포

베르누이 분포는 0 또는 1 두가지만 가질 수 있는 베르누이 확률변수의 분포이다.
이항 분포: 성공 확률이 p인 독립인 베르누이 시행을 n번 반복했을 때, n번 중 성공 횟수를 확률변수 X라고 한다면, 이 확률변수 X의 분포가 이항분포이다.
정규분포:
자세한 설명

포아송 분포 / 지수 분포/감마 분포 / 베타 분포

포아송 분포: 단위 시간이나 단위 공간에서 무작위로 발생하는 사건의 발생횟수의 분포이다.
지수 분포: 발생횟수가 포아송 분포를 따르면, 사건 사이의 대기 시간은 지수분포를 따른다. (사건이 일어나고 그 다음에 그 사건이 또 일어날 때까지 걸리는 시간)
감마 분포: 발생횟수가 포아송을 따를 때, x개의 사건이 일어날 때까지 걸리는 대기 시간에 대한 분포
어떤 사건이 일정 간격 동안 발생 횟수의 평균이 1β\frac{1}{\beta}로 주어질 때, α\alpha번 발생했을 시간(대기 시간)에 대한 확률 분포
베타 분포:
자세한 설명

검정력(statistical power)

검정력이란 귀무가설(H0)이 기각되어야 할 때 귀무가설이 올바르게 기각될 확률로, 대립가설(H1)이 사실일 때, 이를 사실로서 결정할 확률과 같다.
자세한 설명

유의확률(P-value)과 유의수준

유의확률(P-value)이란 귀무가설이 참이라는 가정 하에서 관측한 값보다 극단적인 값을 얻을 확률로 이를 활용해 통계 검정을 수행할 수 있다. p-value가 1종 오류의 상한을 의미하는 유의수준보다 작을 경우 귀무가설을 기각한다. 하지만 샘플 수가 늘어날수록 p-value가 작아지는 경향이 있고, p-value 기준으로는 통계적으로 유의한 차이라고 말할 수 있지만 실질적으로 받아들이기 어려운 상황(2천만 명으로 구성된 두 집단 간의 차이가 10명 안팎인데도 p-value가 작은 경우)이 존재할 수 있기 때문에 무조건적으로 신뢰하는 것은 바람직하지 않다.
자세한 설명

가능도(likelihood)와 확률(probability)

가능도(likelihood)주어진 관측값이 해당 확률분포에서 나왔을 가능성을 의미한다. 이와 달리 확률(probability)주어진 확률분포에서 해당 관측값이 나올 가능성을 의미한다.
자세한 설명

이상치(Outlier) 판단 기준

이상치란 대부분의 값들의 범위에서 크게 벗어난 값을 의미한다.
이상치를 판단하는 기준은 z-score, IQR(Interquantile Range), Isolation Forest, DBScan 방식들이 있다.
자세한 설명

신뢰구간(Confidence Interval)

신뢰구간(Confidence Interval)이란 모수가 실제로 포함될 것이라고 예측되는 범위이다.
자세한 설명

Bayesian과 Frequentist

Frequentist모수가 확률이 없는 고정된 상수로 생각하고, Bayesian모수를 확률변수로 본다.
Frequentist는 확률을 장기적으로 일어나는 사건의 빈도라고 주장하고, Bayesian은 확률은 사건 발생에 대한 믿음 또는 척도라고 생각한다.
자세한 설명

표본의 크기 결정

표본 평균이 어떤 분포를 따른지에 따라 달라진다.
정규 분포를 따르는 경우 n=z2σ^2d2n = z^2 \frac{\hat{\sigma}^2}{d^2}
이항 분포를 따르는 경우 n=z2p^(1p^)d2n = z^2 \frac{\hat{p}(1-\hat{p})}{d^2}
자세한 설명

로그(Logarithm)를 쓰는 이유

데이터에 로그를 취해주는 이유는 큰 값을 같은 비율의 작은 값으로 바꿔 복잡한 계산을 간편하게 만들어주고, 편차를 줄여주기 때문이다.
자세한 설명

조건부 확률은 무엇인가요?

조건부 확률하나의 사건이 이미 발생한 상황에서, 다른 사건이 발생할 확률이다.
자세한 설명