목차
PCA
PCA란 분포된 데이터들의 주성분(Principal Component)을 찾아주는 방법이다. 주성분은 그 방향으로 데이터들의 분산이 가장 큰 방향벡터를 의미한다.
자세한 설명
L1 정규화, L2 정규화
정규화란 모델 복잡도에 대한 일종의 패널티로, Overfitting 을 예방하고 Generalization(일반화) 성능을 높이는데 도움을 준다. 딥러닝의 Regularization 방법으로는 L1 Regularization, L2 Regularization, Dropout, Early stopping 등이 있다.
자세한 설명
차원의 저주
데이터(n×p)의 차원이 증가함에 따라 데이터 개수(n)가 차원의 크기(p)보다 작아져 학습 효율이 떨어지는 현상을 의미한다.
자세한 설명
Local Minima와 Global Minima
어떤 목적함수(loss/cost function)을 최소하는 모수를 찾고 싶을 때, 그 식의 최소값이 Global Minima이다. 하지만, 식이 최적화되지 않거나 복잡할 때 gradient descent와 같이 iteration하게 최소값을 찾을 수 있는데, 이때 Global Minima가 아닌 식이 계산되는 로컬에서의 최소값일 수 있다. 이를 Local Minima라고 부른다.
•
Local Minima에 빠지지 않게 하는 최적화 대안이 있는가 (면접가능질문→설명 참고)
자세한 설명
Random Forest
Decision Tree 기반 모델에 Bagging을 적용한 앙상블 모델이다. 이 때 각각의 Tree는 전체 feature에서 랜덤하게 일부를 골라 학습하기 때문에 feature 간 correlation이 높더라도 어느 정도 상쇄되는 효과가 있다.
자세한 설명
AdaBoost
Decision Tree 기반 모델에 Boosting을 적용한 앙상블 모델이다.
자세한 설명
GBM(Gradient Boosting Model)
Gradient Descent 기법을 적용해 weight를 업데이트해 AdaBoost를 개선한 모델이다.
자세한 설명
Xgboost
GBM을 병렬 학습할 수 있도록 개선한 모델이다.
자세한 설명
LightGBM
Leaf-wise 방식으로 Tree를 분할해 Xgboost의 속도와 메모리 사용량을 개선한 모델이다.
자세한 설명
Naive Bayes
나이브 베이즈(Naive Bayes) 방식은 베이즈 정리를 이용하여 특정 변수들이 주어졌을 때 어떤 결과가 나올 확률을 구하여 분류를 진행한다.
자세한 설명
Markov Chain을 고등학생에게 설명하려면 어떤 방식이 제일 좋을까요?
Markov Chain이란 미래(t+1)에 특정 사건이 일어날 확률이 현재(t)에만 의존하는 확률과정을 의미한다.
자세한 설명
Bias-Variance Trade-off
머신러닝에서
Bias는 모델을 통해 얻은 예측값과 실제 정답간의 차이의 평균을 나타낸다.
Variance는 다양한 데이터 셋에 대하여 예측값이 얼만큼 변화할 수 있는지에 대한 양을 나타낸다. (예측값이 얼만큼 퍼져서 다양하게 출력될 수 있는지를 나타냄)
일반적으로 둘은 trade-off 관계에 있어서 한 쪽을 낮추면 한 쪽이 올라간다.
자세한 설명
Decision Tree
종속변수의 연속형변수는 오차 제곱합, 범주형 변수는 불순도를 가장 최소화하는 방법으로 독립변수 영역을 두개로 나눈다(가지치기, pruning를 한다). 이 과정을 재귀적으로 반복하는데, max depth(언제까지 가지를 내릴 것인지), leaf_node(말단노드수), min_split(최소 몇개의 데이터가 되면 가지치기를 멈출 것인지) 등의 하이퍼 파라미터를 이용해 모형을 fitting 한다.
자세한 설명