PCA & LDA

태그

전처리

출처

안녕하세요! 오늘은 차원 축소 알고리즘 중 PCA 와 LDA에 대해 알아보겠습니다. 1. 차원 축소란? 2. PCA 3. LDA 차원 축소는 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성 하는 것입니다. 일반적으로 차원이 증가할수록 데이터 간의 거리가 기하급수적으로 증가하기 때문에 희소한 구조를 가지게 되고 모델의 예측 신뢰도가 떨어지게 됩니다.

https://casa-de-feel.tistory.com/19

[ 핸즈 온 머신러닝 2 ] 차원 축소란? (Dimension Reduction)

특성(feature)은 얼핏 보면 데이터의 다양한 측면을 보여주기 때문에 많을 수록 좋은 것 같습니다. 실제로 우리가 마주하는 머신러닝 문제에서는 Training set의 feature가 수백만 개까지 가지고 있는 경우가 있습니다. 그러나 이런 많은 특성은 훈련을 느리게 하기도 하고, 때론 좋은 솔루션을 찾는데 방해하기도 합니다. 우리는 이를 차원의 저주(curse of dimensionality) 라고 합니다.

https://box-world.tistory.com/61

1. 개요

크게 불필요한 변수를 제거하는 변수 선택, 변수 정보를 잘 담은 새로운 변수를 추출하는 변수추출이 있다. 변수추출 방법으로 차원축소를 하는 기법에는 PCA와 LDA가 있다. PCA는 입력데이터의 공분산 행렬을 고유값 분해하여 정보를 잘 담고 있는 고유벡터에 투영하여 차원 축소를 한다. LDA도 데이터의 정보를 잘 담은 방향으로 저차원 공간에 투영하여 축소하나, 분류 학습을 위해 개별 클래스를 분별할 수 있는 기준을 유지하며 차원 축소를 한다.

2. PCA(Principal Component Analysis)

여러 변수 간에 존재하는 상관관계를 이용해 이를 대표하는 주성분을 추출해 차원을 축소하는 기법이다. 데이터를 축에 사영했을 때 가장 큰 분산을 가지는 데이터의 축을 찾아 그 축으로 차원을 축소하는데, 이 축을 주성분이라고 한다. 큰 분산을 가지는 축은 그만큼 원래 데이터의 분포를 잘 설명할 수 있다는 것이고, 이는 정보의 손실을 최소화해준다.

•

입력 데이터의 공분산 행렬을 고유값 분해하여, 그때 구해진 고유벡터가 PCA의 주성분 벡터이고 입력데이터의 분산이 큰 방향을 알 수 있다. 고유값이 고유벡터의 크기와 입력 데이터의 분산을 나타낸다.

•

분류 예측 정확도는 PCA 변환 차원 개수에 따라 달라질 수밖에 없다.

•

주성분을 몇개로 할 것인지에 대한 명확한 기준은 없으며, elbow plot으로 정하기도 한다.

•

원본 데이터를 최대한 그대로 차원축소를 한다고 분류 또는 예측을 잘하는 방향으로 차원축소를 하는 것은 아니다. (분류/예측에 영향을 끼치지 않는 변수가 많이 반영된 차원 축소일 경우)

3. LDA(Linear Discriminant Analysis)

PCA와 유사하게 데이터를 저차원 공간해 투영하는 차원 축소 기법이지만, 분류 학습을 위해 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소한다. 투영 후에 클래스 간 분산은 최대한 크게 클래스 내부의 분산은 최대한 작게 만들어 각 클래스 간 중심이 서로 멀어지도록 분류한다. 분류 학습을 최적화하는 피쳐 부분공간을 찾아 경계에 따라 데이터를 분류한다. PCA와 달리 분류 알고리즘에 사용할 수 있다.