////
Search

PCA(상세)

태그
전처리
목차
출처

1. PCA(Principal Component Analysis) 정의

PCA분포된 데이터들의 주성분(Principal Component)를 찾아주는 방법이다.
PCA는 데이터 하나 하나에 대한 성분을 분석하는 것이 아니라 여러 데이터가 모여 하나의 분포를 이룰 때 이 분포의 주성분을 분석해주는 방법이다.
그리고 주성분그 방향으로 데이터들의 분산이 가장 큰 방향벡터를 의미한다.
데이터들의 분산이 크다는 것은 데이터에 대한 정보가 그만큼 많다는 것을 의미한다.
어떠한 한 학급을 예로 들어보자. 어떤 학급을 분석할 때 나이와 키 중에 어떤 것이 더 의미가 있을까? 물론 학교를 조금 일찍 들어가거나 늦게 들어가는 것 등의 이유로 인해 학생들의 나이가 조금씩 차이는 있을 수 있지만 대부분 같은 나이일 것이다. 그렇지만 키는 굉장히 다양하게 분포되어 있을 가능성이 높다. 즉, 분산이 큰 것이다. 이러한 점에서 데이터는 분산이 작은 것보다 클 때 정보량이 더 많은 것을 알 수 있다.

2. PCA의 계산

PCA를 알기 위해서는 먼저 공분산 행렬(Covariance Matrix)에 대해서 알아야 한다.
우선 x와 y의 공분산(Covariance)은 다음과 같이 정의된다.
이 때 mx,mym_x, m_y는 각각 x와 y의 평균.
그리고 공분산 행렬이란 데이터의 좌표 성분들 사이의 공분산 값을 원소로 하는 행렬로서 데이터의 i번째 좌표 성분과 j 번째 좌표 성분의 공분산 값을 행렬의 i행 j열 원소값으로 하는 행렬이다.
그리고 PCA는 입력 데이터들의 공분산 행렬에 대한 고유값분해라고 볼 수 있다. 이 때 나오는 고유벡터가 주성분 벡터로서 데이터의 분포에서 분산이 큰 방향을 나타내고, 대응되는 고유값이 그 분산의 크기를 나타낸다.

3. PC 선정방법

보편적인 규칙은 없고, 경험에 의한 법칙만 있다.
1.
설명된 분산의 축척 비율이 적어도 80% 이상이어야 한다.
2.
scree plot에서 elbow 지점이 존재하면 그 지점 이전까지의 PC들을 선택한다.
3.
개별 고유값이 1이상인 주성분을 고르는 것이 좋다.