목차
개요
Fine Classing과 Coarse Classing은 변수 선택 및 변수 변환시 사용할 수 있는 방법으로서 주로 타겟변수가 Binary(1 또는 0) 일 때 사용된다. 신용평가 모형에서 자주 사용되는 방법이다.
Fine Classing
Classing은 항목의 원천 값에 따라 적정 그룹으로 분류하는 방법으로, Regression을 수행하기에 앞서서 후보변수를 선정하는 데에 활용할 수 있다. 구간값으로 변경하면 이상치(Outlier)를 효율적으로 처리해 Regression의 안정성을 확보할 수 있으며, 예외처리 값 및 결측값을 효율적으로 처리할 수 있다. Classing은 크게 Fine Classing과 Coarse Classing으로 나뉘는데, 그 중 Fine Classing은 첫단계로서 항목값을 대략 20 구간으로 나눠 분류한다.
예를 들어 ‘최근 6개월 총수신 평균잔액’과 같은 연속형 변수의 경우나 ‘최근 6개월 여신 총 연체경험건수’와 같은 이산형 항목의 경우 한 그룹의 구성비율을 5% 수준에 맞추어 전체 20개 이내로 분류한다.
또한 이미 구간화가 되어 있는 범주형 항목의 경우 분석항목의 모든 값을 그룹의 기준점으로 하여 분류한다.
이에 따라 Fine Classing 결과 생성된 구간 수는 20개에 미달할 수도 있으며, 반대로 예외처리값이 존재하는 경우 20개를 초과할 수도 있다.
다음은 Fine Classing의 20개 구간화 예시이다.
Fine Classing 분석을 통해 그룹화를 진행한 다음에는 단변량 분석을 실시한다. 단변량 분석을 통해 최종적으로 선정될 항목 선정에 앞서 개별 후보항목 단위에서 타겟 변수와 유의미한 관계를 보이는 변수를 사전에 선정할 수 있다.
Coarse Classing
Coarse Classing은 Fine Classing 이후의 구간화 과정으로서 그룹의 수를 6개 이하로 감소시키면서 그룹 분류의 의미나 구성비 추이가 보다 안정성을 확보할 수 있게 하는 작업이다.
Fine Classing을 통해 평가항목을 구성비 혹은 항목의 값에 의해 제한된 개수의 물리적인 그룹화를 수행하였다면, Coarse Classing은 이를 기초로 그룹 분류의 경제적 의미와 그룹별 구성비, 타겟 여부 등이 보다 안정적으로 확보될 수 있도록 그룹을 하나의 집단으로 묶어주는 역할을 한다. 이에 따라 Fine Classing에서는 동일한 타겟 여부 비율을 가지는 경우임에도 불구하고 각각 다른 그룹에 할당된데 반해, Coarse Classing 과정을 통해서는 유사한 타겟 여부 비율 특성을 가지는 경우는 같은 그룹으로 분류될 수 있게 된다.
다음은 Coarse Classing 시 고려사항이다.
•
GBIndex
◦
항목을 구간으로 분류하는 기본적인 목적은 타겟집단을 차별화 하는 것.(ex. 정상집단과 부도집단)
◦
GBIndex를 이용하면 어떠한 구간이 정상 성격인지 또는 비정상 성격인지를 판별할 수 있다.
◦
어떠한 경계를 기준으로 급격히 GBIndex 값이 차이를 보인다거나, 비슷한 GBIndex 값을 보이는 구간이 보일 시 각 구간을 통합 또는 분리하는 식으로 분류화를 결정한다.
◦
예시(타겟변수: 부도)
▪
전체건 100 / 정상건 85 / 부도건 15 라고 가정.
▪
정상구성비/부도구성비 ≥ 1 이면 GBIndex = 정상구성비/부도구성비*100, ‘G’로 표기
▪
정상구성비/부도구성비 < 1 이면 GBIndex = 부도구성비/정상구성비*100, ‘B’로 표기
•
구성비
◦
구간의 GBIndex가 선명한 차이가 나더라도, 안정적인 구성비율이 담보되지 않는 집단에 대해 세분류하지 않는다.
◦
구체적으로 세부분류 시 구간의 구성비가 3% 미만이 되는 집단은 가능하면 별도로 분류하지 않는다.
Coarse Classing까지 마치게되면 Model Classing 및 상관관계 분석을 통해서 추가로 후보 변수를 선정하는 작업을 진행하면 된다.
* Model Classing: Coarse Classing 이후 생성된 구간값을 각 현업 담당자들과의 협의를 통해 실제 운영에 적합한지, 비즈니스적인 관점을 적절히 반영하고 있는지 등을 검토하는 단계이다. 가령, 금액이나 일수와 관련된 항목의 경우 생성된 구간값들이 현실을 반영하지 못해, 실제 모형 운영시 변별력 향상에 기여하지 못할 수 있다. 또한 Coarse Classing까지 마친 항목의 구간값이 현재 운영되는 항목의 구간값과 크게 차이가 없는 경우, 협의를 통해 현재 운영되는 수준에 맞게 수정하기도 한다. 더불어 Coarse Classing 결과 구간별 타겟 변수 비율의 차이가 미미하거나, 지나치게 큰 경우에도 Model Classing 과정을 통해 구간값을 조절하기도 한다.