Search
🧸

2021 연세 빅데이터 분석 경진대회(대상)

날짜
2021/12/22
분석기법
지도학습
생존분석
모델
RandomForest
LightGBM
LogNormalAFT
속성
python
분석인원
팀프로젝트

프로젝트 주제

효돌 인형 사용노인 사용자의 건강 및 삶의 질 향상에 미치는 효과성을 검증하였고, 로그 데이터 시계열 분석을 통한 인형 사용 행태를 파악하였습니다.

1. Survey Modeling

: 인형 사용이 사용자들의 우울증과 생활관리에 유의미하게 도움이 되는지를 파악하고자 하였다. 그리고 변수들의 영향 또한 살펴보고자 하였다.

2. 주별 사용량 예측 Modeling

: 인형 기능별 사용 횟수를 주별로 예측하고자 하였다.

3. 사용자 이탈 생존분석

: 3주간의 데이터를 이용하여 인형 사용 이탈 시점을 예측하고자 하였다.

데이터

1. Survey Modeling

인형 사용의 사전 및 사후 설문조사 데이터(160명)
나이 등 인구통계학적 정보
우울증 설문조사
생활관리 설문조사
설문조사 인원의 사전 ~ 사후 설문조사 기간 사이의 인형 사용 로그 데이터
Target Variable
우울증 점수 개선 여부 (Binary)
생활관리 점수 개선 여부 (Binary)
Predictor Variable: 인구 통계학적 정보 및 인형 사용 로그 데이터

2. 주별 사용량 예측 Modeling

14일 이상 인형을 쓴 모든 사용자들의 2주~10주 인형 사용 로그 데이터
주차마다 번호를 매겨 t 주차 사용 예측을 위해서 t-1 주의 로그 데이터를 사용함.
Target Variable (6개)
stroke 등 상호작용 기능의 사용 횟수 (Numeric)
Predictor Variable (11개)
전 주차의 상호작용 기능들의 사용 횟수 (Numeric)

3. 사용자 이탈 생존분석

귀기능 등장 이후 유입된 사용자들의 인구통계학적 정보와 인형 사용 로그 데이터를 활용하였다.
Response Variable
인형 사용 일수(중도 절단 된 생존 데이터 형태)
Predictor Variable
인구 통계학적 정보 및 3주간의 인형 사용 로그 데이터

모델 및 성능

1. Survey Modeling

우울증의 경우 Random Forest를 최종 모델로 사용하였다.
Test Accuracy: 0.781
생활관리의 경우 LightGBM을 최종 모델로 사용하였다.
Test Accuracy: 0.75

2. 주별 사용량 예측 Modeling

Random Forest 모델을 최종 모델로 사용하였다.
성능지표는 MAE를 사용하였고 각 기능별, 주차별 MAE는 다음과 같다.

3. 사용자 이탈 생존분석

Log-normal Accelerated Failure Time(Log-normal AFT) 모형을 사용하였고 Concordance Index로 성능을 평가하였다.
Test C-index: 0-71

결론

의의

인형 사용의 긍정적 효과 입증: Survey Modeling을 통해 인형을 사용하는 것이 노인분들의 우울증과 생활관리 개선에 긍정적인 상관관계가 있음을 확인.
사용 주차별 사용자 행태 파악: 사용 주차별 예측 Modeling을 통해 시간의 흐름에 따라 사용자의 행동 패턴이 어떻게 변하는지 파악할 수 있는 모델을 생성
조기 이탈자 파악: 사용자 이탈 생존분석을 통해 조기에 사용을 중단할 사람들을 파악하고 관리할 수 있는 모델을 생성
추후 발전 가능성: 추후에 데이터를 추가하여 모델에 반영하면 더 정확한 결과들을 얻을 수 있음.

한계점

데이터의 불완전성: 불가능한 값을 가진 데이터들의 존재로 인하여 데이터의 신뢰성이 떨어지거나, 모델링에 사용하지 못한 변수들이 존재.
데이터의 부족: 특정 기능들의 데이터 부족으로 인하여 모델링에서 성능 저하 발생.

제언

추가 설문조사: 효돌의 구체적인 성능을 입증하기 위하여 추가 설문조사 진행.
Error 데이터 판단: Error 데이터를 판단할 수 있는 장치를 마련한다면, 추후에 더 정확한 분석이 가능할 것.
Search
발표 PPT
이름
태그
Github
onehyodessa
esj205

PPT 일부