Search

21-1 스포츠 빅데이터 분석

날짜
2021/05/31
분석기법
집단비교
모델
몬테카를로임의화검정
속성
R
URL
분석인원
팀프로젝트

프로젝트 주제

WPA(Win Probability Added, 승리확률기여도)를 활용하여 2010년대 전통적 클러치 타자의 팀 승리 기여도를 분석하였다.

데이터

Laghman Package, Retroseet 등에서 2010년대 MLB 선수들의 데이터를 활용하였다.
Lahman Package People Data: 20,093 개의 전체 People 데이터 중 2010~2019 년에 타석에 들어선 모든 선수 데이터만 사용.
Lahman Package BattingStats Data: 108,789 개의 전체 battingStats() 데이터 중 2010~2019년에 해당하는 14,564 개의 데이터만 사용.
Retrosheet Game-by-Game Data: 2010~2019년의 24,297 개의 전체 데이터 사용.
Retrosheet Play-by-Play Data: 2010~2019년의 1,910,002 개의 전체 데이터 사용.
WE(Win Expectancy) Data (The Book_Playing The Percentage in Baseball): [The Book_Playing The Percentage in Baseball] 책에서 제시한 WE 표를 활용하였다.

분석방법

각 타자의 WPA 값을 활용해 몬테 카를로(Monte Carlo) 임의화 검정을 아래와 같은 순서로 진행하였다.
1.
시즌 별로 특정 타석 수(조건1)를 넘긴 타자들을 선정한다.
2.
시즌 별로 득점권 타율 - 전체 타율 상위 M 명(조건2)을 선정한다.
3.
상위 M 명에 포함된 빈도 상위 N 명(조건3)을 클러치 타자로 선정한다.
4.
특정 Y 시즌의 비교 대상군을 정한다.
5.
클러치 타자 N 명 중 특정 Y 시즌에 활동한 K 명을 구한다.
6.
클러치 타자 K 명의 특정 Y 시즌 WPA 값의 통계량(평균 혹은 중위수)을 구한다.
7.
특정 Y 시즌의 비교 대상군에서 비복원추출로 K 명을 뽑아낸다.
8.
비복원추출된 K 명의 특정 Y 시즌 WPA 값의 통계량을 구해 6번의 통계량과 비교한다.
9.
7~8번 과정을 10,000 번 반복해 p-value를 구한다.
10.
4~9 과정을 2010~2019년, 10개 시즌에 대해서 반복한다.

결론

전체 선수들을 비교대상군으로 선정하였을 때, 클러치 타자의 팀 승리 기여도가 비교대상군보다 통계적으로 유의미하게 높다고 말할 수 있다.
하지만 502 타석이 넘는 주전 타자들을 비교대상군으로 선정하였을 때엔, 클러치 타자의 팀 승리 기여도가 비교대상군보다 통계적으로 유의미하게 높다고 말할 수 없다.
Search
Project Report
이름
파일
Analysis_of_Sports_Big_Data_Final_Project_Team_2.pdf

Project 일부