- 프로젝트 설명: 2020 프로야구 승률, 타율, 방어율 예측대회
- 공모전 일자: 2020.07 ~ 2020.09
- 주관: 한국정보화진흥원, 빅데이터포럼
다각화 접근을 통한 프로야구 승률, 타율, 방어율 예측 모델
Definiton of the task & Final goal
- 정규시즌 잔여경기에 대한 팀별 승률, 타율, 방어율을 예측하는 회귀문제
- Final goal : 단순히 2020년 잔여경기에 대한 예측력을 높이는 것뿐만 아니라 포스트 시즌 준비과정에 있어 전력 보강과 같은 전반적인 팀의 운영에 도움이 될 수 있는, 일반화 성능이 좋은 강건한(robust) 모델을 구축하는 것
Procedure of Analysis
Data Preprocessing & Feature Engineering
- 정규시즌 종료시점 한달 전까지 평균적으로 120경기에 이르는 사실에 착안하여 각 연도별 개인투수, 개인타자 데이터를 120경기와 24경기로 분할하여 PCODE(선수코드) 기준으로 120경기를 누적하였다.
-
이후 120경기 데이터를 이용하여 시즌 종료시점의 target 값을 예측하고, 이를 역추정하여 잔여 24경기에 대한 팀별 ERA와 타율을 계산하였다.
Statistical Analysis
- 투수 선수별
- 회귀분석을 통해 FINAL_ERA 예측에 있어서 유의미한 변수를 추출
- Best Subset Selection 방법을 통해 BIC 값이 가장 낮은 모델의 변수를 선택
- 선택된 변수 : ERA + per_HR + per_BB + FIP
시즌 최종시점의 ERA를 결정짓는 변수는 120경기 기준 ERA + 홈런 + 볼넷 + FIP지수
- 타자 선수별
- 마찬가지로 회귀분석을 통해 FINAL_perHIT 예측에 있어서 유의미한 변수를 추출
- Best Subset Selection 방법을 통해 BIC 값이 가장 낮은 모델의 변수를 선택
- 선택된 변수 : perHIT + per_KK + per_BB
시즌 최종시점의 타율을 결정짓는 변수는 120경기 기준 타율 + 삼진 + 볼넷
- 분석을 통해 깨달은 사실
- 그러나, 이 값들을 이용하여 잔여 24경기에 대한 ERA와 타율을 역추정하게 되면, 큰 오차가 발생
FINAL ERA와 FINAL_perHIT 모두 120경기에 대한 ERA와 perHIT가 대부분을 차지하게 되고, 역추정 과정에서는 24경기에 대한 비중이 더 커지게 되므로 오차가 크게 발생
-
흐름의 스포츠인 야구 성적을 예측하는 데 있어 회귀분석은 시간의 흐름을 반영하지 못함
-
선수별 성적을 통해 팀별 성적을 예측하였기 때문에 팀 자체에 대한 특성은 활용하지 못함
-
FINAL 성적 지표는 120경기 성적 지표에 큰 영향을 받음
-
주요 변수들(투수: ERA, FIP / 타자: OPB, OPS, SLG, AVG)이 승률과 상관관계가 높음
위 시사점을 고려하는 모델을 구상
예측 결과 및 기대효과