• 프로젝트 설명: 2020 프로야구 승률, 타율, 방어율 예측대회
  • 공모전 일자: 2020.07 ~ 2020.09
  • 주관: 한국정보화진흥원, 빅데이터포럼

다각화 접근을 통한 프로야구 승률, 타율, 방어율 예측 모델

Definiton of the task & Final goal

  • 정규시즌 잔여경기에 대한 팀별 승률, 타율, 방어율을 예측하는 회귀문제
  • Final goal : 단순히 2020년 잔여경기에 대한 예측력을 높이는 것뿐만 아니라 포스트 시즌 준비과정에 있어 전력 보강과 같은 전반적인 팀의 운영에 도움이 될 수 있는, 일반화 성능이 좋은 강건한(robust) 모델을 구축하는 것

Procedure of Analysis

Data Preprocessing & Feature Engineering

  • 정규시즌 종료시점 한달 전까지 평균적으로 120경기에 이르는 사실에 착안하여 각 연도별 개인투수, 개인타자 데이터를 120경기와 24경기로 분할하여 PCODE(선수코드) 기준으로 120경기를 누적하였다.
  • 이후 120경기 데이터를 이용하여 시즌 종료시점의 target 값을 예측하고, 이를 역추정하여 잔여 24경기에 대한 팀별 ERA와 타율을 계산하였다.

Statistical Analysis

  1. 투수 선수별
    • 회귀분석을 통해 FINAL_ERA 예측에 있어서 유의미한 변수를 추출
    • Best Subset Selection 방법을 통해 BIC 값이 가장 낮은 모델의 변수를 선택
    • 선택된 변수 : ERA + per_HR + per_BB + FIP

    시즌 최종시점의 ERA를 결정짓는 변수는 120경기 기준 ERA + 홈런 + 볼넷 + FIP지수

  1. 타자 선수별
    • 마찬가지로 회귀분석을 통해 FINAL_perHIT 예측에 있어서 유의미한 변수를 추출
    • Best Subset Selection 방법을 통해 BIC 값이 가장 낮은 모델의 변수를 선택
    • 선택된 변수 : perHIT + per_KK + per_BB

    시즌 최종시점의 타율을 결정짓는 변수는 120경기 기준 타율 + 삼진 + 볼넷

  1. 분석을 통해 깨달은 사실

  • 그러나, 이 값들을 이용하여 잔여 24경기에 대한 ERA와 타율을 역추정하게 되면, 큰 오차가 발생

    FINAL ERA와 FINAL_perHIT 모두 120경기에 대한 ERA와 perHIT가 대부분을 차지하게 되고, 역추정 과정에서는 24경기에 대한 비중이 더 커지게 되므로 오차가 크게 발생

  1. 흐름의 스포츠인 야구 성적을 예측하는 데 있어 회귀분석은 시간의 흐름을 반영하지 못함

  2. 선수별 성적을 통해 팀별 성적을 예측하였기 때문에 팀 자체에 대한 특성은 활용하지 못함

  3. FINAL 성적 지표는 120경기 성적 지표에 큰 영향을 받음

  4. 주요 변수들(투수: ERA, FIP / 타자: OPB, OPS, SLG, AVG)이 승률과 상관관계가 높음

위 시사점을 고려하는 모델을 구상

예측 결과 및 기대효과