본문 바로가기

프로야구 데이터

1. 야구 데이터(PITCHf/x & 스탯캐스트)

 야구데이터는 2008년 투구를 추적하는 PITCHf/x 시스템으로부터 시작해서 2017년 투구, 타자, 수비를 모두 기록할 수 있는 스탯캐스트 시스템으로 발전하여 현재까지 기록되고 있다. 메이저리그에서는 오픈소스로 데이터를 제공하고 있으며, 국내 야구에서는 프로야구 공식기록통계 업체인 스포츠투아이가 각 구단에게만 제공하고 있다.

 

1. 방식

 2008년부터 2016년까지 사용 된 PITCHf/x 투구 추적 시스템은 홈 플레이트에서 50피트 떨어진 곳에서부터 투구를 추적하며 , 20개의 이미치 촬영을 통해서 투구의 궤적을 찾는다.

 

 스탯캐스트 시스템은 트랙맨(TrackMan)이라고 하는 레이더 시스템을 이용한다. 투수의 손에서 포수의 글러브까지 초당 수천개의 캡쳐를 통해 전체를 측정한다.  

 

 

2. 데이터

 스탯캐스트 데이터는 시간에 따른 투수의 투구에 대해 기록되며 각 팀명, 날짜 투수, 타자를 알 수 있고, 투구, 타격, 수비에 대한 정보를 담고있다. 


 투구에서는 투수가 던진 후 포수에게 도달할 때 까지의 볼의 속도, 움직임, 회전 등을 알 수 있다. 또한 이들을 통해 구종을 입력하는 시스템을 도입하고 있다. 타격에서는 타자가 친 공의 발사각도, 속력, 위치 등을 알 수 있으며, 주자의 유무, 각 수비수의 고유 아이디, 상황(파울, 헛스윙 등의) 등의 수비상황에 대해 제공하고 있다.

 

 이 데이터를 활용하면 다음과 같이 각 투수에 대하여 투구 정보를 표현할 수 있다. (2012년도 린드블럼 선수의 구종, 구속, 홈플레이트에서의 공의 수직, 수평 위치 데이터 사용, 구사율은 각 구종에 대한 투구 수를 전체 투구 수로 나누어 계산)

스탯캐스트가 제공하는 정보들에 대한 설명은 아래 사이트에서 자세하게 확인할 수 있다.

(https://baseballsavant.mlb.com/csv-docs)

 

 

 

 

ps. 2017년도에 스탯캐스트 시스템으로 발전하면서 수비와 타격, 공의 스핀 등의 기존  PITCHf/x가 제공하지 않는 정보 들이 추가되었고, PITCHf/x 시스템과 스탯캐스트 시스템의 투구추적방식이 다르다. 이 데이터를 분석과 머신러닝 등에 적용하려면 2017년도를 기준으로 나누어서 데이터를 볼 필요가 있다.

 

참고설명 : http://m.mlb.com/glossary/statcast