본문 바로가기

전체 글

(9)
4. 투수와 타자의 플래툰 시스템에 따른 구종 구사비율 플래툰 시스템은 우투수에 강한 좌타자를 대결시키거나 좌투수에 강한 우타자를 대결시키는 것을 말한다 (반대로 좌타자에 강한 우투수, 우타자에 강한 좌투수로도 말함). 이에 따라 투수들이 사용하는 구종 구사율이 어떻게 다른지 살펴보고자 한다. 2008년도부터 2018년도까지 11년동안의 투구 수는 각각 우투수와 우타자 3,175,248개, 우투수와 좌타자는 2,965,106개, 좌투수와 우타자 1,656,670개, 좌투수와 좌타자의 경우는 684,629개다. 이 데이터에 의해 각 플래툰에 따른 구종 구사율은 아래와 같다. 이 그래프를 보면 포심패스트볼(FF), 투심패스트볼(FT), 컷 패스트볼(FC), 싱커(SI), 커브(CU)는 플래툰에 상관없이 비슷한 비율로 사용하는 구종인 것을 확인할 수 있다. (그래..
3. 아메리칸 리그와 내셔널 리그의 구종 구사비율 본 글은 아메리칸 리그와 내셔널 리그의 변화구 구사율의 차이를 보기 위해 작성하였다. 사용한 데이터는 2008년도부터 2018년도까지 메이저리그의 정규리그 데이터를 이용하였으며, 구종이나 팀 이름이 없는 데이터를 제외한 7,757,422 투구를 이용하였다. 아메리칸 리그 15팀의 총 투구 수는 3,980,070개, 내셔널 리그 15팀의 총 투구 수는 3,777,352개다. 두 리그의 총 투구 수 대비 각 구종들의 구사율을 살펴보면 아래와 같다. 그래프는 비율 별 오름차순으로 정렬하였다. ( FF : 포심 패스트볼, SL : 슬라이더, SI : 싱커, CH : 체인지업, FT : 투심 패스트볼, CU : 커브, FC : 컷 패스트볼, KC : 너클 커브, SF : 스플리터, IB : 고의사구, KN : 너..
1. Python에서 데이터 다루기 이번 글에서는 프로그래밍 언어인 Python를 이용하여 Jupyter notebook에서 엑셀 형식의 데이터 파일을 불러오기, 편집하기, 저장하기에 대해 살펴보고자 한다. Python에서는 엑셀 형식의 데이터를 다루기 위해 'pandas'라는 라이브러리를 사용한다. 첫째 줄에 라이브러리를 불러오고, 단계들을 차례대로 살펴볼 것이다. Step 1. 데이터 불러오기 아래의 'Test_1' 이라는 엑셀 파일을 불러오고자 한다. 이 파일을 불러오기 위해서는 프로그래밍 파일과 엑셀 파일이 같은 곳에 존재하는 경우는 아래와 같이 불러도 가능하지만, 그렇지 않다면 '/경로/.../파일명.xlsx' 형식으로 불러오면 된다. 다음과 같이 데이터를 불러오고, 제대로 불러왔는지 확인해본다. 이때, index나 column ..
2. 스탯캐스트의 투구 데이터 분포 스탯캐스트 데이터에서 투구에 대한 정보로 x, y, z 축에 대한 속도(vx0, vy0, vz0) , 가속도(ax, ay, az), 실제로 포수에게 도달하는 지점과 공기저항이 없을 때 이론적으로 포수에게 도달하는 지점의 차이인 pfx값을 제공한다 (글 1-1 참고). 2008년도부터 2018년도까지의 메이저리그 정규리그 스탯캐스트 데이터에서 존재하는 17가지의 구종 중 전체 투구 수의 95.7%를 차지하고 있는 7가지 구종(포심 패스트볼(FA), 투심 패스트볼(FT), 컷 패스트볼(FC), 싱커(SI), 커브(CU), 슬라이더(SL), 체인지업(CH))으로 위의 투구정보를 살펴보고자 한다. 아래 그래프들은 각 구종 별 300,000개의 데이터로 구성되어 있으며 우투수는 1,503,058개 좌투수는 596..
2. K-평균 군집화(K-means clustering) K-평균 군집화의 과정은 아래와 같다. [1] J.M. Pena ,1, J.A. Lozano, P. Larra~naga. 1999. An empirical comparison of four initialization methods for the K-Means algorithm. Pattern recognition letters. https://doi.org/10.1016/S0167-8655(99)00069-0
1. 근사 엔트로피와 샘플 엔트로피 근사 엔트로피(Approximate entropy)는 시계열 데이터에서 보이는 규칙적인 것과 불규칙한 것에 대해 정량화 하는 양이다 [1]. 이 값이 높을 수록 불규칙하고 예측 불가능한 패턴이 보인다고 말할 수 있다. 근사 엔트로피를 구하기 위해서 데이터의 평균 닮음도를 이용한다. 근사 엔트로피를 구하는 방법과 예시는 아래와 같다. 샘플 엔트로피(Sample entropy)는 근사 엔트로피와 계산법이 비슷하지만, 누적엔트로피를 계산함에 있어서 차이가 있다 [2]. 이는 아래와 같다. [1] Pincus, S. M.; Gladstone, I. M.; Ehrenkranz, R. A. (1991). "A regularity statistic for medical data analysis". Journal of..
1. 랜덤포레스트란? 랜덤포레스트는 아래와 같이 여러 개의 의사결정나무(Decision Tree)로 구성되어있다. 랜덤포레스트는 학습할 때 인 배깅(Bagging)방법을 이용한다. 전체 데이터를 나무의 갯 수에 따라 균일하게 샘플링하여 각 의사결정나무에 분배시켜준다. 그리고 각 의사결정트리의 결과들를 종합하여 최종결과를 산출한다. 의사결정나무는 자료를 라벨링에 따라 분할하는 방법으로, 이 방법 중 하나로 지니 계수(Gini index)가 있다. 분류하는 기준을 정할 때, 아래와 같이 지니계수가 작은 기준을 우선적으로 사용한다. 이때, 트리의 깊이(Depth)는 정해주지 않으면 지니계수가 0이될 때까지 이어나가게 된다.
1-1. 스탯캐스트 데이터 설명 1 (pfx_x, pfx_z) 스탯캐스트 데이터에서 투수의 투구에 대한 칼럼으로 구속 , x, y, z에 대한 속도와 가속도, 2017년도부터 투수가 공을 놓는 위치, 공의 스핀 등을 제공한다 (x, y, z축은 아래 그림과 같다.). 이 중 pfx_x, pfx_z는 각 x축 z축 상에서 공이 실제로 포수에게 도달하는 지점과 공기저항이 없을 때 이론적으로 포수에게 도달하는 지점의 차이를 나타낸다. 또한 각 축 상의 '공의 꺾임', '공의 변화'라고도 부른다. pfx_x, pfx_z값을 측정된 각 x, y, z축 상의 속력으로 유도하는 글이 있다 [1]. 이 글에서는 타자가 공에 반응을 시작하는 지점인 포수에서 40ft(15.24m) 떨어진 곳으로부터 포수에게 도달할 때까지 공기저항이 없는 시스템을 고려하여 이론적으로 공이 도달하는 위..