• 최초 작성일: 2008-12-16
  • 최종 수정일: 2008-12-16
  • 조회수: 5,721 회
  • 작성자: 무지개타고
  • 강의 제목: 외국인 선수는 슈퍼우먼?

엑셀러 권현욱

들어가기 전에

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀 더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(https://onrainbow.tistory.com/)를 운영하고 있기도 합니다. 특유의 위트와 재미가 있는 통계 강의에 빠져보시기 바랍니다.


  • 이 페이지의 저작권은 콘텐츠 제공자에게 있습니다.
  • 본문 내용은 필자 개인의 견해이며 아이엑셀러 닷컴 공식 의견과 일치하지 않을 수도 있습니다.

배구협회의 자료를 보다가 뭔가 재미 있을 것 같은 생각이 들어서 언제나처럼 내 맘대로 살펴본다(주의: 이후 자료는 인용 및 분석 과정에서 오류가 있을 수 있음).

V리그 여자 1라운드 결과 중에서 팀별 공격점유율이 높은 상위 2명의 평균 공격점유율 및 평균 공격성공률이다.

로딩 중...
로딩 중...

그림이 작게 붙여져 있다. 외국인 선수의 공격점유율 및 공격 성공률이 국내 선수보다 높게 나타나고 있다. 그리고 전체적으로 공격점유율이 높을수록 공격성공률 또한 높다(슈퍼우먼인가? 둘 다 높네). 그러나 내외국인 선수를 따로 떼어 놓고 보면 외국인 선수는 약한 음의 상관관계, 내국인 선수는 양의 상관관계를 보여준다(이해가 안 되네).

여기서 엉뚱한 생각이 고개를 쳐든다. 외국인, 내국인 그 둘을 나누자! 판별분석이 아니라 로지스틱 회귀분석으로(로지스틱 회귀분석에 대한 자세한 내용은 별도 확인 바람). 이 때 종속변수는 국적이 되며 이진변수로 나타냈다. '0' 이면 내국인, '1' 이면 외국인. 그리고 독립변수는 공격점유율과 공격성공률.

로딩 중...
로딩 중...

이렇게 밑그림을 대충 그려놓고 셀에 수식을 입력한다.

F3: =EXP($J$3+MMULT($C3:$D3,$J$4:$J$5)) / (1+EXP($J$3+MMULT($C3:$D3,$J$4:$J$5)))
J6: =SUMXMY2(E3:E12, F3:F12)
J7: =SUMPRODUCT(N(E3:E12 - F3:F12))

해당 셀에 수식 입력을 마쳤다면 엑셀에서 [해 찾기] 기능을 불러온다. 정상적인 방법은 아니나 통계분석용 프로그램이 없다면 꼼수(?)로 하는 거다.

로딩 중...

이 때 옵션을 좀 손봐줘야 하는데, 뭘 어떻게 하는 건지 도무지 모르겠다.(-_-) 어쨌든 수렴도를 0.9에서 시작해 점차 작은 값으로 바꾸기를 수 차례...

로딩 중...

그 결과, 추정국적은 국적과 마찬가지로 '1'에 가까우면 외국인, '0'에 가까우면 내국인이다(만약 0.5 라면 무국적자?).

로딩 중...
로딩 중...
로딩 중...

로지스틱 회귀분석 결과, 내국인 선수 한명의 기량은 외국인 선수에 가까운 것으로 추정되었다. 이를 그래프에 나타내면 이렇게 된다.

로딩 중...
로딩 중...

판별선 삽입을 위해 공격점유율에 임으로 값을 입력한 후, 공격성공률은 아래와 같이 계산한다.

J20: =-($J$3 + I20*$J$4) / $J$5

앞에서 얘기한 상관관계로 돌아가서, 슈퍼우먼을 외국인이라 분류하면 외국인 선수는 좀 더 약한 음의 상관관계, 내국인 선수는 강한 음의 상관관계로 바뀐다. 슈퍼우먼 한 명의 영향력이 대단하다. 상관계수의 방향을 바꿀 정도라니 말이다.