아이엑셀러 닷컴

관찰값, 점수 등을 가지고 일정 기준보다 큰가 작은가를 구분하는 것을 절대평가라 한다면, 순위는 상대평가가 된다. 상대평가란 이것과 저것, 남과 나를 비교하는 것이라 그리 마음에 들지는 않지만 비교가 필요할 때가 더러 있다.

과목별 중요도가 동일할 때 합을 이용해 순위를 구하려는데 동점이 여럿 보인다. 참고로 원론적인 이야기이지만 순위를 구할 때는 기준이 있어야 한다. 합을 기준으로 순위를 구할 것인지 또는 특정 분야 점수를 이용해 순위를 구할 것인지 그도 아니라면 분야별 중요도를 어떻게 달리 부여해 순위를 구할 것인지 등등. 그리고 점수도 점수지만 누가 높고 낮은지를 구분하는 변별력을 갖춘 기준이 있어야 한다. 평균, 가중평균을 이용해 순위를 구하면 이렇게 된다.

참고로 가중평균은 각각의 과목별 점수에 해당 가중치를 곱해서 구했다. 만약 각각의 중요도가 같다면 가중평균은 평균과 같아진다. 그리고 위에서 평균을 이용해 순위를 구할 때, 평균이 같은 경우 중요도 순서로 순위를 처리한 결과다. 그 결과 각 과목별 순위가 1, 2위만 제외하고 모두 동일한 것을 볼 수 있다(여기선 합과 평균이 동격이다). 보통 이런 식으로 순위를 구하는데, 좀 엉뚱한 방식으로 순위를 구해볼까 한다.

과목별 변동계수를 보면 수학 < 국어 < 체육 순으로 변동계수가 커진다. 이를 통해 수학 점수가 상대적으로 밀집되어 있다는 것을 알 수 있다. 그리고 체육 점수가 상대적으로 넓게 퍼져 있다는 것도 알 수 있다.

만약에 과목별 점수 분포가 정규분포를 따른다면 위의 그림처럼 나타나게 되는데, 다른 과목에 비해 수학을 남들보다 조금만 더 잘 받는다면 순위가 높을 가능성이 크다. 왜냐하면 수학 점수가 높은 학생이 적기 때문이다. 이는 수학이 변별력을 갖춘 과목이라는 얘기가 된다.

그런데 애석하게도 이 상태만으로는 계량화 해 나타낼 수 없다. 순위를 구하기 위한 객관적 수치가 있어야 한다. 이에 공통된 기준으로 각 과목별 점수를 변환할 필요성이 생긴다.

위의 수식과 같이 변환된 Z를 통계에서는 '표준화한 변수'라 한다. 이렇게 표준화를 시켜주면 뭐가 달라지는데? 평균과 분산이 바뀐다. 0과 1이라는 기억하기 아주 쉬운 값으로(만약 점수(X)의 분포가 정규분포를 따른다면 Z의 분포는 표준정규분포가 된다).

엑셀에서는 표준화 계산을 위해 Standardize라는 함수를 제공한다. 표준화 결과 각 과목들은 동일한 평균과 분산을 갖게 되었다. 그래서 동일한 기준으로 비교할 수 있게 되는 것이다(위 그림에서 과목별 X축 값이 변경되는 것이라 이해하면 쉽다).

평균과 가중평균은 중요도를 반영한 순위이고, 표준화는 앞서 구한 과목별 표준화 값의 계를 이용한 순위이다. 그랬을 때 '제리'는 수학이 높게 평가되어 부진한 체육 점수를 만회하고도 남아 넘버 투까지 오르게 된다. 그에 비해 '톰'은 낮게 평가된 국어가 수학 점수를 까먹어, 합은 같아도 언제나처럼 제리에게 당하는 슬픈 악역이 된다.

이렇게 각 점수별로 표준화된 값을 구하면 상대적 위치를 계량화하기 쉬워지고 비교 기준을 통일할 수 있다. 그리고 각 과목별 점수가 똑같지 않는 한, 동순위 발생 가능성은 매우 낮아진다.

그럼 이번엔 표준화 순위는 변경 없이 과목별 중요도를 조정해 평균과 가중평균의 순위를 각각 구해보자.

중요도를 조정해 보니 가중평균 순위와 표준화 순위가 조금 비슷해 보인다. 가중평균 순위를 표준화 순위에 맞추기 위해 엑셀의 해 찾기 기능을 활용해 본다.

그 결과, 중요도는 변동계수의 역순이라는 것을 볼 수 있다. 물론 중요도와 변동계수는 다른 의미이고 또한 변별력과 표준화는 목적이 다르다. 단지 기준이 미설정된 상태에서 순위를 구할 때 이런 방법은 어떨까 해서 생각해 본 것 뿐이다.

들어가기 전에