'가=나'이고 '나=다'이면, '가=다'이다. 너무나 당연한 명제라 민망할 정도다. 그런데 이것은 수학에서나 그렇다. 통계에서라면 답은... "그때 그때 달라요~"
다음 예제를 보자.
만약 각각의 집단이 정규분포를 각각 따른다고 가정하면,
위의 그림처럼 가와 나, 나와 다 간에는 평균과 분산이 서로 다름에도 불구하고 겹쳐지는 부분이 상당히 넓다는 것을 알 수 있다. 그리고 각각의 T-검정 또한 유의수준 0.05에서 귀무가설을 기각할 수 없는 것으로 나왔다.
그럼 '가=나'이고 '나=다'라고 통계적으로 검증됐으니 '가=다'이겠네? 가와 다를 비교해 보면 알겠지.
유의수준 0.05에서 귀무가설을 기각한다고 나왔다. 그러므로 '가=나'이고 '나=다'라도, '반드시 가=다'이다,라고 할 수 없다. 그런데 위의 검증 방식에는 통계적인 문제가 있다. 동시성에 문제가 생긴다.
각 집단이 서로 차이가 없다고 가정한다면, 즉 단일한 분포 '전체'의 일부분이었다면 각 집단은 '전체'와 동일한 분포를 보여줘야 한다. 그러므로 '가=나=다'인가를 동시에 검증할 필요성이 생긴다.
그래서 두집단일 때는 T-검정을 이용하고 다집단 일 때는 분산분석 ANOVA을 이용하는 것이다. 물론 두집단일 때에도 양측검정에 한해 분산분석을 이용할 수 있다.