아이엑셀러 닷컴
  • 최초 작성일: 2008-07-17
  • 최종 수정일: 2008-07-17
  • 조회수: 6,273 회
  • 작성자: 무지개타고
  • 강의 제목: 극장에 가본 게 언제였던가 2

엑셀러 권현욱

들어가기 전에

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀 더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(https://onrainbow.tistory.com/)를 운영하고 있기도 합니다. 특유의 위트와 재미가 있는 통계 강의에 빠져보시기 바랍니다.


  • 이 페이지의 저작권은 콘텐츠 제공자에게 있습니다.
  • 본문 내용은 필자 개인의 견해이며 아이엑셀러 닷컴 공식 의견과 일치하지 않을 수도 있습니다.

지난 시간에 영화관의 연 매출액을 추정해 보았는데 너무 주먹구구였던것 같다. 그래서 언제나처럼 내 맘대로 중회귀분석을 돌려본다. 시계열분석을 고려해야 되는데 그냥 쉽게쉽게 가련다.

로딩 중...
(주의) 해당 자료는 인용 과정에서 오류가 있을 수 있음.

여기서 연도별로 월 기준으로 정리된 자료를 시간 순으로 정리하면 이런 형태가 되겠다.

로딩 중...

초기에는 상승 추세를 유지하다가 30개월 전후에서 추세를 이탈한 감이 느껴지는데 일단 단순회귀를 구해 본다.

로딩 중...

그림은 그럴싸해 보이지만 결정계수가 0.3568로 매우 낮게 나타났다. 그리 마음에 들지 않는 수준이다. 결정계수는 낮아도 회귀모형은 유의미하다고 나왔다.

로딩 중...

이 모형은 가변수라는 것을 독립변수로 이용해서 구한 모형이다. 그리고 여기서 사용한 가변수는 매년 1, 7, 8, 12 월일 때를 '1', 그 외 월일 때는 '0'을 부여했다. 즉 방학기간을 반영하기 위해 임의로 설정한 가짜(Dummy) 변수이다. 여기서 잠깐, 가변수를 이용해서 구한 회귀계수와 가변수별 평균 매출액을 비교해 보자.

로딩 중...

혹시 느끼셨나 모르겠지만, 가변수의 회귀계수와 평균 매출액의 차이는 같다. 즉 방학기간(1, 7, 8, 12월)일 때는 그 외 기간보다 매출이 약 263억 가량 증가한다는 것을 회귀계수는 보여주고 있다.

그러나 모형2의 결과는 결정계수 0.2513으로 앞에서 보다 더 낮게 나왔다. 영화 상영관 매출 자료에 대한 사전 지식 및 기존 분석 모형을 모르고 시작하니, 시쳇말로 맨땅에 헤딩 열심히 하는 중이다. 그런데 만약 모형1과 모형2를 동시에 반영한다면 어떤 결과가 나올까?

로딩 중...

결정계수가 0.6378로 앞의 그것보다 상당히 높게 나타났다. 그러나 통상 기준으로 삼는 결정계수 0.7에 비해서는 아직도 낮은 수준이다. 상당히 싫어하는 방식이지만, 시간을 로그변환한 변수와 가변수가 동시에 반영된 모형을 예상해 본다.

로딩 중...

결정계수가 0.7423으로 이제 조금 안심되는 수준까지 올라왔다. 그리고 모형도 유의미한 것으로 나왔으니 여기서 모형 추정을 대충 마치면...

매출액 = -2,529,403,800 + 19,322,707,518 * Ln(시간) + 27,859,539,141 * 가변수
로딩 중...

마친다고 했는데 거짓말했다. 아직 끝난 게 아니다. 잔차 검토가 아직 남아 있다. 만약 잔차가 정규성과 등분산성을 만족하지 못한다면 위의 모형은 파기되어야 한다(빌자 빌자 만족하기를).

로딩 중...

이때 잔차보다는 표준화잔차를 이용하면 기준 잡기가 손쉽다.

로딩 중...

어째 등분산성이 조금 위협받는 느낌이다(또는 이상치가 발생된 느낌?). 아무래도 이상치 쪽으로 몰아(?)가는 게 편리해 보인다. 등분상성을 만족 못 한다고 판단해버리면 지금까지 작업한 게 도로아미타불(?)이 될 우려가 있다.

참고로 이상치 판단기준은 통상 표준화잔차 값이 ±2를 초과한 경우로 본다. 그리고 '±2'란 유의수준 0.045에서의 신뢰구간을 벗어난 기각역에 해당된다(유의수준 0.05는 약 ±1.96 이다).

이상치 존재에 무게를 두고 2006년1월(+), 2007년8월(+), 2008년4월(-) 이상치가 나타났다. 2006년1월은 '왕의 남자'가 상영되던 시기이고, 2007년8월은 '화려한 휴가', '디워'가 상영된 시기이다. 2008년4월은 시기적으로 비수기이지만 추정치보다 더 낮게 매출이 발생됐다는 건데, 통상 (+) 방향의 이상치는 눈에 확 띄는 반면, (-)방향의 이상치는 원인을 추정하기가 쉽지 않다.

어쨌거나 이들 3개 자료를 제외하고, 즉 이상치를 제거하고 회귀분석을 다시 돌리면...

매출액 = -749,029,899 + 18,972,205,438 * Ln(시간) + 22,915,806,446 * 가변수
로딩 중...
로딩 중...

회귀모형도 유의미하게 나왔고 앞에서 보다 잔차도 안정된 것으로 보인다. 그리고 결정계수는 약 0.04 증가한 0.7813으로 나타났다. 이제 결정하자. 이상치를 살릴지 죽일지 그도 아니면 이상치를 보정할지.

참고로 위의 작업은 엑셀 2003에서는 [도구] - [데이터 분석] 메뉴에서 [회귀분석]을 이용하면 좀 더 손쉽게 구할 수 있다(아래 그림 참고). 그리고 언제나 말하지만 그렇다고 아무거나 무턱대고 돌리면 안 된다. 컴퓨터는 시키는 대로만 할 뿐이다.

로딩 중...
아이엑셀러 닷컴