아이엑셀러 닷컴
  • 최초 작성일: 2007-08-29
  • 최종 수정일: 2007-08-29
  • 조회수: 9,172 회
  • 작성자: 무지개타고
  • 강의 제목: 통계로 세상보기 ㅡ 돌아버리겠다. 삼각함수

엑셀러 권현욱

들어가기 전에

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀 더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(https://onrainbow.tistory.com/)를 운영하고 있기도 합니다. 특유의 위트와 재미가 있는 통계 강의에 빠져보시기 바랍니다.


  • 이 페이지의 저작권은 콘텐츠 제공자에게 있습니다.
  • 본문 내용은 필자 개인의 견해이며 아이엑셀러 닷컴 공식 의견과 일치하지 않을 수도 있습니다.

사람마다 다르겠지만 수학에서 도형 다룰 때가 내겐 진짜 고역이었다. 공간 개념이 없어선 지 도형만 그려지면 어디 쥐구멍이라도 들어가고 싶은 심정이었다. 그래서일까? 내가 차트에 대해 그리 썩~ 좋은 감정을 갖고 있지 않은 게.

아무튼 도형이 나오면 뒤따르는 게 삼각함수다. 고등학교 때 확률/통계 다음으로 싫어했던 게 삼각함수였다. 그러고 보니 마음에 들어했던 분야가 없었던 것 같다. 그런데 몇일 전 얼떨결에 뭘 하나 봤는데 이게 영~ 삼각함수를 써먹어야 될 것만 같은, 옛날의 악몽이 되살아나 뒤통수를 후려치는 것이었던 것이었다.

로딩 중...
(주의) 해당 자료는 인용 과정에서 오류가 있을 수 있음.

위의 자료는 통계청 자료 중 가계조사(전국)에서 '이미용' 항목의 분기별 월평균 자료이다. '이미용' 세부 항목을 보니 칫솔, 치약, 화장비누, 샴푸및린스, 전기이미용기구, 기타이미용용품, 화장품, 이미용료, 목욕료, 기타이미용서비스 등 위생용품에서 몸단장 용품 및 서비스가 포함되어 있는데 설마 이게 계절 성향이 있을 거라고는 미처 생각지 못 했다.

이쯤에서 모처럼 만에 차트를 먼저 보자(차트로 판단하지 말라고 했지 참조하지 말라고는 하지 않았다).

로딩 중...

계절 성향이란 건 별 것 아니다. 분기별 자료가 어떤 규칙성을 보이고 특히나 4계절이 있는 우리 나라에서 분기 자료가 계절과 맞아 떨어지면 그게 계절 성향이지 뭐겠는가. 위의 차트를 보면 한칸 두칸 세칸 네칸 이동 후 다시 한칸 두칸 세칸 네칸 식으로 규칙적으로 움직이고 있는 걸 볼 수 있다. 3/4 분기(여름)가 가장 낮고, 1/4 분기(겨울)가 가장 높다. 주기적으로.

세부 항목과 계절 성향을 어림짐작해 보면,

  • 칫솔, 치약은 여름이라고 덜 사용할 품목은 아닐 것이다.
  • 화장비누, 샴푸/린스는 샤워를 자주 할수록 소비가 늘어날 수 있는데 여름철 낮은 수치와 대조되어 나타나고 있다.
  • 천고마비라 하며 가을에서 봄까지는 맛난 건 다 찾아 먹고는 노출의 계절 여름 대비해 봄이 되면 몸매관리 들어가는 속성(?)으로 봤을 때 기타이미용서비스도 역시나 위의 계절성과는 어긋나 보인다.
  • 전기이미용기구 및 기타이미용용품이 냉난방 기구도 아닌데 계절성이 있을지는 의문이다.

이에 반해

  • 이미용료는 모르겠지만 목욕료는 날이 추울수록 좀 더 지출될 것으로 예상된다.
  • 여름엔 스킨도 바를까 말까지만 겨울엔 로션까지 바르는 것으로 봤을 때 화장품도 다른 세부 항목들 보다 '이미용' 항목의 계절성과 맞아 떨어지지 않을까.

하고 넘겨짚어 본다. 정확한 건 세부 항목별 자료를 봐야겠지만 이는 MDSS 서비스에 돈내고 신청해야만 가능할 것 같은데 그럴 정도의 성의도 없고 주머니 사정도 그러하니 계절성에 직접적인 영향을 미치는 세부 항목 찾아내기는 여기서 대충 끝낸다.

그럼 다시 계절성...
어느 세부 항목인지 심증은 가지만 물증이 없는 상황이나 확실한건 '이미용' 항목이 계절성을 보인다는 것. 그래서 생각난 게 삼각함수다.

로딩 중...

아~ 머리에 쥐가 날려고 하지만 위의 모형을 이용해 임의의 자료를 생성해 보자.

로딩 중...

생성 기준은 위와 같이 지정한다.

로딩 중...

이렇게 여러 정보를 바탕으로 자료를 생성하였는데, 단순히 삼각함수 자료 생성만하고 끝내기엔 나의 노고(?)가 심히 허무하지 않을까. 어디서 자료를 받았는데 자료가 위 처럼 나타났을 때,

어이~ 모의실험을 통해 자료의 특성치(여기서는 평균, 진폭, 주기, 편각)를 찾아와 봐!

라고 한다면? 위와 같은 모형이 있다는 것만이라도 기억해 낼 수 있다면 행복할 것이요, 전혀 모르고 있다면 조금 행복할 것이다.

위의 자료는 생각보다 그리 어렵지 않다. 자료가 일정한 폭을 구성하고 있고, 폭이 일정하니 평균 추정도 쉽고, 주기적으로 움직이는 일관성이 있으니 (계산식은 몰라도) 어떻게라도 짜맞출 수 있겠다. 단지 편각 즉 처음 시작점이 주기와 상호 연동되는 문제가 발생된다는 게 어려움이라면 어려움이랄까?

그럼 어려운 거구만 어렵지 않다고 썰(?)을 풀고 그래 확~~~!

아마도 주기나 편각 찾아내는 알고리즘이 있을 거는 같은데 그건 모르겠고, 엑셀에서 평균, 진폭, 주기, 편각을 추정할 수 있으니 알고리즘을 몰라도 상관이 없겠다. 물론 오차를 인정한다는 전제 하에.

엑셀을 이용하기 위해 알고 있어야 되는 게 편차제곱합과 해찾기 기능이다. 편차제곱합(sumxmy2 함수)은 대응하는 두 자료의 차이를 제곱하여 합하는 것으로 차이가 클 수록 값이 크고 차이가 작을 수록 값도 작으니 응용하기에 제격이다. 그리고 해찾기 기능은 추가 기능으로 설치하면 이용할 수 있다(엑셀2003 기준).

로딩 중...

참고로 B2셀의 수식은 아래와 같다. 그리고 x는 0 에서 360까지 10 간격으로 구성했다.

B2: =$J$3+$J$4 * COS(RADIANS(360 * 1 / $J$5 * $A2 + $J$6))

그럼 이제 준비 됐으면 위의 그림처럼 K3:K6 셀에 임의의 숫자로 초기화 한 후 해찾기 기능을 설정한다. 초기값을 1로 했으나 유의미한 결과가 안 나와서 10으로 수정했지만 이것도 별볼일 없으면 또 바꿔야겠다.

로딩 중...

엑셀 도움말을 본다고 내용을 모두 섭렵하여 두루 쓸 수 있는 실력은 아니지만 해찾기 기능은 진짜 봐도 모르겠다. 특히 옵션은 뭔소리를 하는지 도통 모르겠다. 혹여 해찾기 기능에 대해 해박한 지식을 갖고 있는 분은 자료 공유 부탁드린다.

해찾기 기능을 활용할 때 마다 느끼는 거지만 뭐가 변해도 변한다는 것. 그리고 죽어도 첫 실행에서 유의미한 결과를 보여주지 않는다는 것. 그래서 뭔 소린지도 모르면서 옵션의 선택 사항을 이리저리 바꿔 본다는 것. 그래도 결과는 언제나 불만족스럽다는 것. 결국은 초기값 변경 후 다시 위 과정을 또 거친다.

오뉴월 삼복 더위에 땀 삐질삐질 흘리며 반복 실행해 보지만 진짜 어지간히도 유의미한 결과가 안 나오고 있다. 그래서 엑셀의 표 기능으로 주기와 편각의 최소값을 추정하여 추정 정보에 입력하기를 수차례 반복하니 뭔가가 나왔다.

로딩 중...

편차제곱합은 매우 작은 반면 아쉽게도 주기와 편각에 큰 차이를 보이고 있다(삼각함수의 성질 때문이라고 한다). 그런데 만약에 '실제' 값을 모르고 있다면 저 결과를 버릴 수 있을까? 아래 그림을 보시라~

로딩 중...

모의실험은 계속하겠지만, 나라면 저 결과를 버리지는 못 할 거다. 참고로 이런 선택은 컴퓨터가 하는 게 아니다. 이는 언제나 사람 몫이다.

로딩 중...

에고, 이미용 지출 비용 얘기하려한 게 삼천포로 많이 빠졌는데 이는 다음에 또 해야겠다. 한밤중이지만 더위 때문에 늙은 노트북이 열 받아 폭발할 것만 같다.

아이엑셀러 닷컴