아이엑셀러 닷컴
  • 최초 작성일: 2007-08-18
  • 최종 수정일: 2007-08-18
  • 조회수: 20,225 회
  • 작성자: 무지개타고
  • 강의 제목: 통계로 세상보기 ㅡ 회귀분석용 함수 LINEST 엿보기

엑셀러 권현욱

들어가기 전에

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀 더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(https://onrainbow.tistory.com/)를 운영하고 있기도 합니다. 특유의 위트와 재미가 있는 통계 강의에 빠져보시기 바랍니다.


  • 이 페이지의 저작권은 콘텐츠 제공자에게 있습니다.
  • 본문 내용은 필자 개인의 견해이며 아이엑셀러 닷컴 공식 의견과 일치하지 않을 수도 있습니다.

엑셀에서 지원하는 회귀분석용 함수 중 가장 파워풀한 것이 LinEst 함수가 아닐까 한다. 이 함수만 알면 Intercept, Slope, Forecast, Trend 함수는 안녕~이다. 그래서 아주 간략하게 LinEst 함수의 사용법에 대해서만 살펴본다. 개인적인 생각인데, 왜 함수명이 LinEst일까? 아마도 Linear + Estimator의 합성어로 '선형(회귀)추정량' 정도일 것 같다.

엑셀에서 함수를 이해하기 위해서는 가장 중요한 게 도움말 확인이다. 그런데 LinEst 함수가 특정 분야(통계)에서 사용되는 함수이다 보니 내용이 어렵다. 함수 입력 방식은,

LINEST (known_y's, known_x's, const, stats)

함수이름 LinEst 쓰고 종속변수(y), 독립변수(x들), 상수항(절편)여부, 통계량 여부를 지정하면 된다. 그리고 잊지 말 것은, LinEst 함수는 배열함수로 5*(k+1)개의 결과를 보여줄 수 있다는 것! 그러면서 LinEst 도움말은 듣도보도 못한 표를 하나 보여준다.

로딩 중...

저 하단에 있는 표 이해하는 데 창피하지만 몇년 걸린 거 같다. 실질적인 사용법은 다음에 기회(?) 있을 때 살펴보기로 하고, 일단 도움말에 나온 예제를 이용해 저 표가 어떻게 나오는지부터 정리해 보자.

로딩 중...

또 다시 잠깐!
회귀분석 Regression Analysis이란 낯선 용어를 왜 사용하게 됐을까? 귀무가설이라는 용어도 낯설어 고생 좀 했는데, 회귀분석처럼 혀 꼬이는 용어 말고 다른 건 뭐 없었을까? 책에는 회귀분석(回歸分析)의 시발을 이렇게 적었다(박성현, "회귀분석", p70~71, 민영사, 1992).

우생학자 프랜시스 골턴(F. Galton)이 아버지와 아들의 키를 조사해 보니, 아버지의 키가 클수록 아들의 키도 컸고 아버지의 키가 작을수록 아들의 키도 작았다. 그런데 특이하게 아버지의 키가 매우 작으면 아들의 키도 매우 작아야 하는데 그렇지 않았다. 마찬가지로 아버지의 키가 매우 크면 아들의 키도 매우 커야 하는데 그렇지 않았다. 그래서 판단하기를, 아버지의 키가 양 극단치로 갈수록 아들의 키는 인간의 평균적인 키로 되돌아 가려는 성질을 발견하고 이를 회귀 regression, 回歸라고 했다.

원래 과학이라는 것이 발견한 사람 이름을 가져다 쓰는 경우가 많은데, 그나마 다행인 것은 골턴분석(?)이라고 하지는 않았다는 것! 안 했다는 것. 아무튼 그래서 혀 꼬이는 용어를 계속 사용해야 한다.

LinEst 함수를 가장 헷갈리게 만드는건 독립변수의 나열 위치가 뒤집어진다는 것이다. 그러지 않아도 복잡한 함수인데 뒤집어진다는 것은 아무리 생각해도 큰 실수 한거다. 뒤집어 진다는 걸 꼭 기억하고 5*(k+1) 만큼의 셀범위(분홍색영역)를 지정한 후 LinEst 함수를 배열함수로 입력하면 된다. 수식 입력 후 그냥 ENTER가 아니라 CTRL + SHIFT + ENTER 키를 같이 누르면 각각의 셀에 지정된 정보의 결과값이 입력된다.

로딩 중...

그런데 뭐 복잡하게 저렇게 많은 결과값을 보여주나? 필요한 건 회귀계수 추정치 밖에 없구만. 그래서 필요에 따라 LinEst 함수의 마지막 status 인수를 True, False로 선별할 수 있게 했다.

그런데 왜 다양한 통계량들이 있어야 하냐면, 기본적으로 회귀모형이 유의미한지를 확인해야 하는데, 그러기 위해서는 F검정통계량과 자유도가 반드시 필요하다. 그리고 회귀계수를 검정하는데도 여타 정보들이 반드시 필요하다. 한마디로 얘기하면, 필요하니깐 있는 거다.

[추가 기능]에 [분석도구]가 설치되어 있다면 [데이터 분석] - [회귀분석] 기능이 등록되어 있을 것이다(엑셀2003 버전 기준. 엑셀2007 버전에서는 [Office 단추] - [Excel 옵션] 버튼을 클릭한 다음, 대화상자 왼쪽에서 [추가 기능] 선택ㅡ엑셀러). 그 회귀분석 기능을 이용하면 아래와 같은 결과가 나온다.

로딩 중...

괜히 이렇게 많은 숫자가 나오는 게 아니란 걸 대충은 알겠는데 LinEst 함수로 어떻게 할 수 있을까? 그럼 한번 해보자.

로딩 중...

보기가 조금 불편한데 노랑색 셀의 내용은 해당 셀의 수식이다. 즉 노랑색 셀을 각 행별로 복사하여 붙여넣기 하면 위에 있는 "요약출력" 결과와 같다.

로딩 중...
로딩 중...
로딩 중...
로딩 중...
로딩 중...

궁금한 분들은 직접 한번 해보시길...

아이엑셀러 닷컴