엑셀에서 지원하는 회귀분석용 함수 중 가장 파워풀한 것이 LinEst 함수가 아닐까 한다. 이 함수만 알면 Intercept, Slope, Forecast, Trend 함수는 안녕~이다. 그래서 아주 간략하게 LinEst 함수의 사용법에 대해서만 살펴본다. 개인적인 생각인데, 왜 함수명이 LinEst일까? 아마도 Linear + Estimator의 합성어로 '선형(회귀)추정량' 정도일 것 같다.
엑셀에서 함수를 이해하기 위해서는 가장 중요한 게 도움말 확인이다. 그런데 LinEst 함수가 특정 분야(통계)에서 사용되는 함수이다 보니 내용이 어렵다. 함수 입력 방식은,
함수이름 LinEst 쓰고 종속변수(y), 독립변수(x들), 상수항(절편)여부, 통계량 여부를 지정하면 된다. 그리고 잊지 말 것은, LinEst 함수는 배열함수로 5*(k+1)개의 결과를 보여줄 수 있다는 것! 그러면서 LinEst 도움말은 듣도보도 못한 표를 하나 보여준다.
저 하단에 있는 표 이해하는 데 창피하지만 몇년 걸린 거 같다. 실질적인 사용법은 다음에 기회(?) 있을 때 살펴보기로 하고, 일단 도움말에 나온 예제를 이용해 저 표가 어떻게 나오는지부터 정리해 보자.
또 다시 잠깐!
회귀분석 Regression Analysis이란 낯선 용어를 왜 사용하게 됐을까? 귀무가설이라는 용어도 낯설어 고생 좀 했는데, 회귀분석처럼 혀 꼬이는 용어 말고 다른 건 뭐 없었을까? 책에는 회귀분석(回歸分析)의 시발을 이렇게 적었다(박성현, "회귀분석", p70~71, 민영사, 1992).
원래 과학이라는 것이 발견한 사람 이름을 가져다 쓰는 경우가 많은데, 그나마 다행인 것은 골턴분석(?)이라고 하지는 않았다는 것! 안 했다는 것. 아무튼 그래서 혀 꼬이는 용어를 계속 사용해야 한다.
LinEst 함수를 가장 헷갈리게 만드는건 독립변수의 나열 위치가 뒤집어진다는 것이다. 그러지 않아도 복잡한 함수인데 뒤집어진다는 것은 아무리 생각해도 큰 실수 한거다. 뒤집어 진다는 걸 꼭 기억하고 5*(k+1) 만큼의 셀범위(분홍색영역)를 지정한 후 LinEst 함수를 배열함수로 입력하면 된다. 수식 입력 후 그냥 ENTER가 아니라 CTRL + SHIFT + ENTER 키를 같이 누르면 각각의 셀에 지정된 정보의 결과값이 입력된다.
그런데 뭐 복잡하게 저렇게 많은 결과값을 보여주나? 필요한 건 회귀계수 추정치 밖에 없구만. 그래서 필요에 따라 LinEst 함수의 마지막 status 인수를 True, False로 선별할 수 있게 했다.
그런데 왜 다양한 통계량들이 있어야 하냐면, 기본적으로 회귀모형이 유의미한지를 확인해야 하는데, 그러기 위해서는 F검정통계량과 자유도가 반드시 필요하다. 그리고 회귀계수를 검정하는데도 여타 정보들이 반드시 필요하다. 한마디로 얘기하면, 필요하니깐 있는 거다.
[추가 기능]에 [분석도구]가 설치되어 있다면 [데이터 분석] - [회귀분석] 기능이 등록되어 있을 것이다(엑셀2003 버전 기준. 엑셀2007 버전에서는 [Office 단추] - [Excel 옵션] 버튼을 클릭한 다음, 대화상자 왼쪽에서 [추가 기능] 선택ㅡ엑셀러). 그 회귀분석 기능을 이용하면 아래와 같은 결과가 나온다.
괜히 이렇게 많은 숫자가 나오는 게 아니란 걸 대충은 알겠는데 LinEst 함수로 어떻게 할 수 있을까? 그럼 한번 해보자.
보기가 조금 불편한데 노랑색 셀의 내용은 해당 셀의 수식이다. 즉 노랑색 셀을 각 행별로 복사하여 붙여넣기 하면 위에 있는 "요약출력" 결과와 같다.
궁금한 분들은 직접 한번 해보시길...