아이엑셀러 닷컴

국토해양부의 아파트 실거래가 공개 자료를 참고해 뭘 좀 구해볼까 한다. 노원구 내 아파트의 단위면적당 거래금액이 아파트 이름(단지)과 (전용)면적에 따라 차이가 있나 없나를 알아보려고 한다.

단순한 논리로 보면 주거 면적에 상관 없이 그리고 단지 이름에 상관 없이 단위면적당 거래금액은 동일해야 한다. 그러나 실제로는 동일하다고 보기 어려운 게 또한 현실이다. 그래서 궁금증이 생기는 거고.

이런 궁금증을 풀고자 아파트 실거래가 자료를 분석하려는데, 아파트 거래가격에 영향을 미치는 요인은 무수히 많이 있을 것이나 해당 사이트를 통해서는 얻을 수 있는 정보는 주소, 단지명, 면적, 거래일, 거래금액, 층 뿐이다. 물론 다른 출처를 이용해 더 많은 자료를 참고할 수 있겠지만 언제나처럼 그럴 정도의 열의도 없고 그에 따른 분석 모형도 모르니 한정된 정보로 자의적으로 단지와 면적을 처리 요인으로 선정하겠다.

그리고 분석 방법은 반복이 있는 이원배치법을 적용하려 한다. 원래 이원배치법은 실험실처럼 통제된 환경 속에서 실험 요인이 유의미한지 아닌지를 검토하는 분석 방법인데, 실제 생활 속에선 환경을 통제하기란 거의 불가능에 가깝기 때문에 통제되지 못한 환경에서 얻은 자료가 기본 가정(무작위성, 오차~iid N(0,σ²))을 만족할 수 있을 것이라 기대하기는 어렵다. 그렇지만 실제 생활 속에는 통제해야 될 요인이 너무 많고, 또한 그 많은 요인을 반영하는 것이 최선이라 할 수 없기에, 그럼에도 불구하고 이원배치법을 적용하겠다.

그리고 자료 처리는 연필이 아니라 엑셀을 이용한다. 통계 프로그램이 좀 더 편리하지만 이정도 쯤이야...

선정한 요인 중 면적은 다양한 면적 중 많이 선호하는 것으로 생각되는 60㎡, 85㎡ 두 종류를 선택한다. 그리고 단지는 두 종류의 면적을 포함하고 각 면적별 3월 거래가 2회 이상 존재하는 단지를 선택한다. 그 결과 단지는 8개가 선택되었다. 이렇게 하여 처리 대상은 노원구 내 면적과 단지를 만족하는 최근 2회분 거래 자료다.

사설이 길었는데 반복수가 2회인 이원배치법 결과는,

(주의) 해당 자료는 인용 및 분석 과정에 오류 및 한계가 있음.

모든 요인에서 P값이 유의수준 0.05보다 작으므로 단지와 면적 간에 교호작용이 존재하고 주효과도 유의미한 것으로 나타났다(단, 가정을 만족했다면). 사설은 한 움큼 떨고선 결과는 너무 단촐했나? 처리에 이용된 자료는 단지(8)*면적(2)*반복수(2)이므로 총 32개다. 이를 각 집단별로 평균과 표준편차를 구하면,

숫자만 나열되어 감이 잘 안 잡히나 단지의 경우, 표준편차가 많이 유동적인 것을 느낄(?) 수 있다. 그리고 라 단지의 평균이 상대적으로 높게 나타났다.

단지가 서로 다른 경우 단위면적당 거래금액 평균의 차이가 크고, 그에 반해 면적이 서로 다른 경우는 차이가 상대적으로 적다. 그런데 지금 하려는 분석은 이원배치법이므로 단지와 면적을 동시에 고려해야 한다(즉 일원배치법 두 번 하는 거와 다르다는 얘기).

차트에서 선이 서로 교차하는 것을 볼 수 있다. 이는 어떤 요인(A)이 다른 요인(B)과 결합하여 그 효과가 서로 다르게 나타나는 현상으로, 통계에서는 이를 '교호작용'이라 한다. 달리 말하면 이 회사 저 회사 아무나 합병한다고 양의 시너지가 발휘되는 건 아닌 것처럼, 두 요인이 결합한(A*B) 효과는 항상 일정한 방향으로 나타나는 것이 아니라 조합에 따라 서로 다른 방향으로 나타날 수 있다는 것이다(교호작용이 유의미하다는 것은 역으로, 고민할 게 많다는 얘기다).

어쨌거나 이원배치법을 통해 아파트 단지와 면적 간에 교호작용이 유의미하다는 것과 주효과인 단지, 면적 또한 유의미하다는 결과를 얻었다. 덕분에 '이제는' 말할 수 있게 된다.

{가 단지, 60㎡}가 상대적으로 저렴하고,
{라 단지, 85㎡}는 상대적으로 비싸다.
{가, 나, 다, 라, 바 단지}는 면적이 클수록 가격이 상대적으로 높으나,
{마, 아, 자 단지}는 면적이 클수록 가격이 상대적으로 낮다.

즉 면적이 넓다고 해서 항상 프리미엄을 기대할 수 있는 건 아니다. 그리고 면적은 단지와 함께 고려했을 때 유의미한 결과를 보인다. 면적만으로 처리한 일원배치법이 유의미하지 않았던 것과는 상반되는 결과다. 그리고 95% 신뢰구간의 폭은 약 ±16.8 이다.

이렇게 썰(?)을 풀긴 했는데 한계가 많다. 특정 지역에 한정된 자료라 일반화 할 수 없고, 이원배치법의 가정을 만족하지 못했을 가능성 또한 높다. 그리고 단지라는 정보에는 의도하진 않았으나 아파트 이름 외에 지역이라는 특수성이 내포되었을 가능성 또한 높다는 것에 주의 바란다. 이는 면적이 클수록 가격이 높은 단지 중에서 {가, 나, 다, 라 단지}는 공교롭게도 요새 말 많은 상계동, 중계동에 위치하고 있기 때문이다(험난해도 주소 정보를 이용하는 쪽을 고려할걸 그랬나 보다).

아무튼 결과적으로 내세우긴 어려운, 오류가 많이 내재된 분석 결과 되겠다.(-_-)

참고로 이원배치법에 따른 자료 처리 방식을 모르는 경우라도 엑셀의 데이터 분석에 등록된 분석 방식 중 '분산분석: 반복 있는 이원배치법'을 활용하면 손쉽게 결과를 구할 수 있다(단, 자료 배치가 해당 기능이 요구하는 구성이라야 한다). 그렇다고 아무 거나 돌리진 말기 바란다. 컴퓨터란 단순해서 시키는 대로만 처리할 뿐이니까.

들어가기 전에

(주의) 해당 자료는 인용 및 분석 과정에 오류 및 한계가 있음.