빅데이터 분석 전문가 19기
기계학습 방법을 활용한 신도시 아파트 가격변동 요인 분석
THE CHALLENGES
데이터를 잘 다뤄보고 싶다는 목표를 갖고 모인 교육생들이 2주 동안 하루 8시 간 넘게 수업을 받았다. 정보기술 업계에서 일하는 사람이 한 달의 절반을 일 터가 아닌 교육장으로 나가는 경우는 흔한 일은 아니다. 이 귀중한 시간을 어 떻게 활용해야 할까? 우선 재미가 있어야 뭔가 몰입할 수 있지 않을까 하는 생 각에 이르렀다.
흥미로워야 한다는 기준에 맞춰 신도시 아파트 가격 변동요인 분석을 주 제로 잡았다. 남의 얘기가 아닌 우리들의 얘기이자 관심거리이기에 프로젝트 과정 중에 배우는 것도 적지 않을 것이라는 기대도 했다. 그래서 서울 근교 신 도시를 중심으로 아파트 매매가격 변동에 영향을 미치는 주요 환경요인들이 무엇인지 기계학습 기법을 이용하여 분석해 보았다. 분석 과정은 해당 아파트 단지에 대한 평판분석을 위해 신문기사, SNS 등에서 추출된 긍정 또는 부정적 인 단어 횟수 추이와 실매매가 추이 간 연관성 분석 및 주변 환경요인과의 연 관성을 중심으로 진행되었다.
주택가격 변동요인
주택가격에 관한 이론 또는 연구의 기본방향은 주택가격에 영향을 미치는 요 인에 대한 분석(주택가격 형성)과 주택가격의 변동 및 상승 및 하락에 영향을 미 치는 요인에 관한 연구(주택가격 변동) 등으로 나눌 수 있다.
주택가격 형성은 크게 사회적 요인, 경제적 요인, 행정적 또는 규제 요인, 그리고 토지 자체적 요인 등에 영향을 받는 것으로 알려져 있다.1 사회적 요인 이란 인구, 가구 구성 등을 의미하며 경제적 요인은 저축, 소비성향 수준 및 물 가, 임금수준, 고용환경 등이 주된 요인으로 꼽힌다.
반면 주택가격 변동에 영향을 미치는 요인은 수없이 많을 수 있다. 주택 수 요자가 거주 형태 선택 시 선호하는 환경은 각각 다를 수밖에 없기 때문이다. 예를 들어 아파트 브랜드, 단지 규모, 전용 면적, 건축 년도, 층수 등 주택 자체 에 대한 선호도와 학군 및 미래교육 여건 변화 가능성, 교통으로 대변되는 거 주지 주변 접근 용이성과 개선 가능성(지하철 개통 예정 등), 주변 관공서 존재 여 부, 생활편의 시설 등을 들 수 있다.
분석 목표
주택가격 변동 요인 분석에 초점을 맞췄다. 주택가격 변동은 실제 매매가격 변 동률을 기준으로 했다. 변동 요인으로는 앞서 소개한 변동 요인 전체를 고려할 수도 있지만, 데이터 접근이 용이한 공개 데이터 위주로 선택했다. 분석 목표는 크게 두 가지로 1)특정 지역에 대한 부동산(아파트) 관련 기사와 커뮤니티에서 그 지역에 대한 긍정 또는 부정적 평가 정도(횟수)가 실제 매매가격 변동 패턴 과 유의미한 상관관계가 있는지 여부, 2)매매가격 상승률을 상위/하위 등 일정 구간으로 구분한 뒤 군집분석을 통해 상승률 구분에 영향을 미치는 주요 환경 요인이 무엇인지 알아보는 것으로 목표를 수립했다.
THE APPROACH
기초 데이터의 분류
본 프로젝트 분석 목표에 필요한 기초 데이터는 크게 세 가지로 분류된다.
① 아파트 실거래가 데이터: 국토교통부 실거래가 공개 시스템 월별 자료
(http://rtdown.molit.go.kr/download/downloadMainList.do)
② 아파트 단지 주변 환경에 대한 정형 및 비정형 데이터: 공동주택관리정보시스템
(K-apt, http://www.k-apt.go.kr)
③ 특정 지역 아파트에 대한 기사, 의견 등 비정형 텍스트 데이터: 신문기사
....