나성호의 R 부동산 데이터 분석 특강 (7회)
웹 크롤링으로 아파트단지별 상세정보 수집
나성호는 금융회사에서 데이터 분석을 직접 수행하는 마케터로 17년 동안 근무했다. 지금은 데이터 마이닝 박사 과정에 재학중이며, 머신러닝을 강의하고 있다.
안녕하세요? 나성호입니다. 지난 연재에서 구글맵 API를 활용해 지도 위 시각화 방법에 대해 알아보았습니다. 지금까지 우리가 분석하려는 2019년 1~10월에 거래된 서울특별시 강남구 아파트 매매 실거래가 데이터의 이모저모를 살펴봤습니다. 이번 연재의 종착지는 다양한 머신러닝 알고리즘을 활용하여 아파트 매매금액 결정모형을 하나씩 만들어보고, 가장 우수한 성능을 보이는 모형이 어떤 것인지 소개해드리는 것인데요.
지금 우리가 가지고 있는 데이터로는 입력변수로 활용할 수 있는 컬럼이 매우 부족한 상황입니다. 따라서 이번 회 연재에서는 인터넷에서 아파트단지별 상세정보를 수집하는 방법을 소개해 드릴까 합니다. 현재 인터넷에서 아파트단지 정보를 제공하고 있는 웹사이트는 여러 군데가 있지만, 그 중에서 가장 다양한 정보를 포함하고 있는 곳 중 하나는 한국감정원에서 운영하고 있는 ‘공동주택관리정보시스템’(
http://www.k-apt.go.kr/)이라고 할 수 있겠습니다.
공동주택관리정보시스템 살펴보기
[그림 1]은 공동주택관리정보시스템의 메인 화면입니다. 화면 왼쪽 모서리에 국토교통부와 한국감정원이 보이고, 화면 상단에는 이 웹사이트에서 제공하는 메뉴가 잘 정리되어 있습니다. 먼저 ‘K-apt소개' 메뉴를 클릭하면 ‘공동주택 관리비의 투명성 제고 및 건전한 관리문화 정착도모'를 위해 ‘공동주택관리 정보를 공개' 하고 ‘전자입찰을 운영'하는 시스템이라고 ‘공동주택관리정보시스템'을 소개하고 있습니다.

[그림 1] 한국감정원의 ‘공동주택관리정보시스템' 메인 화면
우리는 아파트단지별 세부 정보를 수집하는 것이 목적이므로 ‘단지정보’를 클릭해보겠습니다. 화면이 바뀌면서 왼편에는 서울특별시 지도가 보이고 오른편에는 지역을 선택할 수 있도록 메뉴가 잘 정리되어 있습니다. [그림 2]에서 보이는 것처럼 ‘발생월기준'은 가장 최근 정보로 자동 설정되는 것 같습니다. 그 아래에 있는 ‘조회조건' 메뉴를 통해 원하는 지역을 선택할 수 있는데요. 예를 들어 ‘서울특별시', ‘강남구'를 선택하면 [그림 2]와 같이 14개 법정동 목록이 출력됩니다.

[그림 2] ‘단지정보' 메뉴로 이동
[그림 2]에서 ‘개포동'을 클릭하면 [그림 3]과 같이 해당 지역의 아파트단지 목록이 출력됩니다. 개포동에는 총 17개의 아파트단지 정보가 포함되어 있습니다. 역시 왼편에는 지도가 보이는데요. 이번에는 각 아파트단지에 파란색 기호가 추가되어 있습니다. 아파트단지를 선택하려면 지도 위 파란색 기호를 클릭하거나 오른쪽에 있는 아파트단지 목록에서 조회하고자 하는 아파트단지를 클릭하면 됩니다.
덧글 남기기