데이터 전문가 지식포털 DBGuide.net

  • 로그인
  • 회원가입
  • IT용어사전
  • 사이트맵

D가이드

  • DA
  • SQL
  • 데이터실무
  • DB보안
  • DBMS
    • Tibero
    • Altibase
    • Cubrid
    • Oracle
    • MS-SQL
    • DB2
    • Sybase
    • Informix
    • MySQL
  • 기타
  • 산출물

D라운지

  • 전문가칼럼
  • 기술자료
  • 시장동향
  • 뉴스클리핑
  • Case Study
  • 세미나 자료
    • 주제별 보기
    • 행사별 보기
  • 리포트
  • 제품홍보관

D스토리

  • 데이터이야기
  • DB Q&A
  • DB 노하우
  • DB 튜닝서비스
  • 데이터 직무소개
  • 데이터 인터뷰

빅데이터아카데미

빅데이터 청년인재

사이버교육

  • 전체교육
  • (빅)데이터
  • 데이터아키텍처
  • 프로젝트관리
  • Oracle
  • MS-SQL Server
  • 대용량 DB
  • OS
  • Tool
  • JAVA
  • Cubrid
  • DB동향
  • Tibero
  • (자격검정)SQL과정

데이터 자격시험

  • 시험안내
    • 국가공인 데이터아키텍처전문가
    • 데이터아키텍처준전문가
    • 국가공인 SQL전문가
    • 국가공인 SQL개발자
    • 국가공인 데이터분석전문가
    • 국가공인 데이터분석준전문가
  • 시험일정
  • 시험접수
    • 접수안내
    • 접수신청
    • 접수조회/수정
    • 접수확인서 출력
    • 환불신청
    • 수험표출력
  • 시험결과
    • 시험결과조회
    • 자격증 출력
    • 보수교육
  • 시험교재
    • DA가이드
    • SQL가이드
    • 분석가이드
    • 분석가이드(개정)
  • 자격활용
    • 기업우대    
    • 공공우대
    • 대학우대
  • 고객센터
    • 공지사항
    • 자료실
    • 자주하는질문
    • 자격불편신고

전문가 칼럼

HomeD라운지전문가 칼럼rss

지식라이브러리

  • 전문가칼럼
  • 기술자료
  • 시장동향
  • 뉴스클리핑
  • Case Study
  • 세미나 자료
    • 주제별보기
    • 행사별보기
  • 리포트
  • 제품 홍보관
    • 제품 콘텐츠관
    • 제품 상세검색


빅데이터분석

지식라이브러리 : 전문가 칼럼
전문가칼럼 보기
원문을 보시려면 로그인 하셔야 합니다. 로그인
추천 : 0회 추천하기
tf
제목 나성호의 R 부동산 데이터 분석 특강 (7회) : 웹 크롤링으로 아파트단지별 상세정보 수집
분류 빅데이터분석 조회수 2933
작성일자 2019.12.17 출처 한국데이터산업진흥원
첨부파일 작성자 dbguide

◎ 연재기사 ◎

▷ 나성호의 R 부동산 데이터 분석 특강 (1회) : 준비: 공공데이터포털에서 오픈 API로 데이터 불러오기
▷ 나성호의 R 부동산 데이터 분석 특강 (2회) : 수집: R로 공공데이터포털의 오픈 API 데이터 수집
▷ 나성호의 R 부동산 데이터 분석 특강 (3회) : 깨끗한 데이터는 없다, 전처리 타임을 줄여라!
▷ 나성호의 R 부동산 데이터 분석 특강 (4회) : 탐색적 분석으로 데이터의 특징과 구조 이해
▷ 나성호의 R 부동산 데이터 분석 특강 (5회) : 지도 서비스에서 위도와 경도 데이터 수집
▷ 나성호의 R 부동산 데이터 분석 특강 (6회) : 수집한 지리정보를 활용한 지도 위 시각화
▶ 나성호의 R 부동산 데이터 분석 특강 (7회) : 웹 크롤링으로 아파트단지별 상세정보 수집

나성호의 R 부동산 데이터 분석 특강 (7회)

웹 크롤링으로 아파트단지별 상세정보 수집



나성호는 금융회사에서 데이터 분석을 직접 수행하는 마케터로 17년 동안 근무했다. 지금은 데이터 마이닝 박사 과정에 재학중이며, 머신러닝을 강의하고 있다.



안녕하세요? 나성호입니다. 지난 연재에서 구글맵 API를 활용해 지도 위 시각화 방법에 대해 알아보았습니다. 지금까지 우리가 분석하려는 2019년 1~10월에 거래된 서울특별시 강남구 아파트 매매 실거래가 데이터의 이모저모를 살펴봤습니다. 이번 연재의 종착지는 다양한 머신러닝 알고리즘을 활용하여 아파트 매매금액 결정모형을 하나씩 만들어보고, 가장 우수한 성능을 보이는 모형이 어떤 것인지 소개해드리는 것인데요.

지금 우리가 가지고 있는 데이터로는 입력변수로 활용할 수 있는 컬럼이 매우 부족한 상황입니다. 따라서 이번 회 연재에서는 인터넷에서 아파트단지별 상세정보를 수집하는 방법을 소개해 드릴까 합니다. 현재 인터넷에서 아파트단지 정보를 제공하고 있는 웹사이트는 여러 군데가 있지만, 그 중에서 가장 다양한 정보를 포함하고 있는 곳 중 하나는 한국감정원에서 운영하고 있는 ‘공동주택관리정보시스템’(http://www.k-apt.go.kr/)이라고 할 수 있겠습니다.

공동주택관리정보시스템 살펴보기



[그림 1]은 공동주택관리정보시스템의 메인 화면입니다. 화면 왼쪽 모서리에 국토교통부와 한국감정원이 보이고, 화면 상단에는 이 웹사이트에서 제공하는 메뉴가 잘 정리되어 있습니다. 먼저 ‘K-apt소개' 메뉴를 클릭하면 ‘공동주택 관리비의 투명성 제고 및 건전한 관리문화 정착도모'를 위해 ‘공동주택관리 정보를 공개' 하고 ‘전자입찰을 운영'하는 시스템이라고 ‘공동주택관리정보시스템'을 소개하고 있습니다.


[그림 1] 한국감정원의 ‘공동주택관리정보시스템' 메인 화면


우리는 아파트단지별 세부 정보를 수집하는 것이 목적이므로 ‘단지정보’를 클릭해보겠습니다. 화면이 바뀌면서 왼편에는 서울특별시 지도가 보이고 오른편에는 지역을 선택할 수 있도록 메뉴가 잘 정리되어 있습니다. [그림 2]에서 보이는 것처럼 ‘발생월기준'은 가장 최근 정보로 자동 설정되는 것 같습니다. 그 아래에 있는 ‘조회조건' 메뉴를 통해 원하는 지역을 선택할 수 있는데요. 예를 들어 ‘서울특별시', ‘강남구'를 선택하면 [그림 2]와 같이 14개 법정동 목록이 출력됩니다.


[그림 2] ‘단지정보' 메뉴로 이동


[그림 2]에서 ‘개포동'을 클릭하면 [그림 3]과 같이 해당 지역의 아파트단지 목록이 출력됩니다. 개포동에는 총 17개의 아파트단지 정보가 포함되어 있습니다. 역시 왼편에는 지도가 보이는데요. 이번에는 각 아파트단지에 파란색 기호가 추가되어 있습니다. 아파트단지를 선택하려면 지도 위 파란색 기호를 클릭하거나 오른쪽에 있는 아파트단지 목록에서 조회하고자 하는 아파트단지를 클릭하면 됩니다.

덧글 남기기
지식라이브러리 : 전문가 칼럼 : 덧글쓰기

덧글쓰기 입력

* 욕설, 광고, 비방, 도배성 글 등은 자동삭제 대상입니다.
덧글은 한글 300자까지 입력 가능합니다.
 
-->
지식라이브러리 : 전문가 칼럼 : 덧글보기
전문가 칼럼게시글에 대한 덧글
덧글내용 날짜 작성자 삭제여부
연재 올려 주심에 감사합니다. 94~95번줄에서 에러가 납니다. 에러: Column names `c(.id = 1)`, `c(.id = 2)`, `c(.id = 2)`, `c(.id = 2)`, `c(.id = 2)`, ... (and 74 more) must not be duplicated. Use .name_repair to specify repair. 그리고 142번줄의 세로줄은 오타인가요? 2020.01.22 김민석
이전, 다음 게시물 목록
이전글 최상운의 사선(死線)에서 (7회) : 데이터 모델 요소: 주제영역
다음글 노찬형의 제로에서 시작하는 데이터 모델링 시즌II (9회) : 식별자로 인스턴스의 유일성 확보
스크랩목록
사이버교육02)3708-5391
빅데이터아카데미02)3708-5393
자격시험02)3708-5415
청년인재02)3708-5394

DBGuide.net 데이터 전문가 지식포털

  • 개인정보보호정책
  • 관련사이트
  • 콘텐츠 불법 사용 규제
  • 이메일무단수집거부
  • Contact Us
  • rss

서울시 중구 세종대로9길 42 부영빌딩 8층 한국데이터산업진흥원 | 사업자등록번호 : 102-82-08963 | 통신판매번호 : 2013-서울종로-0591 | 대표자명 : 민기영

Copyright ⓒ KOREA Data Agency. All rights reserved.