1 분 소요

Project 01. Analysis Seoul CCTV

프로젝트 개요

목표

  • 서울시 구별 CCTV 현황 데이터 확보
  • 인구 현황 데이터 확보
  • CCTV 데이터와 인구 현황 데이터 합치기
  • 데이터 정리 및 정렬
  • 그래프로 시각화
  • 전체적인 경향 파악
  • 경향에서 벗어난 데이터 강조

데이터 읽기

Pandas로 CSV, 엑셀 파일 읽기

  • R만큼의 강력한 데이터 핸들링 성능을 제공하는 모듈
  • 단일 프로세스에서는 최대 효율
  • 코딩 가능하고 응용 가능한 엑셀

Pandas DataFrame 구조


column 이름으로 조회


서울 CCTV 수 column 이름 변경


엑셀 설정

  • 읽기 시작할 행(header)과 컬럼 지정(usecols)

서울시 인구수 column 이름 변경


Pandas Basic

  • pandas는 통상 pd로 import
  • 수치해석적 함수가 많은 numpy는 통상 np로 import

Pandas의 데이터형을 구성하는 기본 Series


날짜(시간) 이용


가장 많이 사용되는 데이터형 DataFrame

  • index와 columns를 지정

DataFrame의 기본 정보 확인

  • 각 컬럼의 크기와 데이터형태 확인

DataFrame의 통계적 기본 정보 확인


데이터 정렬


특정 컬럼 읽기

  • iloc 옵션을 이용해 번호로만 접근

Pandas Slice under condition

  • df[condition]과 같이 사용하는 것이 일반적
  • 버전에 따라 문법이 다르므로, 인터넷에서 확보한 소스코드는 Pandas의 버전 확인이 필요

특정 요소 확인


특정 칼럼 제거


apply 메소드

  • 함수를 만들어서 적용하거나 람다 함수 적용 가능

CCTV 데이터 훑어보기

CCTV를 가장 적게 보유한 구


CCTV를 가장 많이 보유한 구


전에 보유한 갯수 대비 최근 3년간 CCTV를 많이 설치한 구


인구현황 데이터 훑어보기

서울시 인구 데이터 확인


데이터 초반 검증


외국인, 고령자 비율 만들기


인구수가 많은 구 확인


고령자비율 확인


출처 서울시 자치구 년도별 CCTV 설치 현황, https://data.seoul.go.kr/dataList/OA-2734/F/1/datasetView.do 서울시 주민등록인구 통계, https://data.seoul.go.kr/dataList/419/S/2/datasetView.do