1일차
주제: 서울시 생활정보 기반 대중교통 수요 분석
- 도메인 지식 - 서울시 관련
- 서울 총 25개의 구
- 인구 가장 많은 구: 송파구, 인구 가장 적은 구: 중구
- 면적 가장 큰 구: 서초구, 면적 가장 작은 구: 중구
- 도로 길이의 합이 가장 큰 구(고속도로 제외): 성북구
- 도로의 면적이 가장 큰 구: 강남구
- 도메인 지식 - 버스 노선
- 서울 지선 + 간선 버스 노선 수: 375개
- 서울 소속 광역 버스 노선 수: 11개
- 야간 노선의 운행 시작 노선 수: 00 시(자정)
- KT 광화문 지의 버스정류장 번호: 01118
1. 미션 1.1
| 정류장수 | 노선수 | 승차총승객수 | 하차총승객수 | 승차평균승객수 | 하차평균승객수 |
---|
상위 5개 지역 | ‘서초구’, ‘성북구’, ‘강서구’, ‘마포구’, ‘강남구’ | ‘서대문구’, ‘종로구’, ‘중구’, ‘마포구’, ‘영등포구’ | ‘강남구’, ‘서초구’, ‘관악구’, ‘서대문구’, ‘성북구’ | ‘강남구’, ‘관악구’, ‘서초구’, ‘성북구’, ‘영등포구’ | ‘관악구’, ‘동대문구’, ‘강북구’, ‘종로구’, ‘강남구’ | ‘관악구’, ‘동대문구’, ‘강북구’, ‘종로구’, ‘금천구’ |
하위 5개 지역 | ‘용산구’, ‘양천구’, ‘동대문구’, ‘광진구’, ‘중구’ | ‘도봉구’, ‘강서구’, ‘중랑구’, ‘광진구’, ‘강동구’ | ‘금천구’, ‘도봉구’, ‘강동구’, ‘성동구’, ‘광진구’ | ‘금천구’, ‘도봉구’, ‘강동구’, ‘광진구’, ‘성동구’ | ‘강동구’, ‘성동구’, ‘강서구’, ‘노원구’, ‘중랑구’ | ‘강동구’, ‘성동구’, ‘강서구’, ‘노원구’, ‘중랑구’ |
- 대체로 그래프들의 분포가 유사하다
- 상, 하위 지역
- 상위 5개 지역: 서초구, 성북구, 강서구, 마포구, 강남구 → 대중교통 활발
- 하위 5개 지역: 용산구, 양천구, 동대문구, 광진구, 중구 → 대중교통 활발하지 못함
- 상위, 하위 5개 지역의 비교가 필요: 어떤 요인에 따라 차이가 나는지 (인구 수, 지역 활성화도 등)
- 정류장 수가 많을수록 대중교통 이용이 활발한지, 승차평균승객수가 높을수록 대중교통 수요가 높은지 등을 고려 필요
- 정리
- 데이터: 서울시 버스노선별 정류장별 승하차 인원 정보, 서울시 버스정류장 위치정보
- 서울시의 버스 정류장들로만 추출하여 자치구 별로 승하차 인원정보, 노선 및 정류장 정보로 이루어진 데이터프레임 생성
- 자치구별 변수들의 분포 파악
2. 미션 1.2
| 평균 이동 시간 | 이동인구(합) | 총 이동 시간 | 총 이동 인구 |
---|
상위 5개 지역 | 강동구, 송파구, 강서구, 은평구, 도봉구 | 강남구, 송파구, 서초구, 강동구, 강서구 | 강남구, 송파구, 서초구, 영등포구, 강서구 | 강남구, 송파구, 서초구, 영등포구, 마포구 |
하위 5개 지역 | 종로구, 동작구, 중구, 성동구, 용산구 | 동대문구, 강북구, 도봉구, 용산구, 금천구 | 중랑구, 강북구, 양천구, 도봉구, 금천구 | 용산구, 중랑구, 강북구, 도봉구, 금천구 |
- 송파구, 강서구, 강남구, 서초구, 영등포구: 이동시간이 많이 소요되고 이동 인구수도 많아 정류장이 더 필요할 것 같음
- 도봉구, 강북구, 금천구, 중랑구: 평균적인 이동 시간에 비해서 나머지 요인들이 너무 적음 → 인구 수가 적은 지역이거나, 인구 수 대비 이동 인구 수가 많을 수 도 있다 → 정류장이 더 필요할 것 같음
- 종로구, 동작구, 중구, 성동구, 용산구, 동대문구, 양천구: 평균 이동 시간 및 이동 인구 수가 적어 정류장이 다른 지역에 비해 덜 필요할 수도 있음
- 강동구, 마포구: 평균 이동 시간, 인구 수, 총 이동 인구 수가 많아 정류장이 필요할 수 도 있다
- 평균 이동시간은 대체로 1시간 이상이다
- 정리
- 데이터: 서울 시 구별 이동 2024년 1월 데이터
- 도착 지역구를 기준으로 이동 시간, 인구 데이터프레임 생성
- 지역구별 이동관련 변수들의 분포 확인
3. 미션 1.3
| 남자 | 여자 | 합계 |
---|
상위 5개 지역 | ‘송파구’, ‘강서구’, ‘강남구’, ‘관악구’, ‘노원구’ | ‘송파구’, ‘강서구’, ‘강남구’, ‘노원구’, ‘관악구’ | ‘송파구’, ‘강서구’, ‘강남구’, ‘노원구’, ‘관악구’ |
하위 5개 지역 | ‘성동구’, ‘금천구’, ‘용산구’, ‘종로구’, ‘중구’ | ‘성동구’, ‘금천구’, ‘용산구’, ‘종로구’, ‘중구’ | ‘성동구’, ‘금천구’, ‘용산구’, ‘종로구’, ‘중구’ |
- 남, 여로 나눠도 상위, 하위 지역 별 비율이 거의 일치한다
'송파구', '강서구', '강남구', '관악구', '노원구'
- 송파구, 강서구, 강남구: 대중교통도 활발하고 이동 인구, 인구 거의 모든 수치가 많다, 다른 지역에 비해 상대적으로 시설이 잘되어 있음
- 관악구, 노원구: 인구 수와 승하차 인구수가 많은 편이지만 정류장, 노선의 수는 적다 → 정류장 필요
'성동구', '금천구', '용산구', '종로구', '중구'
- 인구수도 적지만 이동 시간, 이동 인구수가 적다 → 정류장 덜 필요
- 정리
- 데이터: 서울 시 주민 등록 데이터
- 자치구별 인구 데이터 프레임 생성
- 자치구별 인구 분포 확인
4. 미션 1.4
| 한식 일반 음식점업.1 | 남녀용 겉옷 및 셔츠 도매업.1 | 기타주점업.1 | 일반 교과 학원.1 | 한식 육류요리 전문점.1 | 커피전문점.1 |
---|
상위 5개 지역 | ‘강남구’, ‘서초구’, ‘영등포구’, ‘중구’, ‘종로구’ | ‘중구’, ‘강남구’, ‘송파구’, ‘금천구’, ‘성동구’ | ‘마포구’, ‘강남구’, ‘강서구’, ‘관악구’, ‘광진구’ | ‘강남구’, ‘양천구’, ‘송파구’, ‘서초구’, ‘노원구’ | ‘강남구’, ‘마포구’, ‘송파구’, ‘서초구’, ‘강서구’ | ‘강남구’, ‘마포구’, ‘서초구’, ‘종로구’, ‘중구’ |
하위 5개 지역 | ‘금천구’, ‘은평구’, ‘중랑구’, ‘동작구’, ‘도봉구’ | ‘강북구’, ‘은평구’, ‘서대문구’, ‘양천구’, ‘도봉구’ | ‘양천구’, ‘노원구’, ‘금천구’, ‘성동구’, ‘도봉구’ | ‘강북구’, ‘용산구’, ‘금천구’, ‘종로구’, ‘중구’ | ‘강북구’, ‘양천구’, ‘서대문구’, ‘금천구’, ‘도봉구’ | ‘은평구’, ‘금천구’, ‘강북구’, ‘중랑구’, ‘도봉구’ |
- 대체로 그래프들의 분포가 유사하다
- 상위 5개 지역: 서초구, 성북구, 강서구, 마포구, 강남구 → 대중교통 활발
- 하위 5개 지역: 용산구, 양천구, 동대문구, 광진구, 중구 → 대중교통 활발하지 못함
- 상위, 하위 5개 지역의 비교가 필요: 어떤 요인에 따라 차이가 나는지 (인구 수, 지역 활성화도 등)
- 정류장 수가 많을수록 대중교통 이용이 활발한지, 승차평균승객수가 높을수록 대중교통 수요가 높은지 등을 고려 필요
- 정리
- 데이터: 서울 시 구별 등록 업종 상위 10개 데이터
- 자치구 별로 대중교통 및 업종 수 많은 업종들만 선택해서 데이터프레임 생성
- 자치구 별 업종업체의 분포 확인
2일차
조별 과제
- 해결할 문제: 1일차의 생성시킨 4개의 데이터들을 합쳐서 버스 노선 추가 필요 대상 지역(구 단위)을 선정하기
- 가설 수립
- 가설 1 : 업종밀집도가 자치구의 노선 수에 영향을 줄 것이다
- 가설 1-1: 택시운송업 종사자가 많은 자치구는 버스 노선이 많을 것이다
- 가설 1-2: 커피전문점 종자가 많은 자치구는 버스 노선이 많을 것이다
- 가설 1-3: 한식 일반 음식점업 종사자가 많은 자치구는 버스 노선이 많을 것이다
- 가설 2 : 구별 총인구이동(유출+유입)에서 20대 ~ 40대 인구가 차지하는 비율이 높을수록 정류장/노선수가 많을 것이다
- 가설 2-1: 구별 승하차인구수가 많을수록 정류장/노선수가 많을 것이다
- 이변량 분석
- 강한 관계의 x [택시운송업, 용달화물자동차]
- 중간 관계의 x [한식 일반 음식점업, 커피전문점]
- 약한 관계의 x [도매업, 기타주점, 한식육류]
- 가설 검증 과정
- 가설 1. 업종밀집도가 자치구의 노선 수에 영향을 줄 것이다
- 택시운송업, 용달화물자동차가 많은 자치구는 노선수가 적다
- 한식 일반 음식점, 커피전문점이 많은 곳은 노선수가 많다
- 가설 2. 자치구별 20대 ~ 40대 이동인구가 차지하는 비율이 높을수록 정류장/노선수가 많을 것이다
- 20-40대 이동인구 비율이 많을수록 정류장, 노선의 수가 많다
- 가설 2-1. 구별 승하차인구수가 많을수록 노선수가 많을 것이다
- 결론
- 송파구, 강서구
- 송파구는 총인구수가 많음에도 평균보다 노선수가 적음.
- 강서구는 택시운송업이 많음
3일차
따릉이 수요 분석
- 목표: 따릉이의 수요와 날씨간 연관성을 분석
- 데이터: 날씨 데이터, 따릉이의 수요 데이터
- 계절별, 평일/주말 별, 시간대 별 따릉이의 수요가 차이날 것이라는 가설을 세우고 데이터 분석 진행
- 날씨 관련 변수를 기준으로 따릉이의 대여량의 합을 구해 관련 변수와 대여량의 관련성을 명확히 보려고 했음
- 이변량 분석
- 강한 관계의 x : 시간, 초미세먼지, 오존, 풍속, 강우여부
- 중간 관계의 x : 미세먼지, 온도
- 약한 관계의 x : 시정, 습도
- 3가지 가설 모두 유의미한 차이가 있는 것으로 확인 되었다
느낀점
- 도메인 지식의 중요성을 깨달았다
- 데이터 탐색 및 분석을 진행할 때 다양한 측면으로 생각하고 고민해야겠다
- 가설을 세우고 진행할 때 간략하게 가설을 세운 후 진행하는 것이 좋다
- 데이터 분석과 관련하여 배운 이론을 실습해 볼 수 있는 좋은 기회였다