3주차 | 1차 미니프로젝트

KT AIVLE SCHOOL 5기 3주차에 진행한 1차 미니프로젝트 내용 정리 글입니다.

1일차

주제: 서울시 생활정보 기반 대중교통 수요 분석

  • 도메인 지식 - 서울시 관련
    1. 서울 총 25개의 구
    2. 인구 가장 많은 구: 송파구, 인구 가장 적은 구: 중구
    3. 면적 가장 큰 구: 서초구, 면적 가장 작은 구: 중구
    4. 도로 길이의 합이 가장 큰 구(고속도로 제외): 성북구
    5. 도로의 면적이 가장 큰 구: 강남구
  • 도메인 지식 - 버스 노선
    1. 서울 지선 + 간선 버스 노선 수: 375개
    2. 서울 소속 광역 버스 노선 수: 11개
    3. 야간 노선의 운행 시작 노선 수: 00 시(자정)
    4. KT 광화문 지의 버스정류장 번호: 01118

1. 미션 1.1

 정류장수노선수승차총승객수하차총승객수승차평균승객수하차평균승객수
상위 5개 지역‘서초구’, ‘성북구’, ‘강서구’, ‘마포구’, ‘강남구’‘서대문구’, ‘종로구’, ‘중구’, ‘마포구’, ‘영등포구’‘강남구’, ‘서초구’, ‘관악구’, ‘서대문구’, ‘성북구’‘강남구’, ‘관악구’, ‘서초구’, ‘성북구’, ‘영등포구’‘관악구’, ‘동대문구’, ‘강북구’, ‘종로구’, ‘강남구’‘관악구’, ‘동대문구’, ‘강북구’, ‘종로구’, ‘금천구’
하위 5개 지역‘용산구’, ‘양천구’, ‘동대문구’, ‘광진구’, ‘중구’‘도봉구’, ‘강서구’, ‘중랑구’, ‘광진구’, ‘강동구’‘금천구’, ‘도봉구’, ‘강동구’, ‘성동구’, ‘광진구’‘금천구’, ‘도봉구’, ‘강동구’, ‘광진구’, ‘성동구’‘강동구’, ‘성동구’, ‘강서구’, ‘노원구’, ‘중랑구’‘강동구’, ‘성동구’, ‘강서구’, ‘노원구’, ‘중랑구’
  1. 대체로 그래프들의 분포가 유사하다
  2. 상, 하위 지역
    1. 상위 5개 지역: 서초구, 성북구, 강서구, 마포구, 강남구 → 대중교통 활발
    2. 하위 5개 지역: 용산구, 양천구, 동대문구, 광진구, 중구 → 대중교통 활발하지 못함
  3. 상위, 하위 5개 지역의 비교가 필요: 어떤 요인에 따라 차이가 나는지 (인구 수, 지역 활성화도 등)
  4. 정류장 수가 많을수록 대중교통 이용이 활발한지, 승차평균승객수가 높을수록 대중교통 수요가 높은지 등을 고려 필요
  • 정리
    • 데이터: 서울시 버스노선별 정류장별 승하차 인원 정보, 서울시 버스정류장 위치정보
    • 서울시의 버스 정류장들로만 추출하여 자치구 별로 승하차 인원정보, 노선 및 정류장 정보로 이루어진 데이터프레임 생성
    • 자치구별 변수들의 분포 파악

2. 미션 1.2

 평균 이동 시간이동인구(합)총 이동 시간총 이동 인구
상위 5개 지역강동구, 송파구, 강서구, 은평구, 도봉구강남구, 송파구, 서초구, 강동구, 강서구강남구, 송파구, 서초구, 영등포구, 강서구강남구, 송파구, 서초구, 영등포구, 마포구
하위 5개 지역종로구, 동작구, 중구, 성동구, 용산구동대문구, 강북구, 도봉구, 용산구, 금천구중랑구, 강북구, 양천구, 도봉구, 금천구용산구, 중랑구, 강북구, 도봉구, 금천구
  1. 송파구, 강서구, 강남구, 서초구, 영등포구: 이동시간이 많이 소요되고 이동 인구수도 많아 정류장이 더 필요할 것 같음
  2. 도봉구, 강북구, 금천구, 중랑구: 평균적인 이동 시간에 비해서 나머지 요인들이 너무 적음 → 인구 수가 적은 지역이거나, 인구 수 대비 이동 인구 수가 많을 수 도 있다 → 정류장이 더 필요할 것 같음
  3. 종로구, 동작구, 중구, 성동구, 용산구, 동대문구, 양천구: 평균 이동 시간 및 이동 인구 수가 적어 정류장이 다른 지역에 비해 덜 필요할 수도 있음
  4. 강동구, 마포구: 평균 이동 시간, 인구 수, 총 이동 인구 수가 많아 정류장이 필요할 수 도 있다
  5. 평균 이동시간은 대체로 1시간 이상이다
  • 정리
    • 데이터: 서울 시 구별 이동 2024년 1월 데이터
    • 도착 지역구를 기준으로 이동 시간, 인구 데이터프레임 생성
    • 지역구별 이동관련 변수들의 분포 확인

3. 미션 1.3

 남자여자합계
상위 5개 지역‘송파구’, ‘강서구’, ‘강남구’, ‘관악구’, ‘노원구’‘송파구’, ‘강서구’, ‘강남구’, ‘노원구’, ‘관악구’‘송파구’, ‘강서구’, ‘강남구’, ‘노원구’, ‘관악구’
하위 5개 지역‘성동구’, ‘금천구’, ‘용산구’, ‘종로구’, ‘중구’‘성동구’, ‘금천구’, ‘용산구’, ‘종로구’, ‘중구’‘성동구’, ‘금천구’, ‘용산구’, ‘종로구’, ‘중구’
  1. 남, 여로 나눠도 상위, 하위 지역 별 비율이 거의 일치한다
  2. '송파구', '강서구', '강남구', '관악구', '노원구'
    1. 송파구, 강서구, 강남구: 대중교통도 활발하고 이동 인구, 인구 거의 모든 수치가 많다, 다른 지역에 비해 상대적으로 시설이 잘되어 있음
    2. 관악구, 노원구: 인구 수와 승하차 인구수가 많은 편이지만 정류장, 노선의 수는 적다 → 정류장 필요
  3. '성동구', '금천구', '용산구', '종로구', '중구'
    1. 인구수도 적지만 이동 시간, 이동 인구수가 적다 → 정류장 덜 필요
  • 정리
    • 데이터: 서울 시 주민 등록 데이터
    • 자치구별 인구 데이터 프레임 생성
    • 자치구별 인구 분포 확인

4. 미션 1.4

 한식 일반 음식점업.1남녀용 겉옷 및 셔츠 도매업.1기타주점업.1일반 교과 학원.1한식 육류요리 전문점.1커피전문점.1
상위 5개 지역‘강남구’, ‘서초구’, ‘영등포구’, ‘중구’, ‘종로구’‘중구’, ‘강남구’, ‘송파구’, ‘금천구’, ‘성동구’‘마포구’, ‘강남구’, ‘강서구’, ‘관악구’, ‘광진구’‘강남구’, ‘양천구’, ‘송파구’, ‘서초구’, ‘노원구’‘강남구’, ‘마포구’, ‘송파구’, ‘서초구’, ‘강서구’‘강남구’, ‘마포구’, ‘서초구’, ‘종로구’, ‘중구’
하위 5개 지역‘금천구’, ‘은평구’, ‘중랑구’, ‘동작구’, ‘도봉구’‘강북구’, ‘은평구’, ‘서대문구’, ‘양천구’, ‘도봉구’‘양천구’, ‘노원구’, ‘금천구’, ‘성동구’, ‘도봉구’‘강북구’, ‘용산구’, ‘금천구’, ‘종로구’, ‘중구’‘강북구’, ‘양천구’, ‘서대문구’, ‘금천구’, ‘도봉구’‘은평구’, ‘금천구’, ‘강북구’, ‘중랑구’, ‘도봉구’
  1. 대체로 그래프들의 분포가 유사하다
  2. 상위 5개 지역: 서초구, 성북구, 강서구, 마포구, 강남구 → 대중교통 활발
  3. 하위 5개 지역: 용산구, 양천구, 동대문구, 광진구, 중구 → 대중교통 활발하지 못함
  4. 상위, 하위 5개 지역의 비교가 필요: 어떤 요인에 따라 차이가 나는지 (인구 수, 지역 활성화도 등)
  5. 정류장 수가 많을수록 대중교통 이용이 활발한지, 승차평균승객수가 높을수록 대중교통 수요가 높은지 등을 고려 필요
  • 정리
    • 데이터: 서울 시 구별 등록 업종 상위 10개 데이터
    • 자치구 별로 대중교통 및 업종 수 많은 업종들만 선택해서 데이터프레임 생성
    • 자치구 별 업종업체의 분포 확인

2일차

조별 과제

  • 해결할 문제: 1일차의 생성시킨 4개의 데이터들을 합쳐서 버스 노선 추가 필요 대상 지역(구 단위)을 선정하기
  • 가설 수립
    • 가설 1 : 업종밀집도가 자치구의 노선 수에 영향을 줄 것이다
      • 가설 1-1: 택시운송업 종사자가 많은 자치구는 버스 노선이 많을 것이다
      • 가설 1-2: 커피전문점 종자가 많은 자치구는 버스 노선이 많을 것이다
      • 가설 1-3: 한식 일반 음식점업 종사자가 많은 자치구는 버스 노선이 많을 것이다
    • 가설 2 : 구별 총인구이동(유출+유입)에서 20대 ~ 40대 인구가 차지하는 비율이 높을수록 정류장/노선수가 많을 것이다
      • 가설 2-1: 구별 승하차인구수가 많을수록 정류장/노선수가 많을 것이다
  • 이변량 분석
    • 강한 관계의 x [택시운송업, 용달화물자동차]
    • 중간 관계의 x [한식 일반 음식점업, 커피전문점]
    • 약한 관계의 x [도매업, 기타주점, 한식육류]
  • 가설 검증 과정
    • 가설 1. 업종밀집도가 자치구의 노선 수에 영향을 줄 것이다
      • 택시운송업, 용달화물자동차가 많은 자치구는 노선수가 적다
      • 한식 일반 음식점, 커피전문점이 많은 곳은 노선수가 많다
    • 가설 2. 자치구별 20대 ~ 40대 이동인구가 차지하는 비율이 높을수록 정류장/노선수가 많을 것이다
      • 20-40대 이동인구 비율이 많을수록 정류장, 노선의 수가 많다
    • 가설 2-1. 구별 승하차인구수가 많을수록 노선수가 많을 것이다
      • 승하차인구수가 많을수록 노선수가 많다
  • 결론
    • 송파구, 강서구
      • 송파구는 총인구수가 많음에도 평균보다 노선수가 적음.
      • 강서구는 택시운송업이 많음

3일차

따릉이 수요 분석

  • 목표: 따릉이의 수요와 날씨간 연관성을 분석
  • 데이터: 날씨 데이터, 따릉이의 수요 데이터
  • 계절별, 평일/주말 별, 시간대 별 따릉이의 수요가 차이날 것이라는 가설을 세우고 데이터 분석 진행
    • 날씨 관련 변수를 기준으로 따릉이의 대여량의 합을 구해 관련 변수와 대여량의 관련성을 명확히 보려고 했음
    • 이변량 분석
      • 강한 관계의 x : 시간, 초미세먼지, 오존, 풍속, 강우여부
      • 중간 관계의 x : 미세먼지, 온도
      • 약한 관계의 x : 시정, 습도
    • 3가지 가설 모두 유의미한 차이가 있는 것으로 확인 되었다

느낀점

  • 도메인 지식의 중요성을 깨달았다
  • 데이터 탐색 및 분석을 진행할 때 다양한 측면으로 생각하고 고민해야겠다
  • 가설을 세우고 진행할 때 간략하게 가설을 세운 후 진행하는 것이 좋다
  • 데이터 분석과 관련하여 배운 이론을 실습해 볼 수 있는 좋은 기회였다