프로젝트를 하기 위해 자료를 수집하다 보면 원하는 정보를 담고 있는 데이트 프레임을 찾기는 정말 쉽지 않습니다. 그래서 얻고 싶은 정보가 담긴 자료를 수집하여 결합해야 합니다. 커피박 프로젝트 분석에 앞서 커피박 데이터 프레임을 만들어 보겠습니다.
서울 카페 정보 데이터
데이터 추출 방법론
처음 찾은 데이터는 '소상공인_상가(상권)정보_서울' 데이터입니다. 인덱스를 확인한 결과, 약 36만 개의 데이터가 존재합니다. 여기서 서울 카페 정보만을 추출하고자 합니다. 이를 위해 판다스의 loc 기능을 사용하여 원하는 정보만 추출할 계획입니다.
분석 방법
- 데이터 로드 및 확인:
- 먼저, '소상공인_상가(상권)정보_서울' 데이터를 판다스로 로드합니다.
- 데이터의 구조와 인덱스를 확인하여 전체 데이터의 크기를 파악합니다.
- 카페 정보 필터링:
- '업종명' 또는 유사한 컬럼에서 '카페' 관련 키워드를 필터링합니다.
- 이를 위해 loc 기능을 사용하여 '카페'가 포함된 행만 추출합니다.
- 서울 지역 필터링:
- 서울 내 카페 정보를 추출하기 위해 '주소' 또는 관련 컬럼에서 '서울'로 시작하는 데이터를 필터링합니다.
- 데이터 결합 및 저장:
- 추출된 데이터를 결합하여 최종 서울 카페 정보를 포함한 데이터 프레임을 생성합니다.
- 필요한 경우, 데이터 정제 및 중복 제거 과정을 거쳐 최종 데이터를 저장합니다.
loc
커피* 의 상권업종 중분류명을 보시면 커피점/카페입니다. 이러한 정보를 이용하여 서울 카페 정보만 추출하겠습니다. df.loc[df['상권업종중분류명']=='커피점/카페']의 코드를 실행하면 됩니다.
QGIS 시각화
삼십육만건의 데이터에서 이만건의 데이터로 줄어든 것을 확인할 수 있습니다. 즉 커피점/카페에 대한 정보만 추출했습니다. 이러한 데이터 프레임을 만든 이유는 Qgis를 통해 어느 지역에 많이 분포해 있는지 보기 확인하고 서울의 상권을 기준으로 카페의 위치에 대한 상권정보 변수를 가져오기 위함입니다. 보라색 지역이 서울 상권이며 파란색 점들이 서울 카페들입니다. 지금 보시면 서울 카페들이 상권이 아닌 지역에는 거의 없는 것을 확인할 수 있습니다. 서울 카페 데이터 프레임은 경도, 위도를 통해 QGIS 지도에 나타냈으며 서울 상권 정보는 SHP파일로 수집했습니다.
'Spatial Analysis > 2022 데이터 분석.활용 공모전(행안부)' 카테고리의 다른 글
커피박 프로젝트 G (원두+생두 수입 중량을 이용한 상권 커피박 추정량) (0) | 2022.11.15 |
---|---|
커피박 프로젝트 E (상권 데이터 결합) (0) | 2022.11.15 |
커피박 프로젝트 F (서울 상권의 시군구와 원두 수입량) (0) | 2022.11.04 |
커피박 프로젝트 D (상권의 커피 매출을 이용한 커피박 추정과 신뢰구간) (0) | 2022.11.02 |
커피박 프로젝트 C (행정동에서 상권으로 바꾼 이유) (0) | 2022.11.02 |