커피박 수거함 입지 선정 배경 및 방법론
커피박이란 커피 찌꺼기를 의미하며, 대부분 일반 쓰레기로 버려져 환경오염의 원인이 되고 있습니다. 그러나 최근 커피박을 친환경 재료로 사용할 수 있다는 의견이 대두되고 있습니다. 우리는 이러한 커피박을 효율적으로 수거하기 위한 최적의 수거함 입지를 선정하려고 합니다.
문제 상황 및 접근 방법
슬프게도 서울 카페의 커피박 양에 대한 데이터는 존재하지 않습니다. 대부분의 커피박이 바로 일반 쓰레기로 버려지기 때문에 데이터로 남아 있지 않은 것이 현실입니다. 따라서, 우리는 서울 카페들의 커피박 양을 대략적으로 추정하기 위해 서울 카페의 매출을 기반으로 변수로 삼고자 합니다.
가정 및 논리
- 카페 매출과 커피박 양의 상관관계: 서울 카페의 매출이 높다는 것은 커피 매출이 높다는 의미이며, 이는 곧 커피박의 양이 많다는 것을 의미합니다.
- 행정동별 매출 데이터 활용: 커피박 데이터를 직접 수집할 수 없더라도, 서울 행정동별 카페 매출 데이터를 통해 커피박 양을 추정할 수 있습니다.
데이터 프레임 생성
이제, 서울 카페 매출 데이터를 기반으로 커피박 양을 추정하는 데이터 프레임을 만들어 보겠습니다.
서울 카페 위치 데이터
서울 카페 정보 데이터 프레임과 행정동 매출 현황 분석
서울 카페 정보 데이터 프레임을 기반으로 행정동 별 카페 매출 현황을 파악하고자 합니다. 이를 위해 경도와 위도를 이용해 행정동 변수를 추출할 계획입니다. 이 과정은 QGIS를 활용하여 위치 속성에 따라 데이터를 결합하면 가능합니다.
방법론
- 데이터 준비:
- 서울 카페 정보 데이터 프레임: 카페의 위치 정보(경도, 위도) 및 매출 데이터를 포함합니다.
- 서울 행정동 데이터: 각 행정동의 경계 정보를 포함합니다.
- QGIS를 활용한 위치 속성 결합:
- QGIS에서 서울 카페 정보 데이터와 서울 행정동 데이터를 불러옵니다.
- 경도와 위도 정보를 기반으로, 카페의 위치를 행정동 경계와 매칭하여 각 카페에 행정동 변수를 추가합니다.
- 결과 데이터 프레임 생성:
- QGIS에서 결합된 데이터를 내보내어, 각 카페에 행정동 변수가 포함된 최종 데이터 프레임을 생성합니다.
Qgis를 통한 위치결합
Qgis를 통해 서울 카페 데이터 프레임과 서울 행정동 데이터를 결합했습니다. 그 후 필요한 변수만 추출해서 새로운 데이터 프레임을 만들었습니다. 이 데이터 프레임을 만든 이유는 제가 상권 코드, 행정 코드별 카페 매출 데이터가 있기 때문에 결합을 위해 지금 데이터 프레임을 만들었습니다.
데이터 프레임 Merge
저는 이 데이터를 써야 하는데 상권 코드 구분으로 분기당 매출 금액이 나와 있습니다. 그렇기 때문에 상권 코드를 행정 코드와 결합한 후 행정 코드와 행정동을 결합하면 서울 행정동 별 카페 매출을 알 수 있습니다.
지금 행정 코드 데이터와 위의 서울 행정동 카페 데이터를 결합하면 행정동 코드 변수를 만들 수 있고 행정동 코드 변수를 만들면 상권 코드와 결합할 수 있습니다.
여기서 상권 코드와 행정동 코드를 결합한 후 마지막 목표의 데이터 프레임을 만들겠습니다. 여기서 중요한 것은 행정동 코드 별로 여러 개의 상권이 존재합니다. 하지만 저는 상권 코드별 카페 데이터는 존재하지 않기 때문에 행정동 코드로 그룹으로 묶어 여러개의 상권의 매출을 평균 낸 데이터로 사용하겠습니다. 만약 상권 위치가 있는 데이터가 존재한다면 상권을 기준으로 매출을 측정하는 것이 더 신뢰도를 높일 수 있습니다.
시군구, 행정동 기준 서울 카페 매출 데이터
최종 데이터 프레임 설명 및 향후 계획
최종적으로 완성된 데이터 프레임은 서울 각 행정동에 위치한 카페들의 매출 현황을 담고 있습니다. 이 데이터 프레임의 의미와 한계점을 다음과 같이 설명할 수 있습니다.
데이터 프레임의 의미
- 행정동별 카페 매출 합계:
- 각 행정동에 위치한 모든 카페의 매출을 합산하여 해당 행정동의 총 매출을 나타냅니다.
- 예를 들어, 특정 행정동에 컴포즈 커피, 카페베네 등 여러 카페가 존재한다면, 이들의 매출을 합산하여 해당 행정동의 총 매출로 표시됩니다.
한계점 및 개선 방안
- 세밀한 매출 데이터 부족:
- 현재로서는 개별 카페의 매출 데이터를 구체적으로 파악할 수 없어, 행정동별 총 매출만을 제공할 수 있습니다.
- 이는 데이터의 세밀함과 정확성을 다소 떨어뜨릴 수 있지만, 현재 사용 가능한 데이터로는 최선의 결과입니다.
- 신뢰성 확보를 위한 추가 데이터 확인:
- 데이터의 신뢰성을 높이기 위해 추가적인 데이터를 검토할 예정입니다.
- 다른 출처에서 더 나은 데이터가 존재하는지 확인하고, 이를 통해 분석 결과의 신뢰성을 높이겠습니다.
향후 계획
- 데이터 검토 및 개선:
- 다른 데이터 소스에서 더 나은 데이터를 찾아보고, 이를 통해 현 데이터의 신뢰성을 높일 계획입니다.
- 예를 들어, 보다 세부적인 매출 데이터나 다른 지역의 데이터를 추가하여 비교 분석할 수 있습니다.
- 블로그 업로드:
- 데이터 검토 및 개선 작업이 완료되면, 다음 블로그 포스트에 더 나은 데이터를 기반으로 한 분석 결과를 업로드할 예정입니다.
- 이를 통해 독자들에게 더 정확하고 신뢰할 수 있는 정보를 제공할 수 있도록 하겠습니다.
결론
현재 데이터 프레임은 서울 행정동별 카페 매출 현황을 파악하는 데 유용한 정보를 제공합니다. 비록 세밀한 매출 데이터를 포함하지는 못했지만, 이는 현 데이터로 최선을 다한 결과입니다. 향후 추가적인 데이터를 검토하고, 더 나은 분석 결과를 제공함으로써 신뢰성을 더욱 높이겠습니다.
'Spatial Analysis > 2022 데이터 분석.활용 공모전(행안부)' 카테고리의 다른 글
커피박 프로젝트 E (상권 데이터 결합) (0) | 2022.11.15 |
---|---|
커피박 프로젝트 A (상권의 카페 현황) (0) | 2022.11.04 |
커피박 프로젝트 F (서울 상권의 시군구와 원두 수입량) (0) | 2022.11.04 |
커피박 프로젝트 D (상권의 커피 매출을 이용한 커피박 추정과 신뢰구간) (0) | 2022.11.02 |
커피박 프로젝트 C (행정동에서 상권으로 바꾼 이유) (0) | 2022.11.02 |