지난 블로그에서 다룬 데이터 프레임을 바탕으로 상권별 커피박 데이터를 추정하려고 합니다. 이번 블로그에는 코드와 통계적인 내용도 포함되어 있습니다. 먼저, 커피박을 추정하는 이유를 다시 설명드리겠습니다.
커피박이란 커피를 추출하고 남은 찌꺼기를 의미합니다. 커피박이 일반 쓰레기로 버려질 경우 환경오염의 원인이 됩니다. 따라서, 상권을 기준으로 커피박 추정량을 알 수 있다면 각 상권에 적절한 수의 커피박 수거함을 배치할 수 있습니다. 이를 통해 인력, 시간, 세금을 효율적으로 사용하여 낭비를 줄일 수 있습니다.
서울 상권 매출 데이터
이전 블로그 데이터 프레임에서 일별(월요일, 화요일, 수요일) 데이터를 추가한 데이터 프레임을 만들었고 상권을 기준으로 그룹화한 데이터 프레임 입니다.
서울 상권 커피박 배출량
상권별 커피박 배출량을 추정하는 방법은 다음과 같습니다:
- 음료 매출 비율: 상권의 총 매출에서 음료 매출과 디저트 매출의 비율은 6:4로 나뉩니다.
- 커피 매출 비율: 음료 매출의 75%를 커피 매출로 가정하면, 총 매출의 45%가 커피 매출이 됩니다.
- 주별 매출 추정: 커피박 수거는 2~3일마다 이루어지므로, 월요일, 화요일, 수요일의 매출을 합산하여 3일간의 커피 매출을 계산합니다.
- 커피 판매량 계산: 평균 커피 가격을 5,000원으로 가정하고, 3일간의 커피 매출을 5,000원으로 나누어 3일간의 커피 판매량을 구합니다.
- 커피박 배출량 계산: 커피 1잔당 커피박 배출량은 14.97g이므로, 3일간의 커피 판매량에 14.97g을 곱하여 총 커피박 배출량(g)을 구합니다.
- 단위 변환: 총 커피박 배출량(g)을 톤(t)으로 환산합니다.
예시 계산
- 상권 총 매출: 10,000,000원 (예시)
- 커피 매출 비율: 10,000,000원 × 0.45 = 4,500,000원
- 3일간의 커피 매출: 월요일 1,500,000원, 화요일 1,500,000원, 수요일 1,500,000원
- 3일간의 커피 매출 합산: 4,500,000원
- 3일간의 커피 판매량: 4,500,000원 ÷ 5,000원 = 900잔
- 총 커피박 배출량: 900잔 × 14.97g = 13,473g
- 단위 변환 (톤): 13,473g ÷ 1,000,000 = 0.013473톤
정리
- 음료:디저트=6:4
- 커피:음료(커피 제외)=4.5:1.5(전체 6)
- 월+화+수 매출 *0.45= 상권의 3일 커피 매출
- 커피 매출/5000= 상권의 3일 커피 판매량
- 커피 판매량 *14.59g=상권의 커피박 배출량(g)
- 상권의 커피박 배출량(g)/1000000=상권의 커피박 배출량(t)
커피박 수거함 개수 산정 방법
상권별 커피박 배출량을 통해 커피박 수거함 개수를 산정하는 방법은 다음과 같습니다. 커피박 수거함의 최대 적재량이 80kg(0.08톤)이라고 가정하고, 상권의 커피박 배출량을 이 값으로 나누어 필요한 수거함 개수를 계산합니다.
계산 방법
- 커피박 배출량 추정:
- 상권별로 추정된 커피박 배출량을 구합니다.
- 수거함 개수 산정:
- 커피박 수거함의 최대 적재량을 80kg(0.08톤)으로 가정합니다.
- 상권의 커피박 배출량을 0.08로 나누어 필요한 수거함 개수를 계산합니다.
비즈니스 모델 홍대(커피박)
비즈니스 모델: 홍대 상권의 커피박 수거함 설치
홍대 상권의 3일 커피박 배출량은 약 9톤으로 추정됩니다. 이는 예상보다 많은 양으로, 80개의 수거함이 필요합니다. 홍대 상권에 80개의 수거함을 설치하는 것은 현실적으로 부담이 될 수 있습니다. 따라서, 효율적인 수거함 설치를 위해 몇 가지 고려해야 할 점들이 있습니다.
문제점 및 고려사항
- 상위 4% 상권 제외:
- 서울의 상위 4% 상권을 제외하고는 대부분의 상권에서 적절한 수거함 개수를 설치할 수 있습니다.
- 매출량의 시계열적 변동:
- 상권의 매출량은 시계열적으로 변동합니다.
- 6년간의 표본 데이터를 사용해 상권의 매출량 평균을 구했지만, 매출 변동에 따라 오차가 발생할 수 있습니다.
신뢰성 문제 해결: 구간 추정
- 구간 추정:
- 6년간의 표본 데이터를 이용해 상권의 매출량에 대한 신뢰구간을 추정합니다.
- 95% 신뢰도로 신뢰구간을 구하여, 범위 내에서 수거함을 설치하면 신뢰도를 높일 수 있습니다.
서울 상권 커피박 배출량 구간 추정
for list_name in unique_name:
target_df=concat_df[concat_df['상권']==list_name]['총_배출량']
target_mean=target_df.mean()
target_std=target_df.std()
target_len=len(target_df)
ind=target_df.index
concat_df.loc[ind,'mean']=target_mean
if target_len<30:
t_95=t.ppf(1-(1-0.95)/2, df=target_len-1)
L_value=target_mean-t_95*(target_std/math.sqrt(target_len))
h_value=target_mean+t_95*(target_std/math.sqrt(target_len))
concat_df.loc[ind,'L_value']=L_value
concat_df.loc[ind,'h_value']=h_value
concat_df.loc[ind,'신뢰구간_차이']=abs(h_value-L_value)
else:
L_value=target_mean-1.96*(target_std/math.sqrt(target_len))
h_value=target_mean+1.96*(target_std/math.sqrt(target_len))
concat_df.loc[ind,'L_value']=L_value
concat_df.loc[ind,'h_value']=h_value
concat_df.loc[ind,'신뢰구간_차이']=abs(h_value-L_value)
신뢰구간을 구하는 코드입니다. 데이터가 30이하이면 t값을 사용하도록 설정하였습니다.
위의 코드를 이용하여 신뢰구간을 구했습니다.
신뢰구간 차이 비율
과연 상권마다 신뢰구간 차이의 비율이 궁금했습니다. 그래서 밑의 코드를 이용해 신뢰구간 차이(연속변수) 범주형 변수롤 변환 했습니다.
CNT 변수는 신뢰 구간 차이를 이용하여 0.2 미만 이면 small 0.2보다 크지만 0.8보다 작으면 median 그보다 큰 것들은 big입니다.

그래프를 확인해보시면 small 값이 가장 큽니다. small이면 신뢰구간 0.2t차이라면 수거함 2개 정도 차이니까 나름 괜찮다고 생각합니다.
구간 추정을 통한 상권별 커피박 배출량 분석
오늘은 구간 추정을 이용하여 서울의 각 상권별 커피박 배출량의 모집단을 추정했습니다. 신뢰구간 차이가 큰 상권도 있었지만, 대부분의 상권에서는 신뢰구간 차이가 크지 않았습니다.
주요 내용 요약
- 구간 추정:
- 6년간의 매출 데이터를 기반으로 각 상권의 커피박 배출량에 대한 신뢰구간을 계산했습니다.
- 대부분의 상권에서 신뢰구간 차이가 크지 않게 나타났습니다.
- 데이터의 한계:
- 머신 러닝을 이용하여 예측할 수도 있지만, 현재 데이터가 부족하여 이를 적용하지 못했습니다.
- 데이터가 충분히 확보된다면, 머신 러닝을 이용한 예측 모델도 만들어 볼 계획입니다.
향후 계획
- 머신 러닝 모델 개발:
- 더 많은 데이터가 확보되면, 머신 러닝을 이용한 예측 모델을 개발하여 상권별 커피박 배출량을 보다 정밀하게 예측할 것입니다.
결론
구간 추정을 통해 상권별 커피박 배출량의 모집단을 추정하는 방법은 신뢰도를 높이는 데 도움이 됩니다. 데이터가 충분하지 않아 머신 러닝을 적용하지 못한 점은 아쉽지만, 향후 더 나은 모델을 개발할 수 있는 기회가 될 것입니다.
앞으로도 지속적으로 데이터를 확보하고, 이를 통해 더욱 정밀한 분석을 진행하겠습니다. 다음에는 머신 러닝을 활용한 예측 모델을 통해 더욱 발전된 분석 결과를 제공할 수 있기를 기대합니다.
'Spatial Analysis > 2022 데이터 분석.활용 공모전(행안부)' 카테고리의 다른 글
커피박 프로젝트 E (상권 데이터 결합) (0) | 2022.11.15 |
---|---|
커피박 프로젝트 A (상권의 카페 현황) (0) | 2022.11.04 |
커피박 프로젝트 F (서울 상권의 시군구와 원두 수입량) (0) | 2022.11.04 |
커피박 프로젝트 C (행정동에서 상권으로 바꾼 이유) (0) | 2022.11.02 |
커피박 프로젝트 B (서울 행정동 별 카페 매출) (0) | 2022.10.25 |