[ 본 포스팅은 PC 환경에서 보시길 권장합니다 ]
오늘 과제는 지난 W6D3과제에 이어서,
가설을 확인할 수 있도록 데이터를 확인하고 시각화해보고자 했다.
* 데이터 가공 및 시각화 모두 우선 엑셀을 사용하였다.
가설1. 국내 첫 코로나19 확진자가 발생한 2020년 1월 20일부터~2021년까지, 코로나19 발생 이전보다 비만율이 증가했을 것이다.
1) 데이터 가공.
연령, 나이의 특성보다, 2019~2021 기간동안 비만율의 전반적인 변화 추이를 보고자하여, 원래 보고자 하였던 '비만 유병률(체질량지수 기준) 추이(2019~2020)' 통계 자료에서, 성별로만 구분하고, 연령을 '19세 이상'으로 합하여, 남성의 비만율 변화 추이와 여성의 비만율 변화 추이만 보고자 했다.
+ 추가적으로, 이전 과제에서는 2019~2021 기간동안의 데이터만 보기로 하였는데, 이렇게 되면 이전 기간에 비해 변화 추이를 판단하기 어려울 것 같아, 2016년부터~2021년까지의 데이터로 시점을 재설정하였다.
성별(1) |
특성별(1) |
특성별(2) |
2016 | 2017 | 2018 | 2019 | 2020 | 2021 | ||||||
응답자수 (명) | 분율 (%) | 응답자수 (명) | 분율 (%) | 응답수 (명) | 분율 (%) | 응답자수 (명) | 분율 (%) | 응답자수 (명) | 분율 (%) | 응답자수 (명) | 분율 (%) | |||
남자 | 전체 | 19세이상 | 2,641 | 41.8 | 2,743 | 41.1 | 2,719 | 41.9 | 2,783 | 41.4 | 2,620 | 46.9 | 2,456 | 44.8 |
여자 | 전체 | 19세이상 | 3,437 | 29.2 | 3,407 | 28.4 | 3,451 | 28.1 | 3,449 | 27.3 | 3,195 | 29.9 | 3,118 | 29.5 |
2) 시각화.
코로나19 국내 첫 확진자 발생 시점은 2020년 1월20일이다. 이전 2016~2019년까지의 남성과 여성의 비만율 변화 추이를 보면, 0.8% 이내의 변화폭으로 비만율의 변화가 크게 변동되지 않았던 반면, 2020년 비만율은 전년도 2019년 기준 남성 5.5%, 여성 2.6%가 증가한 것을 볼 수 있다. 2020년 비만율은 최근 10년 간 제일 높았다.
🤔 회고:
가설1은 시각화를 통해 검증을 할 수 있었다. 다만 이전 과제에서는 2019~2021년을 본다고 했었는데, 이 기간동안의 데이터만으로는 어떠한 추세를 볼 수 없다는 것을 시각화 작업을 진행하면서 알 수 있었다. 그래서 2012년도, 최근 10년의 데이터로 다시 시각화를 진행하였으며, 그 결과 유의미한 인사이트를 얻을 수 있었던 것 같다.
가설2. 비만율의 변화 양상은 체육활동 참여율의 변화 양상과 반대될 것이다.
1) 데이터 가공.
이전 과제에서 언급했듯이, 해당 지표는 주2회 이상 체육활동에 참여한 참여율에 대한 통계이다. 다만 시각화 단계에서는 2019~2021 기간보다 근 10년 동안 확인할 수 있는 데이터를 모두 시각화해보면 좋을 것 같아서, 해당 지표에서 확인할 수 있었던 2014년부터 2021년의 데이터를 가공하여 시각화하였다. 그리고 학력별, 연령별 데이터는 이번 분석에서는 제외하였다.
통계분류(1) | 통계분류(2) | 2014 | 2015 | 2016 | 2017 | 2018 | 2019 | 2020 | 2021 |
전체 | 소계 | 43.5 | 45.3 | 49.3 | 48.2 | 52.4 | 52.2 | 47 | 49.8 |
성별 | 남성 | 43.2 | 44.1 | 49.2 | 45.6 | 48.7 | 48.8 | 43.2 | 46.1 |
여성 | 43.9 | 46.6 | 49.3 | 50.8 | 56.1 | 55.6 | 50.8 | 53.5 |
2) 시각화.
데이터 확인 결과, 가설2를 검증하는 것에 다소 무리가 있을 수 있겠다는 생각이 들었다. 체육활동 참여율의 변화 추이가 비만율의 변화 추이와 흡사하게 변화하거나, 다르게 변화하던 시기도 있었기 때문이다. 2014~2016년, 비만율이 증가했을 시기, 체육활동 참여율도 증가하는 추세였다. 반면 비만율이 다소 안정적으로 유지되던 2017~2019년 기간동안, 체육활동의 변화폭은 컸다. 물론 코로나가 발발하고, 팬데믹 기간이었던 2020년에는 가설에서 예상했던 것처럼 체육활동 참여율은 줄고, 비만율은 증가했으나, 체육활동 변화 그래프만으로 직접적으로 해당 활동의 감소가 비만율의 증가의 원인이라고 단언할 수 없을 것 같다는 생각이다.
🤔 회고:
가설2는 검증할 수 없었다. 생각보다 검증이 어렵다는 생각이 들었는데, 초안 단계에서 생각했던 요소가 완전 다르게 변화하는 양상을 보고, 더욱 데이터의 중요성을 느낄 수 있었다. 해당 지표를 시각화할 때도 역시 데이터의 양의 중요성에 대해 느낄 수 있었다. 만약 초안에서 계획했던대로 2019~2021년의 데이터만 봤으면, 가설2는 검증이 됐을 수도 있었을 것이고, 체육활동이 비만율과 같이 움직인다고 단언했을 것이다. 하지만 사실은 그럴 수도, 그렇지 않을 수도 있다. 비만율에는 더 많은 사회문화적 요소가 개입한다는 것을 이번 분석을 통해 생각할 수 있었다.
가설3. 2019년~2021년까지 식료품 및 주류에 대한 소비가 증가하였을 것이다. 그리고 이는 비만율의 변화 양상과 흡사할 것이다.
1) 데이터 가공.
'가구 구성별 가구당 월 평균 가계수지' 통계 자료에서는 다양한 항목별로 평균 소비 금액을 확인할 수 있었는데, 식료품 및 주료에 대한 데이터를 분석하고자, 관련있는 '01.식료품 · 비주류음료.'와 '02. 주류 · 담배' 항목 중 주류, 그리고 ''11.음식 · 숙박' 항목 중 식사비만 보기로 하였다. 그리고 '11. 식사비'는 외식비이기 때문에, 따로 빼서 시각화를 해보려 했고, 또 값을 합쳐서 봤을 때도 유의미할 것 같아, 합한 갑도 데이터로 시각화하려고 했다.
가구 구성별 | 가계수지항목별 | 2019 | 2020 | 2021 |
전체 | 01.식료품 · 비주류음료.+ 02.주류 | 346337 | 396729 | 414603 |
11. 식사비(외식) | 333552 | 308992 | 324505 | |
01.식료품 · 비주류음료.+ 02.주류 + 11.식사비 | 679889 | 705721 | 739108 |
2) 시각화.
해당 지표에 대해서도 더 이전 기간의 데이터도 확인하고 싶었으나, 2019년도부터 데이터를 제공하여, 어쩔 수 없이 2019년도부터 시각화를 하였다(표4.). 파란색 칼럼과 빨간색 칼럼은 상반되는 양상이다. 즉 집에서 소비하는 식료품은 증가한 것이고, 외식에 지출하는 비용은 줄어든 것이다. 통계자료에 자세히 나와있지는 않았지만, 파란색 데이터 안에 배달음식도 포함되었을 것으로 추측된다. 이 둘을 합한 결과, 전반적인 식음료 소비 금액이 2019년도 부터 증가했다는 것을 알 수 있다.
그래서 가설3은 검증되었는가?
2019~2021비만율 그래프(표5.)를 보면, 2019~2021 '가구 구성별 가구당 월 평균 가계수지'의 식음료 관련 데이터의 그래프와 비슷하게 생긴 것 같다. 2019~2021년만 본다고 하면, 가설3은 검증되었다고 할 수도 있지만, 역시 데이터가 적어서, 비만율의 변화에 식음료에 대한 소비가 직접적으로 영향을 준다고 이야기할 수는 없을 것 같다. '영향요인 중 하나일 것이다' 정도로 정리해야 할 것 같다.
🤔 회고:
'가구 구성별 가구당 월 평균 가계수지' 통계도 더 오래된 데이터가 있었으면 좋았을 것 같다는 생각이 들었다. 해당 지표를 분석하기 전에는 또 꺾은 선 그래프로만 보겠다고 했는데, 생각보다 데이터가 별로 없어서, 변화 추이를 보기 어려웠고, 또 소비액이 어느 정도 되는지, 양에 대한 감도 잘 느껴지지 않아, 표시방법을 열 데이터로 바꾸었으며, 변화 추이도 파악할 수 있도록 추가하였다. 데이터를 단순히 정리해서 보는 것보다, 시각화를 해서 보면 더 유의미한 인사이트를 얻을 수 있겠다는 생각이 들었으며, 또 가설 설정을 더 구체적으로 할 필요가 있겠다는 생각을 하게 되었다.
-끝-
그럼 다음 과제에서 만나요!
'PM삐약이🐥' 카테고리의 다른 글
29cm의 웹페이지를 분석해보자! 서버, 클라이언트, 그리고 프레임워크 2탄 | 코드스테이츠 PMB 17기 W7D1 (0) | 2023.03.21 |
---|---|
서버, 클라이언트, 그리고 프레임워크 1탄 | 코드스테이츠 PMB 17기 W7D1 (0) | 2023.03.21 |
데이터 시각화와 DDDM 1탄 | 코드스테이츠 PMB 17기 W6D4 (0) | 2023.03.17 |
코로나19와 비만율의 관계는? 고객분석 도구, GA, 그리고 Amplitude 2탄 | 코드스테이츠 PMB 17기 W6D3 (0) | 2023.03.17 |
고객분석 도구, GA, 그리고 Amplitude 1탄 | 코드스테이츠 PMB 17기 W6D3 (0) | 2023.03.16 |