본문 바로가기

PM삐약이🐥

코로나19와 비만율의 관계는? 데이터 시각화와 DDDM 2탄 | 코드스테이츠 PMB 17기 W6D4

[ 본 포스팅은 PC 환경에서 보시길 권장합니다 ]

 

 

오늘 과제는 지난 W6D3과제에 이어서,

가설을 확인할 수 있도록 데이터를 확인하고 시각화해보고자 했다.

* 데이터 가공 및 시각화 모두 우선 엑셀을 사용하였다.

 


 

가설1. 국내 첫 코로나19 확진자가 발생한 2020년 1월 20일부터~2021년까지, 코로나19 발생 이전보다 비만율이 증가했을 것이다.

 

 

1) 데이터 가공. 

 

 

연령, 나이의 특성보다, 2019~2021 기간동안 비만율의 전반적인 변화 추이를 보고자하여, 원래 보고자 하였던 '비만 유병률(체질량지수 기준) 추이(2019~2020)' 통계 자료에서, 성별로만 구분하고, 연령을 '19세 이상'으로 합하여, 남성의 비만율 변화 추이와 여성의 비만율 변화 추이만 보고자 했다. 

 

 

+ 추가적으로, 이전 과제에서는 2019~2021 기간동안의 데이터만 보기로 하였는데, 이렇게 되면 이전 기간에 비해 변화 추이를 판단하기 어려울 것 같아, 2016년부터~2021년까지의 데이터로 시점을 재설정하였다. 

 

성별(1)

특성별(1)

특성별(2)

2016 2017 2018 2019 2020 2021
응답자수 (명) 분율 (%) 응답자수 (명) 분율 (%) 응답수 (명) 분율 (%) 응답자수 (명) 분율 (%) 응답자수 (명) 분율 (%) 응답자수 (명) 분율 (%)
 남자  전체  19세이상 2,641 41.8 2,743 41.1 2,719 41.9 2,783 41.4 2,620 46.9 2,456 44.8
 여자  전체  19세이상 3,437 29.2 3,407 28.4 3,451 28.1 3,449 27.3 3,195 29.9 3,118 29.5

 

 

2) 시각화. 

 

 

표1. 2016~2021

 

표2. 2012~2021

 

코로나19 국내 첫 확진자 발생 시점은 2020년 1월20일이다. 이전 2016~2019년까지의 남성과 여성의 비만율 변화 추이를 보면, 0.8% 이내의 변화폭으로 비만율의 변화가 크게 변동되지 않았던 반면, 2020년 비만율은 전년도 2019년 기준 남성 5.5%, 여성 2.6%가 증가한 것을 볼 수 있다. 2020년 비만율은 최근 10년 간 제일 높았다. 

 

 

🤔 회고: 

 

가설1은 시각화를 통해 검증을 할 수 있었다. 다만 이전 과제에서는 2019~2021년을 본다고 했었는데, 이 기간동안의 데이터만으로는 어떠한 추세를 볼 수 없다는 것을 시각화 작업을 진행하면서 알 수 있었다. 그래서 2012년도, 최근 10년의 데이터로 다시 시각화를 진행하였으며, 그 결과 유의미한 인사이트를 얻을 수 있었던 것 같다. 


 

 

가설2. 비만율의 변화 양상은 체육활동 참여율의 변화 양상과 반대될 것이다. 

 

 

1) 데이터 가공.

 

 

이전 과제에서 언급했듯이, 해당 지표는 주2회 이상 체육활동에 참여한 참여율에 대한 통계이다. 다만 시각화 단계에서는 2019~2021 기간보다 근 10년 동안 확인할 수 있는 데이터를 모두 시각화해보면 좋을 것 같아서, 해당 지표에서 확인할 수 있었던 2014년부터 2021년의 데이터를 가공하여 시각화하였다. 그리고 학력별, 연령별 데이터는 이번 분석에서는 제외하였다. 

 

 

통계분류(1) 통계분류(2) 2014 2015 2016 2017 2018 2019 2020 2021
 전체  소계 43.5 45.3 49.3 48.2 52.4 52.2 47 49.8
 성별  남성 43.2 44.1 49.2 45.6 48.7 48.8 43.2 46.1
   여성 43.9 46.6 49.3 50.8 56.1 55.6 50.8 53.5

 

 

2) 시각화.

표3. 2014~2021

 

데이터 확인 결과, 가설2를 검증하는 것에 다소 무리가 있을 수 있겠다는 생각이 들었다. 체육활동 참여율의 변화 추이가 비만율의 변화 추이와 흡사하게 변화하거나, 다르게 변화하던 시기도 있었기 때문이다. 2014~2016년, 비만율이 증가했을 시기, 체육활동 참여율도 증가하는 추세였다. 반면 비만율이 다소 안정적으로 유지되던 2017~2019년 기간동안, 체육활동의 변화폭은 컸다. 물론 코로나가 발발하고, 팬데믹 기간이었던 2020년에는 가설에서 예상했던 것처럼 체육활동 참여율은 줄고, 비만율은 증가했으나, 체육활동 변화 그래프만으로 직접적으로 해당 활동의 감소가 비만율의 증가의 원인이라고 단언할 수 없을 것 같다는 생각이다. 

 

 

🤔 회고: 

 

가설2는 검증할 수 없었다. 생각보다 검증이 어렵다는 생각이 들었는데, 초안 단계에서 생각했던 요소가 완전 다르게 변화하는 양상을 보고, 더욱 데이터의 중요성을 느낄 수 있었다. 해당 지표를 시각화할 때도 역시 데이터의 양의 중요성에 대해 느낄 수 있었다. 만약 초안에서 계획했던대로 2019~2021년의 데이터만 봤으면, 가설2는 검증이 됐을 수도 있었을 것이고, 체육활동이 비만율과 같이 움직인다고 단언했을 것이다. 하지만 사실은 그럴 수도, 그렇지 않을 수도 있다. 비만율에는 더 많은 사회문화적 요소가 개입한다는 것을 이번 분석을 통해 생각할 수 있었다. 

 

 


 

가설3. 2019년~2021년까지 식료품 및 주류에 대한 소비가 증가하였을 것이다. 그리고 이는 비만율의 변화 양상과 흡사할 것이다.

 

 

1) 데이터 가공.

 

 

'가구 구성별 가구당 월 평균 가계수지' 통계 자료에서는 다양한 항목별로 평균 소비 금액을 확인할 수 있었는데, 식료품 및 주료에 대한 데이터를 분석하고자, 관련있는 '01.식료품 · 비주류음료.'와 '02. 주류 · 담배' 항목 중 주류, 그리고 ''11.음식 · 숙박' 항목 중 식사비만 보기로 하였다. 그리고 '11. 식사비'는 외식비이기 때문에, 따로 빼서 시각화를 해보려 했고, 또 값을 합쳐서 봤을 때도 유의미할 것 같아, 합한 갑도 데이터로 시각화하려고 했다. 

 

 

  

가구 구성별 가계수지항목별 2019 2020 2021
전체 01.식료품 · 비주류음료.+ 02.주류 346337 396729 414603
11. 식사비(외식) 333552 308992 324505
01.식료품 · 비주류음료.+ 02.주류 + 11.식사비 679889 705721 739108

 

 

2) 시각화. 

 

 

표4.
표5.

 

 

해당 지표에 대해서도 더 이전 기간의 데이터도 확인하고 싶었으나, 2019년도부터 데이터를 제공하여, 어쩔 수 없이 2019년도부터 시각화를 하였다(표4.). 파란색 칼럼과 빨간색 칼럼은 상반되는 양상이다. 즉 집에서 소비하는 식료품은 증가한 것이고, 외식에 지출하는 비용은 줄어든 것이다. 통계자료에 자세히 나와있지는 않았지만, 파란색 데이터 안에 배달음식도 포함되었을 것으로 추측된다. 이 둘을 합한 결과, 전반적인 식음료 소비 금액이 2019년도 부터 증가했다는 것을 알 수 있다. 

 

 

그래서 가설3은 검증되었는가?

 

 

2019~2021비만율 그래프(표5.)를 보면, 2019~2021 '가구 구성별 가구당 월 평균 가계수지'의 식음료 관련 데이터의 그래프와 비슷하게 생긴 것 같다. 2019~2021년만 본다고 하면, 가설3은 검증되었다고 할 수도 있지만, 역시 데이터가 적어서, 비만율의 변화에 식음료에 대한 소비가 직접적으로 영향을 준다고 이야기할 수는 없을 것 같다. '영향요인 중 하나일 것이다' 정도로 정리해야 할 것 같다. 

 

 

🤔 회고: 

 

'가구 구성별 가구당 월 평균 가계수지' 통계도 더 오래된 데이터가 있었으면 좋았을 것 같다는 생각이 들었다. 해당 지표를 분석하기 전에는 또 꺾은 선 그래프로만 보겠다고 했는데, 생각보다 데이터가 별로 없어서, 변화 추이를 보기 어려웠고, 또 소비액이 어느 정도 되는지, 양에 대한 감도 잘 느껴지지 않아, 표시방법을 열 데이터로 바꾸었으며, 변화 추이도 파악할 수 있도록 추가하였다. 데이터를 단순히 정리해서 보는 것보다, 시각화를 해서 보면 더 유의미한 인사이트를 얻을 수 있겠다는 생각이 들었으며, 또 가설 설정을 더 구체적으로 할 필요가 있겠다는 생각을 하게 되었다. 

 

 

 

-끝-

 


그럼 다음 과제에서 만나요!

728x90