<프로젝트 소개>
: 2022년 통계데이터 분석·활용대회에 '지역 특성을 고려한 제주도 심야약국 최적 입지 선정'이라는 주제로 데이터분석 보고서 분야에 참여하였다.
기간 : 22.6.27-22.7.28
인원 : 총 3명
참여배경
: 데이터분석을 겉핥기로만 알고 있었기 때문에, 실제로 어떤식으로 데이터 분석을 진행하게 될지 궁금함을 가지고 있었다. 그래서 팀을 꾸려 공모전에 참여하였다. 해당 대회에서 추구하는 목적은 '통계데이터를 활용한 다양한 연계 분석사례 발굴 및 대중적 데이터 분석 활용성 제고를 통한 통계데이터센터 이용 활성화'였으며, 주제는 자유 주제로 진행되었다.
<활동내용>
: 크게 '주제 선정->데이터 수집 및 분석 방향 논의->데이터 전처리 및 분석->결과 정리' 순으로 진행하였다.
주제 선정 과정
: 자유 주제였던 만큼 주제를 선정하는데에 생각보다 많은 시간을 소모하였다. 주어지는 데이터를 활용하여 분석할 수 있는 주제를 찾기 위해 노력하였으며, 다양하게 나온 주제들을 추려내며 최종적으로 '심야 약국의 입지 선정'에 대해서 분석해보기로 하였다. 이 때, 전국을 대상으로 입지에 대한 분석을 하기에는 범위가 너무 넓었기 때문에 특정한 지역을 선택해야 할 필요성을 느꼈다. 그래서 심야 약국을 가장 필요로 할 사람들이 누구일까를 생각해보다가, 관광객들의 경우 가정상비약처럼 구비된 약이 없기 때문에 심야 시간에 약국을 찾을 가능성이 높다고 생각하였고, 따라서 대표적으로 1박 이상을 묵고 가는 제주도를 이번 분석 지역으로 선택하였다.
데이터 수집 및 분석 방향 논의
: 정확히 어떤 데이터를 활용할 수 있을지 잘 알지 못했기 때문에, 대략적인 방향만 정해두고 각자 적절하다고 생각되는 데이터를 수집하여 분석 방향을 논의하였다.
수집된 데이터들은 크게
1) 유동 인구 관련
2) 의료 관련
3) 인구 관련
4) 그 외 가중요소 데이터로 분류하여 진행하였다.
데이터 전처리 및 분석
: 실제 데이터 분석을 진행하기 위해 데이터 전처리를 먼저 진행하였다.
사용했던 데이터 중에는 대표적으로 '와이파이'데이터가 있었는데, 이 때 '제주 공공와이파이 DB'와 '와이파이 장소별 사용자 현황' 데이터를 통합하는 과정을 거쳤다. 제주 공공와이파이 데이터에서 중복되는 장소를 제거하고, 와이파이 장소별 사용자 현황 데이터에 와이파이 위치 정보를 추가하였다. python 코드를 활용하였으며, 같은 장소임에도 이름의 표기가 조금씩 달랐던 부분들을 같게 처리해주는 작업을 거쳤다.
또한, 제주도의 '관광숙박업 현황'데이터를 활용하기 위해 도로명 주소를 지번 주소로 변환한 후. 데이터 슬라이싱을 통해 읍면동 기준 주소를 얻었다. 또한, 행정동 기준 읍면동별로 객실 수를 정리하였다.
데이터 분석에 사용할 데이터들을 '행정동' 기준 읍면동으로 분류해서 사용할 계획이었기 때문에(가장 중요한 인구 데이터가 행정동 기준이었던 점이 큰 이유였다.) 법정동 기준으로 되어 있는 데이터들을 행정동 기준으로 바꾸는 작업도 전체적으로 진행이 되었다.
이 외에도 '읍면동별 노인인구현황'. '연령대별 13세 이상 인구 의료 서비스 이용률' 등의 다양한 데이터를 통합하여 최종적으로 각 요소별로 가중치를 정리하였다.
데이터 분석은 GIS 분석, MCLP(Maximal Covering Location Problem)모델을 활용하였다.
최종 발표 자료
느낀점
: github와 notion을 적극적으로 활용하여 협업을 진행해볼 수 있었던 좋은 기회였다. 중간에 github를 애매하게 다뤄서 데이터를 완전히 날렸다가 겨우 복구한 경험이 있었는데, 이 아찔한 경험이 있었기 때문에 오히려 정신을 똑바로 차리고 github를 제대로 사용해볼 수 있었던 것 같다. notion을 통해서는 회의록을 공유하며 바로바로 작성하는 것에서 편리함을 느꼈고, 그날그날 회의를 했던 기록들이나 보고서 초안 등을 한 페이지에 적절하게 정리할 수 있어서 한 눈에 보기 편했다.
그리고 데이터 전처리 과정을 그 어느 때보다 적극적으로 해볼 수 있었던 좋은 경험이었다. 실제로 주어지는 데이터를 활용하기 위해서 적절하게 전처리하는 과정이 꽤나 시간이 오래 걸린다는 것을 깨달았고, 데이터 분석을 진행할 때 필요한 데이터가 무엇일지에 대해서도 미리 구체적인 논의를 했다면 시간 소모를 조금이나마 줄일 수 있었지 않았을까하는 아쉬움이 남는다.
무엇보다도 처음에 계획했던 데이터들을 모두 사용해보지 못했다는 점이 아쉬움으로 남았다. api를 이용해서 데이터를 제공받는 것을 해보려 했는데, 이번 데이터분석 과정에서는 csv나 excel 파일로 된 데이터만 다뤄봤다는 점이 마음이 걸렸다. 그리고 생각보다 실제 수집된 데이터들은 필요없는 부분들도 많고, 중요한 정보가 빠져있는 경우들도 많아서 적절히 활용할 수 있게 바꾸는 과정이 필요하다는 것을 실감했다.
개인적으로는 데이터를 다루는 부분에 집중했기 때문에, 데이터 분석에 관한 요소는 잘 알지 못했던 점이 아쉬움으로 남았다. 또한, 그렇기 때문에 미리 찾아두었던 다양한 데이터 분석 방법들을 활용해보지 못했던 점도 아쉬웠다.
데이터 분석 과정에서도 각 데이터간 가중치를 어떻게 설정할 것이냐에 대한 부분에 대해서도 명확한 기준이 있었으면 좋았을 것 같다.
관련자료
: https://github.com/ChoiInYeol/public-late-night-pharmacies
'✨ 포트폴리오 > 2022' 카테고리의 다른 글
[해커톤] KHUthon(22.9.30-22.10.01) (0) | 2022.10.01 |
---|---|
[프로젝트] Pix2Pix 오즈의 마법사 GAN Colorization(22.06-22.08) (0) | 2022.08.27 |