내일배움캠프에서는 프로젝트를 여러 번 진행합니다. 이 프로젝트들은 수료 후 취업 포트폴리오의 소중한 자산이 되죠.
수강생들이 어떤 포트폴리오를 쌓아나가는지 궁금한 분들을 위해, 데이터 분석 트랙의 우수 프로젝트를 공유드립니다. 우수 프로젝트로 선정된 팀의 결과물과 튜터의 피드백, 그리고 수강생 인터뷰까지 모았으니 아래에서 확인해 보세요.
👀우수 프로젝트 엿보기
![notion image](https://inblog.ai/_next/image?url=https%3A%2F%2Fwww.notion.so%2Fimage%2Fhttps%253A%252F%252Fprod-files-secure.s3.us-west-2.amazonaws.com%252F83c75a39-3aba-4ba4-a792-7aefe4b07895%252F6441ac5d-b4a5-4bcf-88ab-61ece9734bcf%252FFrame_1000007146.png%3Ftable%3Dblock%26id%3D1772dc3e-f514-805c-8cbb-dd5c5abb8fdd%26cache%3Dv2&w=1920&q=75)
🧑🏻🏫우수 프로젝트 선정 이유
*총 3명의 튜터가 평가했으며, 그중 일부 평가만 발췌하였습니다.
1. 데이터 EDA 및 전처리
프로젝트 발표 전반부에서 '보험 가입 기간별 사고 발생 현황'과 같은 배경 자료를 적절히 포함한 점이 인상적이었습니다. 또한, 지역 분석 단위와 의사결정 단위가 일치하지 않는다는 흥미로운 관점을 제시한 점도 눈에 띄었습니다. 이러한 내용을 통해 문제를 다각도로 접근하여 해결하려는 노력이 돋보였습니다. 전반적으로 논리적 개연성이 뛰어난 발표 자료였으며, 데이터 EDA와 전처리 단계 역시 충분히 상세히 설명된 점이 좋았습니다.
2. 모델링 및 평가
푸아송 회귀분석을 활용한 통계적 접근과 다양한 ML 모델을 적용한 점이 인상적이었습니다. 특히, 각 모델의 특성을 고려하여 결과를 해석한 부분에서, 다른 팀들과 비교해 더 깊이 모델을 이해하고 이를 적용하려는 노력이 돋보였습니다. 다만, ECLO=3의 의미에 대한 구체적인 설명이 추가되었다면, 분석의 이해도를 더욱 높일 수 있었을 것 같습니다. 또한, 모델링 과정에서 종속변수의 분포를 변형하지 않고 분석을 진행한 이유에 대한 논리적인 설명도 매우 설득력 있었습니다.
3. 결과 해석 및 보고
모델 결과값에서 변수의 영향도를 RMSE 값의 차이로 묘사한 점은 변수의 영향을 수치적으로 표현한 적절한 접근으로 보입니다. 특히, 이러한 방식은 데이터 분석 결과를 효과적으로 전달하는 데 유용하며, 향후 의사결정자와 소통할 때에도 본 프로젝트에서 보여준 것처럼 논리적이고 숫자 중심의 설명을 활용한다면 더욱 이상적인 커뮤니케이션이 될 것이라 생각됩니다.
또한, 지역별 맞춤형 개선책 제안과 관련하여 sharp value를 활용한 점이 돋보였습니다. 그러나 ML 모델 결과와 인사이트 간의 연결고리가 다소 약하게 느껴졌습니다. 이는 데이터셋의 한계에서 비롯된 것으로 추정되며, 보다 다양한 변수와 대규모 데이터를 활용했다면 더욱 강력한 연결고리와 깊이 있는 인사이트를 도출할 수 있었을 것이라는 아쉬움이 남습니다.
4. 기획 대비 최종 결과물
튜터 A) 배경지식을 워낙 많이 알고 계셔서 기획안 부터가 범상치 않았고 그래서 그런지 프로젝트 결과물에서도 배경지식이 잘 드러났고 이해가 더 잘되었던 것 같습니다 :)
머신러닝을 어떻게 다루어 볼 것인지도 계획을 해볼 수 있기 때문에 그런 부분도 앞으로 추가해줘도 좋을 것 같습니다!
튜터 B) 최초 공유된 기획안에 비해 최종 결과물은 전반적으로 크게 개선된 모습을 보였습니다. 분석 목표가 점차 명확해졌고, 적절한 방법론을 적용하여 구체화된 분석 과정을 거친 점이 돋보입니다. 또한, 결과물의 완성도를 높이기 위해 필요한 변경 사항을 적극적으로 반영한 점도 긍정적으로 평가됩니다.
튜터 C) 기획안에 나와있던 내용대로 데이터 분석 프로젝트를 진행하였고, 해석된 결과 내용을 바탕으로 정책적 제안까지 잘 정리하여 이를 결과물에 잘 반영하였습니다. 프로젝트 진행하시느라 고생 많으셨습니다.
5. 총평
이번 프로젝트는 데이터 분석과 문제 해결을 위한 다각적인 접근과 논리적인 전개가 돋보였습니다. 발표 전반부에서는 '보험 가입 기간별 사고 발생 현황'과 같은 배경 자료를 적절히 포함해 도움이 되었으며, 지역 분석 단위와 의사결정 단위가 일치하지 않는다는 흥미로운 관점을 제시하여 문제를 깊이 있게 탐구하려는 의지를 보여주었습니다. 데이터의 EDA와 전처리 단계 또한 충분히 설명되어, 분석의 기초 작업이 탄탄하게 이루어졌음을 확인할 수 있었습니다.
분석 단계에서는 푸아송 회귀분석과 다양한 ML 모델을 활용한 점이 인상적이었습니다. 특히, 각 모델의 특성을 고려하여 결과를 해석한 과정은 다른 팀들과 비교해볼 때 한층 깊이 있는 분석이 이루어졌음을 보여주었습니다. 또한, 종속변수의 분포를 변형하지 않고 모델링을 수행한 이유를 논리적으로 설명한 점은 매우 설득력이 있었습니다.
모델 결과에서는 변수의 영향도를 RMSE 값의 차이로 표현하여 수치적으로 명확히 제시한 점이 적절했습니다. 이는 데이터 분석 결과를 효과적으로 전달하는 방식으로, 특히 향후 의사결정자와의 소통에서도 유용하게 활용될 수 있는 강점으로 보입니다.
전반적으로 프로젝트는 분석적 깊이와 논리적 구성을 갖춘 뛰어난 사례였으며, 몇 가지 보완점을 고려한다면 더욱 완성도 높은 결과물이 될 것으로 기대됩니다.
👩🏻💻우수 프로젝트 수강생 미니 인터뷰
Q. 프로젝트에 대해 설명해 주세요.
대구광역시는 2023년 기준 자동차 1000대당 교통사고 발생 건수가 '7.1'로 전국에 5번째로 높은 지역입니다. 사고의 세부 내용을 살펴보니 음주운전에 의한 교통사고 발생 건수는 대전 다음으로 가장 낮은 지역 중 하나로 일반 교통사고가 많이 발생하는 것을 알 수 있었습니다.
또한 대구광역시 내 교통 사고 가해자의 40%는 50-60대 경험 많은 운전자들에서 발생하고 있으며, 20-30대 운전자의 사고 비율도 전국에서 가장 높은 수준으로 확인되었는데, 이러한 상황을 통해 대구광역시의 교통사고 발생 원인으로 운전자 개인의 과실보다는 운전자가 운전하기 어려운 지역 환경적 요인이 작용할 것으로 예상되었습니다. 이에 이번 프로젝트를 통해 대구광역시 교통사고 예측 모델을 구축하여 개인적인 원인과 외부 환경적인 원인으로 나누어 주된 사고 원인을 분석하고자 합니다. 이러한 분석 결과를 통해 대구 광역시에 위험한 교통 사고 발생을 사전에 예측하고 예방하기 위한 정책적 시사점을 제시하는 것을 목표로 진행하였습니다.
Q. 진행하면서 힘들었던 점은 무엇이고, 어떻게 해결했나요?
가장 먼저 종속 변수(사고 위험도)의 분포가 3이라는 특정 값에 집중되어 있고 스케일링이나 이상치 제거 방법을 적용하더라도 종속변수의 정규성, 등분산성을 보장할 수 없는 상황이기에 일반적인 선형회귀모형이 적용되기 어려울 것이라 판단되었습니다. 이에 팀원들과 EDA를 하고 추가적인 스터디를 진행하는 과정에서 현재 종속변수가 '프아송 분포'를 따르고 있다는 사실을 확인하고 통계 모델과 머신러닝 모델 모두 수행한 결과 예측력이 상당히 뛰어나고 패러미터값이 합리적 추론이 가능한 영역으로 분석되어 팀원 모두가 일제히 탄성을 질렀던 적이 기억에 남습니다.
그래도 풍부한 해석을 위해 트리 기반 비선형 회귀 모형에 초점을 맞췄는데 처음에는 훈련 데이터에 대한 분석과 테스트 데이터에 대한 분석 결과가 차이가 많이나면서 과적합 의심 증상을 보였으나 팀원들과 분담하여 일부는 전진선택법으로, 또 일부는 후진소거법으로 문제가 되는 피처를 특정해나가면서 결국 과적합 문제를 해결할 수 있었던 기억이 또 뿌듯함으로 기억될 것 같습니다.
Q. 프로젝트 진행하며 가장 만족스러운 점은 무엇인가요?
이번 프로젝트는 팀원 모두가 무지 상태에서 시작하여 함께 공부해나가며 과제를 수행해나가니 기존 프로젝트보다 더욱 뿌듯함이 있었습니다. 특히, 저희는 기본적으로 PM, 분석담당, 시각화담당, PT담당으로 역할을 나누었지만 모두가 같은 진도를 각자의 방식으로 진행하고 최적화된 방식을 공유하면서 어느 한 명도 뒤쳐짐없이 함께 진도를 이끌어 나간다는 원칙을 고수했고 더욱 효율적인 방식도 있었겠지만 모두가 같은 이해도로 논의를 하니 선택의 기로에서 확실히 좋은 의사결정을 하는데 도움이 되었습니다.또한, 저희의 제5의 멤버로 매 고비마다 함께 고민해주시고 해결해주신 튜터님의 적재적소의 튜터링도 저희가 성장하는데 큰 도움을 주셨습니다. 다시 한 번 감사 인사를 드리고 싶습니다.
내일배움캠프가 여러분의 결심을 결실로 바꿔드리겠습니다
비전공자라서, 코딩 경험이 전혀 없어서, 다른 직업을 갖고 있어서. 그동안 이런 부담감 때문에 망설였다면, 내일배움캠프를 믿고 도전해 보세요. 개발자의 꿈에 다가서지 못하게 하는 수많은 장애물들을 넘을 수 있도록 내일배움캠프가 든든한 러닝메이트가 되어드리겠습니다. 내일배움캠프에서 당신의 결심을 결실로 만들어 보세요.
Share article
Subscribe to our newsletter