내배캠 | 데이터분석 부트캠프
WIL | 내배캠 데이터 분석 과정 11주차 회고(+머신러닝 프로젝트 회고)
성장하는 쿠키의 로그 기록
2025. 2. 9. 23:50
FACTS (이번주 내가 한 일)
- 머신러닝 팀 프로젝트 완료 (1/24~2/5 수요일 완료)
- 월 : 담당 모델인 catboost 가 recall/precision 기준 베스트 모델로 1차 선정. 전처리 옵션별 평가 비교/ 혼동행렬/ 중요 변수 확인 완료 → 화요일 즈음 GBM 담당 팀원 결과값이 recall 기준 +0.002 더 높아 최종 베스트 모델로 선정
- 월 : 시간 부족으로, PPT 팀 + 머신러닝 마무리/ 군집화 팀으로 나눠서 진행. 그 중 ppt 전체 디자인 및 EDA 파트 담당하여 PPT 제작 (EDA 시각화에 대부분 시간 쏟음)
- 화 : 1차 PPT 완료후, 현진튜터님 피드백 요청. EDA - 분류모델 까지 인사이트 및 내용 정리는 잘 됐으나 결론이 군집파트에만 집중되어 급하게 마무리한 느낌이며, 앞서 EDA에서 정리한 인사이트와 동일한 인사이트가 군집파트로 이어져 불필요한 중복 같다는 피드백을 받았음. → EDA & 분류 파트에 더 집중해서 결론 내고 이탈자 중심으로 타겟 군집화 + 솔루션 제안하는 방향으로 선회
- 수 : PPT 전체 디자인 확인 & EDA-전처리-마케팅 파트 정리 필요한 부분 추가 정리 + 간단하게 대본 작성 후 마무리
- 목 : 최종 발표 후 프로젝트 종료, 전반적으로 튜터님들에게 긍정적인 피드백 받음. (머신러닝 프로젝트 흐름 및 구성 / EDA 파트 ) 임정 튜터님은 머신러닝 관련해서 추가적으로 앙상블 & 스태킹 까지 추가 하면 더 퀄리티 높은 프로젝트가 될 거라는 피드백 해주심.
- 태블로 학습
- 태블로 주차 시작. 차원/ 측정값 , 계산식, LOD 세부수준 계산식 등 기본적인 시각화 실습 및 태블로 사용법에 대해 학습함.
FEELING (이번주 느낀 점)
- 이번 프로젝트는 점입가경이라는 말이 딱 어울린다. 저번주 우려했던 부분이 어이없게도 너무 잘 마무리가 됐다. 초반에 가장 당황했던 부분이, 팀원 각자 분석한 내용들에 대한 공유 및 서면 정리가 너무 안된다는 거였는데, 머신러닝 파트로 들어가니까 오히려 각자의 결과값과 특이사항 정도 딱 필요한 부분만 공유하니 회의가 훨씬 컴팩트하게 진행됐다.
- 이번 프젝 진행하면서 팀워크가 잘 맞는다고 생각했던 부분이, 문제상황에서 시간 끌기를 하지 않고 불필요한 내용은 과감하게 삭제하고, 수정하면서 최선의 결과를 만들고자 노력했다는 점이다. 우리는 마감 일주일 전에 데이터셋을 원본으로 변경했고,(EDA 다시..전처리 다시,,.) 3일전에 베스트 모델을 변경하고 프로젝트 전체 방향성을 제고했다.
- 또한, 팀원중 머신러닝 프로젝트 경험이 있던 분이 리딩을 너무 잘 해 주셨는데, 특히, 결론의 논리성을 찾아가는 과정과 의문이 드는 상황에서 필요한 것과 필요하지 않은것에 대한 판단을 전체적인 흐름에서 잘 맞춰주셔서 도움이 많이 됐다.
- 아쉬운점은 또 PPT 담당이었다는 점과 군집파트는 거의 기여한 바가 없다는 것이다. 시간제약으로 PPT 와 클러스터링을 동시에 진행해야 했고, 그 중 PPT를 담당하게 됐다. 특히 EDA 파트를 전담했는데, 기존에 EDA 관련 공유한 내용이나 시각화한 내용이 없다보니 다시 혼자 했어야했다. EDA 파트 제작에 시간이 꽤 소요됐고, 군집파트는 다른 팀원이 담당해서 마무리하게 되었다. PPT도 뭔가 내가 마무리안하면 안심이 안되서 놓지 못하고 마무리 했는데 이런 부수적인 부분에 집중하다 보니 막상 코드를 추가적으로 점검하거나 인사이트 내는 부분은 부족했던것 같아 아쉬움이 남는다.
- 잘했던 점은 역시 EDA , EDA 파트를 모든 튜터님이 긍적적으로 언급해주셔서 다행이라는 생각이 들었다. 머신러닝에 집중하고자 팀원들의 의견을 수렴해서 딱 필요한 부분만 넣었는데, 그 부분이 전체 흐름과 방향성에 딱 적합했던것 같다. 뭐든 과유불급이다.
FINDINGS (배운것)
- 프로젝트는 엎고 또 엎고 또 엎고의 연속인것 같다. 진척율이 50%든 70%든 잘못된 방향이라면, 더 좋은 결과를 도출할 수 있다면, 아쉬워할 시간에 빨리 계획을 수정하고 재 진행하는 게 훨씬 빠르고 원하는 결론에 도달할 수 있다는 걸 배웠다.
- 의문이 들면 무조건 질문하며 확인하고, 피드백은 적극 수용하는 능동적인 자세를 가져야한다. 이번 프로젝트에서도 의문이 들었던 부분을 바로바로 공유하고 확인한 덕분에 3번의 오류를 잡을 수 있었다.
- 팀프로젝트를 할때, 팀원이 자신이 한 부분에 대해 질문하거나 피드백을 요청했을때 무조건 `좋아요~`라고 하는 태도는 역시 지양 해야 한다는 것을 느꼈다. 나 또한 정확한 피드백을 받는게 목표라 이런 질문을 하는거고, 다양한 관점에서의 피드백은 긍적적인 결과를 낳는다. (집단 지성의 힘!) 이번에도 피드백 하는 과정에서 프로젝트가 더욱 발전했음을 느낄 수 있었다.
- 학습 기간엔 잘하는것보다 해보고싶고, 더 잘해야하는 것에 집중하면 좋을것 같다. 다음 프로젝트때는 PPT에 대한 집착을 버리고, 내용적으로 퀄리티를 올리는데 집중 하는게 좋겠다.
FUTURE (다음주 계획)
- 태블로는 학습 주간이 짧다. 차주 금요일 부터 또 프로젝트 시작이다. 데이터 특징이나 분포에 따라 어떤 시각화를 적용할 수 있고, 대시보드를 어떻게 구성하는게 더 효과적으로 전달 할 수 있는지에 집중하면서 실습을 진행해야겠다.
- ADSP 시험 준비 진짜 시작해야한다! 책도 왔겠다.. 차주는 잠을 좀 줄이면서 타이트 하게 학습해야할것 같다.
- 프로젝트 회고는 전체 흐름 및 내가 담당한 (CATBOOST) 모델은 코드복습까지 완료했다. 다만, 타 모델과 앙상블 기법 및 군집 파트 코드 추가 학습이 필요할것 같다. ( ADSP 진도율 확인해보고 이틀에 한개씩은 코드 뜯어봐야겠다)
- 모델링 : KNN,SVM,DECISION TREE 트리기반 ( LIGHTGBM,GBM,랜포,XGB,앙상블)
- 군집 : K-MEANS (지표 확인)
- 기법 : 파라미터 최적화( OPTUNA, GRIDSEARCHCV,RANDOMSEARCHCV),불균형 처리(SMOTE,SMOTENC,RESAMPLING)
- 실습 : CATBO+GBM 앙상블 / 스태킹 / 오분류한 데이터 추가 분석
KPT 프로젝트 회고
- KEEP
- 다양한 사람들과 협업하며 의견을 조율하는 과정이 유익했음.
- 프로젝트 내용과 흐름이 알찼고, 팀원들의 열정과 완성도를 높이려는 자세가 좋았음.
- 목표한 시간 내 담당 업무를 수행하여 불필요한 시간 지체가 없었음.
- 새로운 아이디어에 대해 열린 자세로 수용하고, 방향 수정이 필요할 때 빠르게 조정했음.
- PROBLEM
- 대용량 데이터(16만 행) 사용으로 코드 실행 시간이 길어짐.
- 발표 시간이 짧아 충분한 설명이 어려웠음.
- 담당 튜터님이 저녁 시간에만 상주하여 멘토링 시간이 부족했으며, 갑작스러운 튜터 변경 시 공지가 늦어졌음. • 메인 이었던 분류 모델링 후, 시간제약으로 인해 군집/PT 제작을 같이 병행하다보니 군집파트는 코드작성이나 마케팅 제안등 직접 실행해보지 못한 것이 개인적으로 아쉬운 부분
- TRY
- 모델 성능 비교는 랜덤 샘플링을 활용하여 실행 시간을 단축하고, 최종 실행은 컴퓨터 성능이 팀원이 진행.
- 발표 시간을 늘려 머신러닝 프로젝트의 특성을 반영할 필요 있음.
- 담당 튜터의 상주 시간을 조정하거나 서브 튜터를 배정하여 멘토링 기회를 확대.
- 코드 진행 상황을 중간에 공유하고 피드백하는 과정을 추가하여 오류를 사전에 방지.
- 개인적으로 다음 프로젝트때는 PT담당은 그만,,, 학습적으로 더 배울 수 있는 업무를 담당해보면 좋을듯