본문 바로가기
활동

솔직한 제 2회 삼성카드 데이터 분석 공모전 후기

by 방구석 데이터사이언티스트 2022. 1. 18.
728x90
반응형

처음이자 마지막으로 혼자 참가한 공모전이자 데이터 분석을 시작하고 첫 1위라는 성과를 이룬

성카드 데이터분석 공모전 후기를 남겨봅니다. 

 

1. 삼성카드 데이터 분석 & 아이디어 공모전

 

삼성카드 공모전은 2020년 제1회를 시작으로 2021년에도 계속해서 열리고 있는 공모전입니다. 

아직까지 2회차밖에 되지 않았지만 "삼성카드"라는 이름을 걸고 하는 공모전이기에 많은 사람들이 관심을 가지고 참가하는 것 같습니다. 

※ 분야 별 1위 팀은 500만원 혹은 300만원 상금과 상장이 주어집니다.

※ 자세한 사항 : 삼성카드 데이터 분석 & 아이디어 공모전 (scic2021.com)

 

삼성카드 공모전 사이트 데이터 분석 & 아이디어 공모전

삼성카드 공모전 사이트 데이터 분석 & 아이디어 공모전

www.scic2021.com

 

분야는 세 가지로 나눠집니다.(제 2회 삼성카드 공모전 기준)

[Track 1] 고객 피드백 분류모델 개발 : 상담원 및 삼성카드 서비스에 대한 만족/불만족 피드백 분류 모델 개발

[Track 2] MZ 세대 대상 소셜마케팅 전략 : MZ세대를 타깃으로 하는 소셜미디어(SNS) 전략 제안

[Track 3] 카드 플레이트 및 굿즈 디자인 : MZ세대를 겨냥한 소구력 있는 카드 플레이트 및 굿즈 디자인 공모

 

2. 심사과정 및 후기

참가 자격 및 심사 과정(일정)

개인적인 후기 1. Track1 분야의 경우(데이터 분석분야) 1차 서류심사로 모델 기획서를 제출합니다.

                   2. 발표심사가 없다(PPT가 아닌 오로지 코드로만 심사)

                   3. 리더보드가 없다 -> (상대적인 평가를 할 수 없기에 초조하다.)

 

저는 개인으로 [Track 1] 고객 피드백 분류 모델 개발에 참가했습니다.

Track 1의 경우 다른 분야와는 다르게 데이터 분석 분야입니다. 또한 이번 대회의 특징이

분석 툴은 파이썬으로 제한했습니다.  이는 코랩환경에서 코드를 짜야 되기에 파이썬으로 제한했다고 추측됩니다.

 

[1차 심사후기]

Track1의 경우 다른 분야와 다르게 1차 모델 기획서 심사를 거쳤는데요

모델 기획서 심사를 위해 샘플 데이터도 함께 주어졌습니다.

모델 기획서에는 알고리즘 선택 이유, 전처리 후처리 방안, 파라미터 조절 계획, 모델 레퍼런스 등 여러 내용이 많이 포함되어야합니다. 하지만 그 내용들을 단 5장 이내로 써야 됩니다. 나중에 후기를 보니 1차에서 떨어진 팀들도 있었는데  5장의 ppt로 탈락여부가 정해지는게 너무 냉정하네요ㅜㅜ

 

모델 기획서 꿀팁!! : 사실 팁이라고 하기엔 부끄럽지만 모델 기획서를 작성할 때 최대한 전문적으로 쓰라고 말하고 싶네요. 쉽게 말해 몰라도 아는 척을 하라는 겁니다. 

예를 들어) Track 1 같은 경우 자연어 처리 분야의 주제이기 때문에 Bert와 Electra 같은 언어모델을 사용해야 합니다.

하지만 저는 이 모델들을 전혀 알지 못했고, 기획서를 준비하면서 공부를 했습니다. 즉, 저도 잘 알지도 못하면서 아는 척하며 1차를 통과했습니다.

 

[2차 심사후기] 

 

2차 심사는 알고리즘 구동 여부 및 성능에 대한 평가입니다. 

평가 기준은 정확도, 학습 속도, 분석 속도 등으로 이뤄지며, 이 밖에도 심사위원들의 정성적 평가도 들어가는 것으로 추측됩니다. 2차 심사를 위해 1차 때 주어진 샘플데이터를 포함해 추가 데이터를 제공해 주며 삼성카드에서 제공하는 구글코랩 환경에서 모델을 구축해야 됩니다. 사실 특별한 것은 없고 구동시간을 확인하는 함수가 여러 개 있고 라이브러리 설치하는 셀, 데이터를 불러오는 셀과 모델을 학습하는 셀 등이 나눠져 있는 환경입니다. 

 

구글코랩(무료버전)을 많이 사용해보신 분들은 아시겠지만 gpu는 정해진 시간밖에 사용못합니다. 또 다른 곳에서 gpu를 많이 사용하고 있으면 많이 사용했던 아이디는 사용 못하게 되더군요. 그래서 저는 제 구글아디로 병행하면서 준비했습니다.

 

마지막으로 가장 고민한 부분은 정확성과 학습속도입니다. 모두가 아시겠지만 정확성과 학습속도는 트레이드 오프관계입니다. 정확성을 높이려면 많은 시간의 학습이 필요한 것이죠. 저도 많이 고민했지만 정확성을 일정수준 유지하는 선에서 효율성을 최대한 높이는 것을 선택했습니다. 

선택 이유 1.  정확성이라는 평가기준을 점수화한다면 1-2퍼센트는 근소한 차이이기에 1-2퍼센트를 높이기위해

                     오랜 학습속도를 투자하는 것은 오히려 마이너스 요인이라고 판단

 

               2. 리더보드가 없다는 것은 단순히 성능만을 높이는 것이 중요한 것이 아니라 학습속도도 중요한 요소라는 점

 

3. 수상후기

처음으로 NLP분야에 대해 다뤄보며, 이 분야에 대해 깊이있게 공부하고 싶어진 계기가 됐다. 정형 데이터를 분석할 때는 숫자와 분포를 보며 추측하고, 머신러닝*딥러닝 모델에 적용해 결과를 도출하는 것에 흥미를 느꼈다면, NLP에서 우리가 사용하는 언어를 직접 처리하고 감정을 분류하는 작업은 조금 더 감성적인 부분에서 와닿을 수 있는 비지니스를 하고 사람들의 감성을 건드리는 프로젝트를 할 수 있는 분야라는 점에서 흥미로운 것 같다. 

 

"기술만으로는 충분하지 않다. 우리의 가슴을 뛰게 하는 것은 인문학과 결합된 기술이다." -애플 창업자 스티브 잡스-

 

 

  

 

 

 

 

728x90
반응형

댓글