데이터 분석 공모전,
취업 성공을 위한 필수 가이드
글 미리보기
1. 데이터 분석 공모전, 어떤 것들이 있나요?
2. 데이터 분석 공모전, 이렇게 준비하세요 심층 분석
3. 데이터 분석 공모전 성공 전략
데이터 분석가로 취업을 하기 전, 데이터 분석 스킬의 숙련도를 끌어올리려면 프로젝트 경험이 필수적입니다. 프로젝트 경험은 데이터분석 포트폴리오를 작성하기 위해서도 필수적인데요. 만약 인턴십 경험을 갖출 수 없거나 프로젝트를 함께 할 인원을 찾기 어렵다면, 가장 빠르게 다양한 프로젝트 경험을 쌓을 수 있는 방법은 데이터 분석 공모전에 참여하는 것입니다.
개인의 스터디 경험을 기록하는 Github이나 개발 블로그의 경우, 주관적인 흥미를 보여줄 수는 있지만 데이터 분석 스킬의 실력을 측정하기에는 한계가 있습니다. 이러한 점을 보완할 수 있는 방법이 바로 데이터 분석 공모전 및 데이터 분석 대회에 참여하여 수상을 하고 객관적 지표를 축적해 나가는 것입니다.

출처: Pexels
1. 데이터 분석 공모전, 어떤 것들이 있나요?
데이터 분석 공모전에 참여할 수 있는 방법 중에서 전세계적으로 가장 규모가 크고 활발한 경진 플랫폼은 단연 캐글(Kaggle) 이라고 할 수 있습니다. 캐글은 데이터 과학자들의 놀이터라고 할 정도로 수많은 경진대회(competition)를 주최하고 있습니다. 다만, 영어 플랫폼인만큼 국내 사용자들의 접근성은 상대적으로 낮을 수 있는데요. 다행히 국내에도 데이콘(Dacon)이라는 양질의 데이터 분석 경진대회 플랫폼이 운영되고 있습니다. 데이콘에서 제공하고 있는 데이터 분석 공모전의 종류 역시 매우 다양한데요, 빅데이터 분석 경진대회나 공공데이터 공모전 등 다양한 데이터 분석 공모전이 있으니 살펴보시기 바랍니다.

출처: Pexels
2. 데이터 분석 공모전, 이렇게 준비하세요
데이터 분석 공모전을 위해 프로젝트를 진행하는 단계는 일반적으로 아래와 같습니다.
주제 선정 → 데이터 수집 및 전처리 → 탐색적 데이터 분석(EDA) → 모델링 → 결과 분석 및 시각화
1) 주제의 선
첫번째 단계인 주제 선정에 앞서 생각해보아야 할 것은 자신이 어느 분야에 ‘도메인 지식’을 갖고 있는지를 확인하는 것입니다. 개인적인 경험으로 비추어 보아, 도메인 지식은 데이터셋 내의 다양한 변수를 빠르게 이해하고 나아가 여러 개의 테이블 간 관계를 모델링하는 데에 매우 큰 역할을 합니다. 분석 결과의 신뢰성을 높이는 측면에서 도메인 지식은 매우 큰 비중을 차지합니다.
예를 들어, 경제나 금융 분야 데이터를 분석하는 과정에서 물가, 금리, 환율 등 여러 경제 지표에 대한 데이터셋을 확보했다고 가정하겠습니다. 이 때, 사전적으로 이들 간의 관계성을 대강이라도 알고 있다면 데이터셋을 요약하거나 시각화했을 때 빠르게 인사이트를 얻어낼 수 있습니다. 반대로, 각 변수의 의미나 맥락을 이해하지 못한 상태에서 데이터를 분석하게 되면 데이터를 겉으로만 얕게 이해하는 경우가 많습니다.

출처: Pexels
2) 데이터 수집 및 전처리
분석에 활용할 데이터를 수집할 때에는 특정 웹사이트에서 csv 파일이나 엑셀 파일을 수기로 다운로드 또는 구매하거나, 관련 API를 통해 데이터를 직접 불러올 수 있습니다. 이를 통해 원본 데이터(raw data)를 확보하는 것입니다.
이렇게 수집한 데이터셋의 규격이 깔끔하지 않은 상태라면 이를 잘 정제된 데이터로 가공하는 과정이 필수적입니다. 데이터 형변환, 결측치 제거, 정규화(스케일링), 데이터 길이 보정 등의 데이터 전처리 작업을 수행하여 자신이 확보한 데이터를 분석에 용이한 형태로 가공합니다.
데이터 전처리 단계는 데이터 분석 과정에서 가장 많은 시간이 소요되고 높은 수준의 데이터 핸들링 스킬이 필요합니다. 최근에는 학계나 산업계 모두 Python을 활용하는 것이 일반적이며 Numpy와 Pandas라는 수치 연산 및 데이터 처리 라이브러리를 메인으로 사용합니다.
3) 탐색적 데이터 분석(EDA·Exploratory Data Analysis)
데이터 분석에 사용하는 데이터셋의 특징을 빠르게 살펴보거나 변수들 간 관계를 탐색하여 다양한 인사이트를 도출해보는 과정을 말합니다.
간단히 예를 들어, 자신이 10개의 변수로 이루어진 10,000개의 데이터, 즉 (10,000, 10) 행렬 구조의 데이터셋을 확보했다면 각 변수들의 분포는 어떻게 되어 있는지 하나하나 히스토그램을 그려보거나, 나아가 변수들 간의 상관관계를 알고 싶다면 변수들 간의 산점도를 그려볼 수 있습니다.
EDA는 말그대로 내가 갖고 있는 데이터를 탐색하고 요리해보는 과정으로 정답이 있는 과정은 아닙니다. 만약 분석가 스스로 설립한 임의의 가설이 있다면 EDA 과정을 통해 이를 검증하는 데에 필요한 증거나 사실을 확인하려고 할 것입니다.

출처: Pexels
4) 모델링
데이터 분석 공모전의 요구 사항이 상대적으로 간단한 경우, 복잡한 모델링 절차 없이 EDA 및 분석 결과 리포팅 정도로 프로젝트의 결과를 도출할 수도 있습니다. 하지만, 대량의 데이터를 학습시켜 임의의 예측 값을 요구하는 머신러닝 관련 공모전에 참여하고 있다면 다양한 수학적 모델을 응용하는 것이 필요합니다. 이 과정에서는 자신이 정리한 데이터의 성격과 상성이 좋은 모델을 선정해야 합니다. 그렇지 않으면, 데이터를 잘 가공했음에도 불구하고 분석의 결과가 크게 유의미한 결과를 내지 못하기 때문입니다.
예를 들어, 특정 주식 가격의 시계열 데이터를 분석하여 미래 특정 시점의 값을 예측하는 데이터 분석 대회에 참여했다고 가정해보겠습니다. 이 때, 내가 확보한 데이터의 특성과 잘 맞는 예측 모형을 활용할 수 있도록 리서치를 해야 합니다.
시계열 데이터 분석에 특화되어 있는 가장 고전적인 분석 모형은 ARIMA 모형이지만, 자신이 확보한 데이터가 대량이고 단순한 분포를 하고 있지 않다면 딥러닝 기반의 LSTM 모델을 사용해서
시계열 분석을 진행할 수 있습니다.
이처럼, 자신이 정리한 데이터가 어떤 특징을 갖고 있는지, 이에 따라 어떤 모형을 사용해야 분석(예측)의 정확도를 높일 수 있는지에 대한 리서치가 필요합니다.
한편, 대중적인 모형들은 이미 Python 라이브러리로 구현되어 있는 경우가 많기 때문에 원본 데이터를 잘 수집하고 정제하는 것에 더 초점을 맞추는 것을 권장합니다.
3. 데이터 분석 공모전 성공 전략
데이터 분석 공모전에 참여하여 좋은 결과를 얻기 위해서는 많은 공부와 스킬이 필요합니다. 특히 공모전 수상이 목표라면, 다양한 수상작들을 살펴보고 수상자들의 분석 방법론을 스터디하는 것도 중요하죠.
이렇게 접근하는 방법이 막막하게 느껴진다면, 부트캠프에 참여하여 데이터 분석 스킬을 빠르게 쌓고 공모전에 도전하는 것도 좋습니다. 커널 아카데미에서 진행하는 데이터 분석 부트캠프의 경우, 데이터 분석 프로세스를 다양하게 학습할 수 있는 기회를 제공하고 실무자의 피드백을 받을 수 있다는 장점이 있습니다. 뿐만 아니라 AI 시대 맞춤형 데이터 분석 커리큘럼을 제공하고 전담 학습 매니저가 밀착 케어해주기 때문에 데이터분석 공모전 준비는 물론, 데이터 분석가 취업을 위해서도 좋은 파트너가 되어줄 수 있습니다.
*패스트캠퍼스 부트캠프가 '커널 아카데미'로 명칭이 변경되었습니다.
다른 인사이트가 더 궁금하다면