본문 바로가기
카테고리 없음

[한글] Kaggle에서 처음으로 무엇을 해야할까?

by 책읽는 개발자 ami 2024. 7. 17.
728x90
반응형

서론

캐글은 데이터 과학자와 머신러닝 엔지니어들이 실력을 겨루고 협력하는 세계 최대의 온라인 플랫폼입니다.

다양한 DataSet과 여러 대회를 통해 실력을 향상시키고, 글로벌 커뮤니티와의 네트워킹 기회를 제공합니다.

초보자라면 Kaggle 사이트에 접속해서 무엇부터 시작할까 고민이 되는데, 친절하게도 저 같은 사람을 위한 설명이 자세하게 나와 있습니다.

아쉬운 건 사이트가 온통 영어뿐이라는 건데, 요즘 같이 손쉽게 누구나 GPT를 사용할 수 있는 시대에 영어가 문제가 되면 안되겠죠?! 그래도 무엇부터 봐야할 지 모르는 분들을 위해서, 링크와 번역문을 남겨두고 갑니다. 

(물론 제가 공부한 걸 정리하려는 목적이 더 크지만요@^3^@)

https://www.kaggle.com/docs/competitions#getting-started

Getting Started - 시작하기 !

'시작하기' 대회는 캐글에서 가장 쉽고 접근하기 좋은 대회입니다. 이 대회들은 머신러닝 분야에 첫 발을 내딛는 새로운 사용자들을 위해 만들어진 반영구적인 대회입니다. 상금이나 점수는 제공되지 않습니다. 장기간 운영되는 특성 때문에, '시작하기' 대회는 아마도 머신러닝 분야에서 가장 많은 튜토리얼이 제공되는 문제들일 것입니다 - 초보자가 시작하기에 딱 맞죠!

  • 숫자 인식기 Digit Recognizer
  • 타이타닉: 재난에서 배우는 머신러닝 - 타이타닉에서의 생존 예측 Titanic: Machine Learning from Disaster - Predict survival on the Titanic
  • 주택 가격: 고급 회귀 기법 Housing Prices: Advanced Regression Techniques

'시작하기' 대회는 2개월 주기로 갱신되는 *리더보드를 가지고 있습니다. 제출한 결과가 2개월이 지나면 자동으로 무효화되어 더 이상 리더보드에 반영되지 않습니다. 마찬가지로, 팀의 모든 제출 결과가 2개월 이상 지난 경우 해당 팀은 리더보드에서 제외됩니다. 이를 통해 새로운 캐글러들은 수만 명의 사용자들이 아닌, 비슷한 시기의 경쟁자들과 자신의 점수를 비교해볼 수 있습니다. 만약 귀하의 팀이 이 주기적 갱신으로 인해 '시작하기' 대회에서 제외되었다가 다시 참여하고 싶다면, 새로운 제출을 하면 리더보드에 다시 나타나게 될 것입니다.

추가로, 캐글 학습 플랫폼은 판다스부터 딥러닝까지 무료로 실습 가능한 데이터 사이언스 학습에 관심 있는 초보자들을 위한 여러 트랙을 제공합니다. 각 트랙 내의 수업은 쉽게 소화할 수 있는 단위로 나뉘어 있으며, 모델 구축과 새로운 기술을 연습할 수 있는 노트북 연습문제를 포함하고 있습니다. 캐글 대회에 뛰어들기 위해 필요한 모든 기술을 배울 수 있을 것입니다.

▽ 원문은 아래 참조 ▽

 

Competitions Documentation

Find challenges for every interest level

www.kaggle.com

 

*리더보드( leaderboards )란?

https://www.kaggle.com/docs/competitions#Leaderboard

리더보드 캐글 대회에서 가장 중요한 측면 중 하나는 리더보드입니다. 대회 리더보드는 두 부분으로 구성되어 있습니다.

공개 리더보드는 테스트 데이터의 대표 샘플을 기반으로 한 제출 점수를 공개적으로 보여줍니다. 이 리더보드는 대회 기간 내내 볼 수 있습니다.

반면에 비공개 리더보드는 나머지 테스트 데이터를 사용하여 모델 성능을 추적합니다. 따라서 비공개 리더보드는 어떤 모델이 가장 우수한지, 즉 대회의 승자와 패자가 누구인지를 최종적으로 결정합니다. 비공개 리더보드에서 계산되는 데이터의 하위 집합이나 제출물의 비공개 리더보드 성능은 대회가 종료될 때까지 사용자에게 공개되지 않습니다.

많은 사용자들이 공개 리더보드를 주의 깊게 지켜봅니다. 대회의 돌파구는 리더보드의 점수 상승으로 발표되기 때문입니다. 이러한 점수 상승은 차례로 그러한 발전을 찾고 있는 다른 팀들에게 동기를 부여합니다. 하지만 공개 리더보드를 객관적으로 바라보는 것이 중요합니다. 모델을 과적합시켜 공개 리더보드에서는 매우 좋은 성능을 보이지만 비공개 리더보드에서는 매우 나쁜 성능을 보이는 경우가 쉽게 발생할 수 있습니다. 이를 과적합(overfitting)이라고 합니다.

정확한 점수 동점의 경우, 먼저 제출한 팀이 우선순위를 가집니다. 캐글은 순위를 결정할 때 리더보드에 표시된 잘린 정밀도가 아닌 항상 전체 정밀도를 사용합니다.

▽ 원문은 아래 참조 ▽

 

Competitions Documentation

Find challenges for every interest level

www.kaggle.com

 

728x90
반응형