HomePythonKaggle – Хамгийн том Data Science платформ

Kaggle – Хамгийн том Data Science платформ

 

KAGGLE – н тухай товч

Kaggle – “Your Machine Learning and Data Science Community”

Kaggle бол дэлхий даяар 3 сая гаруй дата мэргэжилтнүүдийг нэгтгэсэн Data Science, Machine Learning – н ур чадвараа дээшлүүлж, мэдлэг туршлагаа солилцох хамгийн том онлайн коммюнити билээ. Дата анализ, Дата сайнс чиглэлээр мэргэшиж байгаа хүмүүсийн хувьд маш их зүйлийг сурах боломжтой платформ. Kaggle нь Competitions, Datasets, Notebooks, Discussion болон Courses гэсэн үндсэн хэсгүүдээс бүрдэх бөгөөд тухайн хэрэглэгч хэр оролцоотой байхаас хамааран анхлан суралцагчаас их мастер хүртэлх цолуудыг олгодог.

Энэ нийтлэлээрээ та бүхэнд Kaggle – с сурч болох зүйлсийг хураангуйлан хүргэхээр бэлтгэлээ.


Kaggle Competitions – Kaggle тэмцээн

Kaggle – н тэмцээн зохион байгуулагддаг хэсэг нь Playground, Getting started, Research болон Featured гэсэн төрлүүдтэй бөгөөд ихэвчлэн машин сургалтын алгоритм боловсруулан тухайн асуудлыг хамгийн оновчтой шийдсэн багуудыг байр эзлүүлдэг. Тухайн тэмцээний төрлөөс хамааран шагналын сан, медаль олгох эсэх нь өөр өөр байх бөгөөд тэмцээн тус бүрийг доор дэлгэрүүлэн тайлбарлая.

Getting Started Competitions: Энэ төрлийн тэмцээнүүд нь анхлан суралцагч нарт зориулсан тэмцээн бөгөөд дуусах хугацаа байхгүй, ямар нэгэн шагналын сан байхгүй. Ихэвчлэн энгийн датасетүүд дээр машин сургалтын алгоритм боловсруулж асуудал шийдэх даалгаврууд байх бөгөөд маш олон заавар, жишээ notebook, код тайлбарууд байдаг. Энэ төрлийн тэмцээнүүдэд дээгүүр байр эзлэвэл медаль, оноо бодогдохгүй.

Энэ төрлийн оролцох боломжтой тэмцээнүүд:

Titanic: Machine Learning from Disaster — Титаникаас амьд гарах магадлалыг тооцох (Classification)

House Prices: Advanced Regression Techniques – Орон сууцны үнийг таамаглах (Regression)

Digit Recognizer – Гараар бичсэн тоог таних (Computer Vision)

………………………………………………………………………………………………………………………………………………………

Playground Competitions: Playground төрлийн тэмцээн нь Getting Started – аас арай хүнд төрлийн тэмцээнүүд багтах бөгөөд зарим тэмцээн нь жижиг шагналын сантай байдаг. Энэ төрлийн тэмцээнүүдэд дээгүүр байр эзлэвэл медаль, оноо бодогдохгүй.

Оролцох боломжтой тэмцээнүүд:

Open Images Object Detection – Обьект таних (Computer Vision)

………………………………………………………………………………………………………………………………………………………

Research competitions: Ихэвчлэн Machine Learning, Deep Learning – н судалгааг дэмжсэн тэмцээнүүд энэ төрлийн тэмцээнд ордог. Энэ төрлийн тэмцээнүүдэд дээгүүр байр эзлэвэл медаль, оноо бодогдоно.

………………………………………………………………………………………………………………………………………………………

Featured Competitions: Kaggle – н хамгийн гол, том тэмцээнүүд энэ хэсэгт багтана. Ихэвчлэн компаниуд, байгууллагууд спонсор хийх бөгөөд тухайн байгууллага эсвэл компанийн асуудлыг шийдвэрлэх алгоритм боловсруулах даалгавар байдаг. Зарим том тэмцээнүүд 1 сая доллар хүртэлх шагналын сантай байдаг ба үргэлжлэх хугацаа нь ихэвчлэн 2 сар байдаг. NLP, Computer Vision, Tabular төрлийн илүү ахисан түвшний тэмцээнүүд зохиогддог. Эдгээр төрлийн тэмцээнүүдэд байр эзлэхэд медаль болон оноо бодогдох ба тэмцээний медалийн тооноос хамааран эксперт, мастер, их мастер зэрэг цол олгодог. Эдгээр ТОП Data Scientist – ууд нь ихэвчлэн энэ чиглэлээр мэргэшиж ажиллаж байгаа Microsoft, Tencent, H2O зэрэг топ компаниудын мэргэжилтнүүд байдаг.

………………………………………………………………………………………………………………………………………………………

Тэмцээн хэрхэн явагддаг вэ?

  • Overview: Тэмцээний зорилго, хураангуй энэ хэсэгт байдаг.
  • Data: Тэмцээний дата, датаны тайлбар. Ихэвчлэн training data, test data, sample submission байх бөгөөд training data – г ашиглан загвараа байгуулсны дараа test data дээр предикт хийж үр дүнгээ оруулна. Test data – г хэр сайн таамагласнаас хамааран байр эзлүүлдэг.
  • Kernels: Kernel буюу Notebook нь тухайн тэмцээнд оролцож буй бусад хүмүүсийн шийдэл, датанд боловсруулалт, анализ хийснээ хуваалцсан хэсэг энд харагдана.
  • Discussion: Энэ хэсэг нь тэмцээнтэй холбоотой асуулт асуух болон хэлэлцүүлэг өрнөх хэсэг.
  • Leaderboard: Тэмцээн бүр Leaderboard буюу хэддүгээр байр эзэлснээ энэ хэсгээс харна.
  • Rules: Тэмцээний дүрэм энэ хэсэгт байх бөгөөд дүрмийг сайтар унших шаардлагатай байдаг.
  • Team: Тэмцээнд ганцаараа эсвэл багаараа орох боломжтой бөгөөд энэ хэсэгт багаа үүсгэнэ.
  • My Submissions: Өмнө нь оруулсан үр дүнгүүд энэ хэсэгт харагдана.
  • Submitting Predictions : Шинээр таамагласан үр дүнгээ энэ хэсэгт оруулна. Тэмцээн бүрээс хамааран өдөрт оруулах боломжтой тоо өөр өөр байх ба ихэнхи тэмцээн өдөрт хамгийн ихдээ 5 үр дүн оруулах боломжтой байдаг.

Notebooks – Дата анализ хийх R, Python Notebook – үүд

Kaggle Notebook нь web browser дээр ажиллах Jupyter Notebook бөгөөд өөрийн компьютер дээрээ R, Python болон нэмэлт сангууд суулгахгүйгээр шууд ашиглах боломжтой байдаг. Мөн бусад хүмүүсийн оруулсан Public тохиргоотой анализ, кодуудыг харах боломжтой.

Public Notebook – үүд
Kaggle Notebook

Датасет – Kaggle датасетүүд

Энэ хэсгээс бусад хэрэглэгчдийн оруулсан эсвэл Kaggle-с оруулсан нээлттэй датасетүүдийг ашиглах боломжтой. Төрөл бүрийн датасетийг татаж авч анализ хийх, загвар байгуулах боломжтой байдаг.


Discussion – Kaggle хэлэлцүүлэг

Discuss хэсэг нь бусад экспертүүдээс асуулт асуух, мөн хүмүүсийн асуултанд хариулах, мэдлэгээ хуваалцах талбар байдаг. Тэмцээн болгон Discuss хэсэгтэйг өмнө нь дурдсан бөгөөд тэмцээнд дээгүүр байр эзэлсэн хүмүүс мөн өөрсдийн шийдлээ энэ хэсэгт бусаддаа хуваалцдаг тул энэ хэсгээс их зүйл сурах боломжтой байдаг.

Хэлэлцүүлгийн төрлүүд
Жишээ: 1-р байранд орсон оролцогч Feature Engineering хийсэн аргуудынхаа талаар хуваалцсан байдал

Kaggle Rankings – Kaggle – н байр эзлүүлэлт

Kaggle-н хэрэглэгч бүр оролцооноосоо хамааран Тэмцээн, Датасет, Notebook, Хэлэлцүүлэг хэсэг тус бүрт оноо авч цол авах боломжтой байдаг. Эдгээрээс хамгийн нэр хүндтэй нь тэмцээн хэсэг бөгөөд анхлан суралцагчаас (Novices) их мастер (Grandmaster) хүртэл медалийн тооноосоо хамааран цол авдаг. Доорх зурагт харуулснаар яг одоогийн байдлаар тэмцээн хэсэгт 188 их мастер, 1449 мастер, 5812 экспертүүд байгааг харж болно.

Kaggle Competitions Ranking

Kaggle Courses – Kaggle сургалт

Kaggle – с бэлтгэсэн үнэгүй сургалтуудыг энэ хэсгээс суралцах боломжтой.

Kaggle – ын сургалтууд

Ирээдүйн дата мэргэжилтэн бүрийн ур чадвараа дээшлүүлэх, бусад хүмүүстэй туршлагаа хуваалцаж, суралцах хамгийн том платформыг ашиглах зөвлөгөөг дээрх нийтлэлээрээ та бүхэнд хүргэлээ. Тус платформ-д бүртгүүлэн, дээр дурдсан хэсэг тус бүрийг ашиглаад үзээрэй.

Data School.

Хуваалцах:

Холбоотой нийтлэлүүд

1. Pandas датафрэймийн мөрөөр хэрхэн давталт хийх вэ? Мөрөөр давталт хийн багана болгоны элементрүү хэрхэн хандах вэ? Хариулт: DataFrame.iterrows ашиглан...
Python хэл Python бол технологийн салбарт хамгийн түгээмэл ашиглагдаж буй программчлалын хэлүүдийн нэг бөгөөд өгөгдлийн шинжлэх ухаан, өгөгдлийн инженерчлэл, хиймэл...
dplyr нь R дээр дата боловсруулахад хамгийн их ашиглагддаг багц бөгөөд жишээгээр хэрхэн ашиглахыг энэ нийтлэлээр орууллаа.
  • R
  • 9 сар 13, 2020