article 26 juli 2018

BLOGG | Följ TMC Data Science under deras Kaggle-tävling

I vår blogg håller vi dig uppdaterad om förloppet, utmaningarna och vinsterna för TMC Data Science-laget i deras första Kaggle-tävling.

Med sikte på de översta 10 % | Romain Huet

26 juli, 2018 | Som min kollega Valentin förklarar i sin artikel deltar vi, Employeneurer från TMC Data Science, i en Kaggle-tävling. Jag hjälper honom att organisera vårt deltagande. Eftersom det är vår första tävling är vårt övergripande mål att lämna in ett gemensamt arbete och hamna bland de övre 10 %.

Lära ut och lära sig

För att uppnå detta samlar vi glada och entusiastiska Employeneurer runt en pizzabuffé för att bidra till projektet och lära oss hur maskininlärning kan appliceras på verkliga problem. Vissa av oss har mer erfarenhet och en stadig bakgrund inom maskininlärning. Därför är en del av utmaningen att hjälpa de andra att hänga med.

Vi har möten varje vecka där alla delar med sig om vad de har gjort under den föregående veckan. Detta leder till öppna diskussioner och frågor för de som vill lära sig mer om maskininlärning, särskilt de som bara är nyfikna eller inte har så stor erfarenhet. Detta tar tid från de som har mer erfarenhet, som enbart bidrar till tävlingsmomentet och måste instruera och förklara för de andra. Men som lärare är du glad när folk förstår och blir bättre.

At lära sig från misstagen

Tävlingen vi deltar i har dragits igång av Santander Group, en spanska bank, för att hjälpa dem identifiera transaktionsvärdet för varje potentiell kund. En bra egenskap som dessa data har är att det inte krävs någon domänkunskap, och därför kan vi alla fokusera på förbehandlingen av data och maskininlärningen. Genom att arbeta med ”Kaggle Kernels” som motsvarar koder som delas av andra användare av Kaggle lyckades vi ta oss till topp 14 %, innan en ”läcka” uppstod. Det är en tävling där allt kan hända och inom loppet av några få timmar kan du hamna längst ner på ledartavlan. Den så kallade ”läckan” är faktisk ett hack som gör det lättare att få översikt/förståelse för datan. Nu utnyttjar alla, vi också, detta datahack genom att arbete med ”Kernels” som delas på forumen.

Att delta i en sådan tävling gör att du lär dig snabbare om maskininlärning och ser hur snabbt den utvecklas med hjälp av skickliga personer. För min del, utöver att jag lär mig massor, kan jag föra mina kunskaper vidare till andra, som i sin tur hjälper mig att inse hur mycket mer jag har att lära inom detta fantastiska område.