BILLET | Suivez TMC Science des données dans leur compétition Kaggle - TMC (fr) Shape caret-double-left caret-double-right caret-down caret-left caret-right-circle caret-right Shape close dropdown expand more facebook Logo linkedin logo-footer logo-mark logo-mobile mail play search twitter youtube instagram
Menu Fermer
article

BILLET | Suivez TMC Science des données dans leur compétition Kaggle

Dans ce billet, nous vous tenons informés des progrès, des défis et des victoires de l'équipe TMC Science des données dans leur première compétition Kaggle.

Objectif top 10 % | Romain Huet

26 juillet 2018 | Comme l'explique mon collègue Valentin dans son article, nous, en tant qu’Employeneurs de TMC Science des données, participons à une compétition Kaggle. Je l'aide à organiser notre participation. Puisqu'il s'agit de notre première compétition tous ensemble, notre objectif est de pouvoir soumettre un travail collaboratif et de nous positionner dans le top 10 %.

Enseignement et apprentissage

Pour ce faire, chaque semaine, nous réunissons des Employeneurs enthousiastes et motivés autour de pizzas pour contribuer à ce projet et apprendre à utiliser l'apprentissage machine sur un problème de la vie réelle. Certains d'entre nous ont plus d'expérience et une solide formation en apprentissage machine. Aider les autres à se tenir informés de ce qu’il se passe est donc un autre défi en soi.

Lors de ces réunions hebdomadaires, tout le monde partage ce qu'il a fait au cours de la semaine précédente. Cela mène à des discussions ouvertes et à des questions pour en savoir davantage sur le domaine de l'apprentissage machine, en particulier pour les curieux et débutants. Cela exige du temps pour ceux qui ont plus d'expérience et qui contribuent uniquement à la compétition et doivent expliquer ou enseigner aux autres. Cependant, comme tout enseignant, vous êtes heureux quand les gens comprennent et s'améliorent dans leur travail.

Apprendre de l'échec

La compétition à laquelle nous participons a été lancée par Santander Group, une banque espagnole, pour les aider à identifier la valeur des transactions pour chaque client potentiel. Une propriété intéressante des données est qu'aucune connaissance du domaine n'est requise, ce qui nous permet de nous concentrer sur le prétraitement des données et sur la partie apprentissage machine. En travaillant avec les « Kernels » de Kaggle qui correspondent à des codes partagés par d'autres kagglers, nous avons pu nous positionner dans le top 14 %, jusqu'à ce qu'une « fuite » apparaisse. Dans ce genre de compétition, tout peut arriver et en quelques heures, vous vous retrouvez en bas du classement. Cette pseudo-fuite est en fait un hack qui permet d'avoir une meilleure compréhension des données. Mais tout le monde, y compris nous-mêmes, profite de ce hack de données en travaillant avec des « Kernels » partagés sur les forums.

Participer à ce type de compétition vous donne la possibilité d'apprendre plus rapidement l'apprentissage machine et de voir à quelle vitesse il évolue, avec l'aide de personnes compétentes. Quant à moi, en plus d'apprendre, je peux enseigner mes connaissances aux autres, ce qui m'aide à réaliser que j'ai encore beaucoup à apprendre dans ce domaine étonnant.


Quelle est la prochaine étape de votre carrière ? Nous pouvons vous aider à la franchir

Posez votre question