jeudi 19 mars 2015

Wanted DataScientist

 Compétences du data scientist
Introduction : il y a une augmentation de la demande sur les profils "data scientist", l'essor des projets "big data" n'explique pas tout... Voici les autres raisons.

Il y a peu de profils:
  • Comme le montre ce le schéma illustrant cet article (pris à cette adresse), c'est des ingénieurs ou docteurs en informatique maîtrisant beaucoup de domaines ( math, + statistiques , + BDD + calcul scientifique). Alliant à la fois des savoirs théoriques et du savoir-faire pratique. Un certain nombre de ces profils, les plus académiques sont mal appréciés par les entreprises car ils ont du mal à se faire comprendre du reste de l'équipe technique et manquent parfois de culture d'entreprise ainsi que de culture business...
  • Ce n'est pas un domaine uniforme, il y a des sous spécialités, en fonction du type de données analysées. (analyse d'image/signal/sons, analyse ou production de langage naturel, banque/finance, etc...). Il y a beaucoup de profils différents et difficilement interchangeables.
L'augmentation de la demande de ces profils est récente. Elle découle, en partie, de l'explosion récente de la production de données (avec le web moderne). Le nombre actuel de tels profils (disponible) est donc naturellement faible. On ne devient pas "data scientist" du jour au lendemain...
Les décideurs ont souvent une idée trop simpliste des besoins en data scientist. Typiquement, ils en ont une image pyramidale où plein de données convergent vers un unique super algorithme qui produit un résultat utilisable dans un contexte business. Donc avec cette vision simpliste, ils imaginent qu'un seul data scientist, au sommet de la pyramide, peut suffire. La réalité est substantiellement différente. Dans un projet impliquant de l'analyse de données ou de l'apprentissage (machine learning) ces compétences sont nécessaire à plusieurs endroits :
  • Là où c'est évident : dans le cœur du big data, pour la construction des modèles de prédiction, c'est à dire au somment de la pyramide qu'on évoquait précédemment. C'est la situation la plus simple, quand toutes les données utilisées par le système sont structurées. Par structuré on entend des données numériques, avec un sens facilement intégrable dans une analyse. Typiquement, une valeur en euro, un pourcentage, une catégorie, etc... Cependant les situations les plus simples sont rarement les plus fréquentes.
  • Là ou c'est moins évident : bien souvent les données que l'on veux exploiter dans un modèle de prédiction sont des données dites "non-structurées". Par exemple des messages de réseaux sociaux, ou une image, un son, une mesure d'un capteur, etc... Ce type de données ne peuvent pas être utilisée directement dans un modèle de prédiction. Il faut donc souvent un ou plusieurs sous-projets de machine learning (au niveau de la base de la pyramide) pour pouvoir transformer ces données non-structurées en données structurées. On peut alors les utiliser dans un modèle de prédiction (au sommet de la pyramide). Par exemple pour utiliser des tweets dans une analyse il faut d'abord faire de la sémantique pour s'assurer le message parle bien du sujet qui nous intéresse. C'est déjà, en soit, un problème de machine learning complexe. Ensuite il faut mesurer si le message est positif neutre ou négatif, et ça c'est encore un autre un projet de machine learning...
    Le besoin en data scientist existe au sommet de la pyramide, mais aussi à la base, et souvent à plusieurs endroits d'un projet !
En résumé : les data scientist sont des profils rares, et les projets modernes d'analyse de données en nécessitent plus que ce qu'en pense les décideurs (car les décideurs sont souvent des profils non technique).

La cerise sur le gâteaux, c'est des profils compliqués à embaucher car en général il n'y a pas la compétence en interne, et donc personne n'est vraiment capable d'évaluer la qualité d'un profil "data scientist".

Conclusion le virage "data" est difficile à prendre pour les entreprise. Pour celles qui réussissent le retour sur investissement est largement présent, au détriment de celles qui ne l'ont pas tenté ou qui l'on raté...