lundi 12 octobre 2015

[Super] stages ingénieur


L'équipe AB Tasty, gagnant du concours d'innovation
à E-commerce Paris 2015
Je suis à la recherche de stagiaires ingénieur(e)s pour travailler avec moi dans la startup AB Tasty. Nous y faisons du test A/B (c'est quoi le test AB?), mais pas seulement!
Nous inventons des algorithmes et services qui permettent à nos clients (e-commerçant, et média, principalement) de tirer meilleur profit de leur site web.


Voyez cette vidéo où les outils d'AB Tasty permettent de prouver que Clara Morgane est une bonne égérie pour vendre de la lingerie.

Je cherche 2 types de profils différents :
  • Des étudiants intéressés par les techno' web (back ou front office)
  • Des étudiants intéressés par l'algorithmique, l'analyse de données, le machine-learning, la visualisation. C'est une super opportunité de se faire une première expérience en data-science (une des spécialités les plus demandées actuellement!).
AB Tasty est une startup en hypercroissance, la moyenne d'âge est très jeune (je suis très largement le plus âgé ;) ) et l'ambiance y est super (voyez notre compte Facebook). Nous sommes dans le quartier du "Silicon Sentier" là où il y a le plus de startup à Paris.

Il s'agit bien sur de stages payés, d'une durée d'au moins 6 mois (selon profil et en phase avec l'usage des rémunération de stages niveau ingénieur).

Si cela vous intéresse vous pouvez me contacter directement par mail ("prénom.nom@gmail.com") via Twitter : @hwassner, ou linkedIN.

Je ne peux pas dévoiler ici les sujets sur lesquels nous allons travailler, mais nous pourront bien sur discuter de cela en "live" en entretien. J'ai plein d'idées à tester et de problématiques à creuser, le choix précis de votre sujet se fera selon votre profil et ce qui vous intéresse.

lundi 5 octobre 2015

Les entreprises sont elles si attachées à leur données ?

La donnée l'or noir du 21ieme siècle ? Oui et non. Oui bien sur car avec les données et les moyens récent d'analyse on peut prédire des tas de choses et en produire de la valeur. C'est d'ailleurs la raison pour laquelle ces entreprises (et toutes les autres) ont longtemps été contre tout partage de données.
Les entreprises étaient frileuses a le faire, même quand il y avait beaucoup a y gagner, et qu'elles se protégeaient via des "Non Disclosure Agreement" (NDA).


Mais alors comment se fait-il que de plus en plus de grosses entreprises (Yahoo, Netflix, microsoft, SNCF, ...) distribuent maintenant des données gratuitement ? Cela se fait principalement dans le contexte des compétitions de machine learning via des sites comme Kaggle, pour faire des hackathons, ou via l'open Data. Les sujets sont de la recommandation de produits en fonction du visiteur pour des site de e-commerce, ou du choix de publicité à montrer à un visiteur de site média, etc... Il y a des tas de sujets et de problématique business différentes.

Il y a du changement dans l'air...

Pourquoi le font elles maintenant, alors qu'il n'y a même pas 5 ans il était inimaginable de pouvoir accéder à de telles données ? Parfois, même la signature d'un NDA était insuffisante à les rassurer.
Qu'est ce qui a changé? Pourquoi partagent-elle ces données maintenant ?

Selon moi il y a plusieurs raisons à cela, tout d'abord le manque de profils  en data science :
  • Vu la difficulté d'embauche des "data scientist", ces compétitions sont un moyen d'avoir des algorithmes de machine learning sans avoir à embaucher des data scientists.
  • Ces compétitions sont un moyen pour ces entreprise d'être exposé à de nouvelles idées, et d'entrer en contact privilégié avec des data scientist, à but d'embauche.
Mais ce n'est pas la raison la plus intéressante...
Une autre raison, finalement assez simple : ces données n'ont (finalement) que peu de valeur ! Et il semblerait que les dirigeant commencent a le comprendre.
  • Tout d'abord parce C'est des données ultra spécifiques,
  • et aussi parce que c'est un ensemble de données statiques.
Mais alors...

Les données ne sont plus "le pétrole du 21 siècle" ?

Si, mais maintenant on délimite bien mieux où se situe exactement la valeur, et finalement la valeur n'est pas dans la donnée, mais dans la capacité de la collecter et de l'analyser !
Car fondamentalement, on possède la valeur quand on possède toute la chaîne de traitement :

       Collecte --> Stockage --> Analyse --> Vente

Comprenant cela, diffuser uniquement les données ne constitue pas un risque car la donné seule n'est pas valorisable. Typiquement, si je sais quelle publicité afficher à quel visiteur ne me rapporte rien si je ne possède pas une régie de pub... D'ailleurs même si je possède une régie de pub, je ne dispose pas des mêmes publicités a afficher que celle qui sont dans le lot de donnée mis à disposition.
De même savoir que tel visiteur d'un site d'e-commerce préférera tel produit dans un catalogue n'a plus de valeur si la visite est terminée. La plupart des données partagées correspondent à des situations éphémères.

Même si on essaye de se mettre dans une situation où il y a des acteurs disposant de la capacité de collecter des données et de la valoriser, là non plus on se rend compte que le risque est faible. Tout simplement parce que les données sont périssables! On se rend compte de plus en plus, que ces modèles prédictifs ne sont pas stables dans le temps, il est nécessaire de les mettre à jour fréquemment. Que ce soit les préférence de films, musiques, produits, et même les profils d'internautes, cela évolue, et finalement assez rapidement.

Par conséquent, ni les données, ni même les modèles n'ont réellement de valeur en soit, si on ne dispose pas de toute la chaîne. Par conséquent ceux qui possède cette chaîne peuvent mettre des données à disposition sans prendre de gros risques. Cela leur permet d'améliorer leur processus et donc leur gains.

Finalement c'est ceux qui sont à la collecte de la donnée, quand elle est encore "fraîche", qui sont le mieux placés pour la valoriser. L'analyse n'est qu'une étape, qui est plus ou moins compliquée à mettre en oeuvre et qui coûte plus ou moins chère, mais elle n'a aucune valeur si elle est séparée de la collecte.

Conclusion : attention aux méfaits de l'outsourcing

Cette tendance d'ouverture des données, et de compétitions ouvertes est une réponse au manque de data-scientist. Cela montre surtout une évolution des mentalités des entreprises, ce qui est une bonne chose. J'espère seulement que cela n'ira pas jusqu'à l'externalisation des data-scientists, comme il y a eu une vague d'outsourcing pour l'informatique via les SS2I (avec tout les problèmes que cela amène coté employeur et employé).

Autre point négatif, cette vision d'ouverture via la compétition est extrêmement normative (dans sens négatif). L'intérêt d'avoir des data-scientists n'est pas tant de répondre à des questions fermées de concours mais plutôt de créer de nouvelles opportunités que le business classique ne pas percevoir.