I. Les données chez Pages Jaunes▲
Pages Jaunes est l'une des entreprises les plus connues de Solocal Group. Tout comme les autres entités de ce groupe, l'information locale est ancrée dans l'ADNAcide DésoxyriboNucléique de Pages Jaunes. C'est sa valeur ajoutée par rapport à ces différents concurrents.
Les utilisateurs du site PagesJaunes.fr y font plus de 140 millions de recherches par mois. Ces recherches sont enregistrées et analysées, tout comme les logs provenant des applications mobiles, des logs serveurs, des logs métiers, etc. Ces données étaient traitées via une architecture de batch classique qui présente plusieurs défauts : lenteur des traitements ou encore reprise sur erreur complexe. Comment traiter ces informations plus facilement et plus rapidement ?
II. Make It Day and GeoLive▲
Pages Jaunes organise des hackathons internes : les “Make It Day” : les équipes ont 24 h pour donner vie à un prototype fonctionnel d'une nouvelle idée préalablement sélectionnée. GeoLive est un projet qui a été réalisé lors d'un de ces hackathons. L'application permet d'afficher en temps réel les recherches effectuées via Pages Jaunes sur une carte. L'effet “Wahou” est immédiat : dès lors, GeoLive est utilisé comme démo dans les locaux de Pages Jaunes, mais également par les commerciaux.
Outre l'effet généré par l'application, GeoLive a permis de mettre en œuvre des technologies dites de “BigData” comme Hadoop et donc, de “toucher du doigt” ces technologies.
III. Machine Learning▲
En envoyant ses données dans Hadoop, PagesJaunes.fr est capable de les traiter, encore faut-il en tirer quelque chose.
Dans le but d'améliorer son moteur de recherche, une stratégie a été mise en place pour détecter les requêtes où PagesJaunes.fr est faible, c'est-à-dire qu'il ne fournit par le résultat attendu par l'utilisateur.
L'entreprise met en place du “Machine Learning” pour analyser les requêtes et améliorer ces résultats. L'analyse des requêtes utilisateurs permet la découverte de nouveaux professionnels, encore inconnu par le site. Itérativement, les règles d'indexations sont optimisées et donc, le moteur de recherche également.
Maintenant que PagesJaunes.fr est capable de traiter plus, plus vite et mieux, le site veut aller plus loin : travailler sur de l'A/B testing, mettre en place de la détection de fraude (génération de fausses recherches) et rendre l'interface utilisateur plus personnelle.
L'entreprise est enthousiaste quant à ces nouvelles technologies déployées. Jean-François Paccini fait même le pari qu'Hadoop remplacera leurs bases de données actuelles.
IV. Valeurs des données▲
Le virage qu'a pris PagesJaunes.fr met en évidence une chose : les données utilisateurs récoltées valent de l'or. L'exploitation de ces données offre de nouvelles possibilités et donc de nouvelles opportunités business. Pourtant, le volume de ces données augmente et elles doivent être exploitées de plus en plus vite. Pour répondre à ces nouveaux challenges, Pages Jaunes a eu le courage d'abandonner l'architecture en place au profit de nouvelles technologies.
V. Hackathons▲
Bien que le sujet de la présentation de Jean-François Paccini soit l'utilisation du BigData chez PagesJaunes.fr, un autre point ressort de cette présentation. Le potentiel d'Hadoop n'a pas été découvert en production sur le moteur de recherche du site, mais après un hackathon. Cet événement a permis d'essayer de nouvelles approches et de voir ce qu'il était possible d'en tirer. Le virage pris par PagesJaunes.fr n'est pas uniquement dû au fait de la mise en place de technologies BigData, mais également de leurs hackathons qui ont permis de découvrir ces technologies et leurs possibilités.
VI. Remerciements▲
Cet article a été publié avec l'aimable autorisation de la société SoatSoat.
Nous tenons à remercier jacques_jean pour sa relecture attentive de cet article et Mickaël Baron pour la mise au gabarit.