Retour d'expérience sur la mise en œuvre du BigData chez PagesJaunes.fr

Retour sur la conférence Devoxx 2014
Image non disponible

Devoxx France, pour la deuxième année consécutive, propose un après-midi de sessions courtes avec des témoignages de DSI et CTO. Pour cette année 2014, le thème est le BigData. C'est dans le cadre de cet après-midi que Jean-François Paccini, CTO de PagesJaunes.fr, a présenté comment et pourquoi ils ont été amenés à mettre en œuvre du BigData chez le célèbre annuaire professionnel.

Cet article se propose de faire un compte rendu de cette après-midi.

Pour réagir au contenu de cet article, un espace de dialogue vous est proposé sur le forum 3 commentaires Donner une note à l'article (5).

Article lu   fois.

Les deux auteurs

Profil ProSite personnel

Liens sociaux

Viadeo Twitter Facebook Share on Google+   

I. Les données chez Pages Jaunes

Pages Jaunes est l'une des entreprises les plus connues de Solocal Group. Tout comme les autres entités de ce groupe, l'information locale est ancrée dans l'ADNAcide DésoxyriboNucléique de Pages Jaunes. C'est sa valeur ajoutée par rapport à ces différents concurrents.

Les utilisateurs du site PagesJaunes.fr y font plus de 140 millions de recherches par mois. Ces recherches sont enregistrées et analysées, tout comme les logs provenant des applications mobiles, des logs serveurs, des logs métiers, etc. Ces données étaient traitées via une architecture de batch classique qui présente plusieurs défauts : lenteur des traitements ou encore reprise sur erreur complexe. Comment traiter ces informations plus facilement et plus rapidement ?

Image non disponible

II. Make It Day and GeoLive

Pages Jaunes organise des hackathons internes : les “Make It Day” : les équipes ont 24 h pour donner vie à un prototype fonctionnel d'une nouvelle idée préalablement sélectionnée. GeoLive est un projet qui a été réalisé lors d'un de ces hackathons. L'application permet d'afficher en temps réel les recherches effectuées via Pages Jaunes sur une carte. L'effet “Wahou” est immédiat : dès lors, GeoLive est utilisé comme démo dans les locaux de Pages Jaunes, mais également par les commerciaux.

Outre l'effet généré par l'application, GeoLive a permis de mettre en œuvre des technologies dites de “BigData” comme Hadoop et donc, de “toucher du doigt” ces technologies.

III. Machine Learning

En envoyant ses données dans Hadoop, PagesJaunes.fr est capable de les traiter, encore faut-il en tirer quelque chose.

Dans le but d'améliorer son moteur de recherche, une stratégie a été mise en place pour détecter les requêtes où PagesJaunes.fr est faible, c'est-à-dire qu'il ne fournit par le résultat attendu par l'utilisateur.

L'entreprise met en place du “Machine Learning” pour analyser les requêtes et améliorer ces résultats. L'analyse des requêtes utilisateurs permet la découverte de nouveaux professionnels, encore inconnu par le site. Itérativement, les règles d'indexations sont optimisées et donc, le moteur de recherche également.

Maintenant que PagesJaunes.fr est capable de traiter plus, plus vite et mieux, le site veut aller plus loin : travailler sur de l'A/B testing, mettre en place de la détection de fraude (génération de fausses recherches) et rendre l'interface utilisateur plus personnelle.

L'entreprise est enthousiaste quant à ces nouvelles technologies déployées. Jean-François Paccini fait même le pari qu'Hadoop remplacera leurs bases de données actuelles.

IV. Valeurs des données

Le virage qu'a pris PagesJaunes.fr met en évidence une chose : les données utilisateurs récoltées valent de l'or. L'exploitation de ces données offre de nouvelles possibilités et donc de nouvelles opportunités business. Pourtant, le volume de ces données augmente et elles doivent être exploitées de plus en plus vite. Pour répondre à ces nouveaux challenges, Pages Jaunes a eu le courage d'abandonner l'architecture en place au profit de nouvelles technologies.

V. Hackathons

Bien que le sujet de la présentation de Jean-François Paccini soit l'utilisation du BigData chez PagesJaunes.fr, un autre point ressort de cette présentation. Le potentiel d'Hadoop n'a pas été découvert en production sur le moteur de recherche du site, mais après un hackathon. Cet événement a permis d'essayer de nouvelles approches et de voir ce qu'il était possible d'en tirer. Le virage pris par PagesJaunes.fr n'est pas uniquement dû au fait de la mise en place de technologies BigData, mais également de leurs hackathons qui ont permis de découvrir ces technologies et leurs possibilités.

VI. Remerciements

Cet article a été publié avec l'aimable autorisation de la société SoatSoat.

Nous tenons à remercier jacques_jean pour sa relecture attentive de cet article et Mickaël Baron pour la mise au gabarit.

Vous avez aimé ce tutoriel ? Alors partagez-le en cliquant sur les boutons suivants : Viadeo Twitter Facebook Share on Google+   

  

Copyright © 2014 SOAT. Aucune reproduction, même partielle, ne peut être faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu'à trois ans de prison et jusqu'à 300 000 € de dommages et intérêts.