Agrégateur d’Annonces Emploi, par Scrapy Ninja
Les données à extraire étaient tout simplement les annonces elles-même, intitulé, description de poste, rémunération, lieu géographique, etc.
Les sites d’offres d’emploi sont particulièrement résistants au scraping. En effet, ils pratiquent tous un peu la course aux armements depuis une dizaine d’année, ce qui fait que c’est aujourd’hui un véritable challenge technologique de les scraper en masse.
Le Besoin
Par ailleurs, le client souhaitait que ces informations arrivent directement dans sa base de données. Afin de faciliter la mise en production, nous avons simultanément fournit les données brutes en CSV, et fournit des fichiers de scripts SQL, Ce n’est qu’une fois validé par leurs services, qu’au lieu de fournir des fichiers SQL, nous nous sommes mis à jouer ces requêtes directement sur leur infrastructure.
Le premier jour, nous avons fournit plus d’ 1.500.000 annonces, puis, sur les crawling suivants qui ne s’intéressait donc qu’au différenciel, nous tournions à 180.000 annonces en moyenne par jour.
Intérêt de la solution pour le Client
– Après quelques jours de mise en place, nous fournissions un flux de données qualifié continu et maintenu.
– Notre savoir-faire en Scraping, a immédiatement donné accès à un volume de données illimité, pour un très faible workload consulting/service.
– Le client était capable de remplir son site avec une quantité de données significatives en quelques jours.
Le client a estimé que cette collecte de données lui coutait désormais 20 fois moins cher que ce qu’il pratiquait jusqu’alors en interne.