Client

Un portail Emploi américain réputé

Domaine Métier

Recrutement, Chasseur de Tête

Solution

Extraction formatée spécifique

Agrégateur d’Annonces Emploi, par Scrapy Ninja

Le client souhaitait extraire les annonces de 20 sites, notamment de Monster, Indeed et CareerBuilder.

Les données à extraire étaient tout simplement les annonces elles-même, intitulé, description de poste, rémunération, lieu géographique, etc.

Les sites d’offres d’emploi sont particulièrement résistants au scraping. En effet, ils pratiquent tous un peu la course aux armements depuis une dizaine d’année, ce qui fait que c’est aujourd’hui un véritable challenge technologique de les scraper en masse.

Le Besoin

La liste des sites à scraper était fournie par le client. Il nous était demandé de procéder à cette extraction quotidiennement, de fournir de nouvelles données fraiches, chaque jour, en flux continu. Nous avons mis en place un crawling sur les sites demandés, en extrayant les champs nécessaires, suivant l’expression de besoin du client.

Par ailleurs, le client souhaitait que ces informations arrivent directement dans sa base de données. Afin de faciliter la mise en production, nous avons simultanément fournit les données brutes en CSV, et fournit des fichiers de scripts SQL, Ce n’est qu’une fois validé par leurs services, qu’au lieu de fournir des fichiers SQL, nous nous sommes mis à jouer ces requêtes directement sur leur infrastructure.

Le premier jour, nous avons fournit plus d’ 1.500.000 annonces, puis, sur les crawling suivants qui ne s’intéressait donc qu’au différenciel, nous tournions à 180.000 annonces en moyenne par jour.

Intérêt de la solution pour le Client

– Les aspects techniques complexes sont gérés par le prestataires.

– Après quelques jours de mise en place, nous fournissions un flux de données qualifié continu et maintenu.

– Notre savoir-faire en Scraping, a immédiatement donné accès à un volume de données illimité, pour un très faible workload consulting/service.

– Le client était capable de remplir son site avec une quantité de données significatives en quelques jours.

Le client a estimé que cette collecte de données lui coutait désormais 20 fois moins cher que ce qu’il pratiquait jusqu’alors en interne.

Dîtes-nous vos Besoins

Laissez-nous mener pour vous une vraie étude de faisabilité. Nous répondons généralement en moins de 6 heures par un devis engageant, et pouvons habituellement démarrer le projet en moins de 48 heures.

Discutons-en ! Cela ne prend qu'une minute

850000+
Sites Crawlés
80+
Clients Heureux
1900000+
Pages Crawlés / Jour

Contactez-nous

Transformer Internet en des données structurés utilisables directement dans votre système d’information. Contactez-nous :