Par Clément Cosnier – @clementcosnier
Publié le 15 avril 2019 à 17h30 – Mis à jour le 24 décembre 2019 à 10h26
Le web scraping désigne l’extraction, la capture, la récolte de données sur des sites web. L’idée est que ces données collectées soient organisées et catégorisées pour répondre à un besoin d’information. On peut les utiliser ainsi, selon son profil, pour un besoin d’étude, de benchmark, d’analyse de marché, de génération de lead ou pour des usages personnels.
La plupart des outils sur le marché qui permettent de faire du web scraping nécessite à minima des compétences en code, la capacité de configurer le scraper pour qu’il réponde au cas d’usage personnel et de fait souvent, de mettre un billet. Souvent, le web scrapper sera vu comme un outil automatisant ce que vous auriez fait à la main sur un gros volume de page, faisant gagner du temps à son utilisateur.
Spider propose d’aller sur un autre axe du web scraping : faciliter l’accès à l’extraction de donnée en simplifiant son usage sur du de la sélection à la main qui ne nécessite aucune configuration mais avec de la semi-automatisation.
L’outil de web scraping se présente comme une extension Chrome qui génère une fenêtre en bas de page. Dans cette partie d’écran, chaque colonne représente un type d’élément que l’on souhaite récupérer. Il suffit de cliquer sur un élément pour l’ajouter à une colonne ou, plus intéressant, sélectionner l’ensemble des éléments similaires sur la page. Prenons l’exemple d’un usage personnel. Je souhaite chopper tous les airbnb, hôtel, chambres d’hôtes à New York ou je compte passer mes vacances. Ça me fait souffler fort rien que de me dire que je vais devoir me constituer un spreadsheet avec du copier/coller à foison. Bref, j’ouvre le web scraper Spider, choisi l’option de sélection multiple des éléments et une fois mes critères sélectionnés sur chaque site (disons logement à Brooklyn sur la période d’août, pour 3 personnes avec un budget max quotidien de 150€, etc), récupérer les noms, urls, prix et nombre de chambres en quelques clics.
La possibilité de garder ses colonnes et informations de site en site permet de continuer son scraping de données sur le même projet. Le résultat est disponible en format JSON ou CSV, sans inscription et gratuitement.
Un chouette outil de web scraping aisé à prendre en main qui devrait faire gagner du temps à tout professionnel en recherche et récolte d’informations.
Utilisé par plus de 6 000 personnes depuis son lancement, Spider bénéficie de l’ajout de plusieurs fonctionnalités qui étaient demandées par les utilisateurs :
– Refonte plus “discrète de l’interface utilisateur ;
– Le scap du contenu paginé en un seul clic ;
– Le scrap du contenu chargé en ajax ;
– Pas d’implication de serveur ;
– Amélioration de la sélection pour de meilleurs résultats ;
– Un sélecteur custom pour les structures atypiques de sites web.
Spider Pro coûte désormais 28$ et est disponible sur Chrome et Firefox.
Publié le 12 janvier 2023 à 15h32
Publié le 11 janvier 2023 à 14h24
Publié le 10 janvier 2023 à 16h26
Publié le 9 janvier 2023 à 16h04
Publié le 6 janvier 2023 à 15h56
Publié le 5 janvier 2023 à 16h34
Modifier mes choix de cookies
© 2021 Siècle Digital est une marque déposée par SHINE MEDIA SAS. Tous droits réservés