Comment moissonner un site web en utilisant Node.js et Puppeteer

Comment moissonner un site web en utilisant Node.js et Puppeteer

Au cours de ce tutoriel, vous allez créer une application de grattage web en utilisant Node.js et Puppeteer. Votre application deviendra de plus en plus complexe à mesure que vous progresserez.

Introduction

Le moissonnage est une technique d'automatisation de la collecte des données depuis le web. Le processus déploie généralement un « collecteur » qui surfe automatiquement le web et moissonne les données des pages sélectionnées. Il existe de nombreuses raisons pour lesquelles vous pouvez vouloir extraire des données. En premier lieu, en éliminant le processus manuel de recueil de données, la collecte des données est beaucoup plus rapide. Vous pouvez également utiliser le moissonnage si vous souhaitez ou avez besoin de collecter des données mais que le site web ne dispose pas d'une API pour le faire.

Au cours de ce tutoriel, vous allez créer une application de grattage web en utilisant Node.js et Puppeteer. Votre application deviendra de plus en plus complexe à mesure que vous progresserez. Vous allez tout d'abord coder votre application pour ouvrir Chromium et charger un site web spécial conçu comme un bac à sable de moissonnage : books.toscrape.com. Les deux prochaines étapes consisteront à extraire tous les livres sur une seule page (books.toscrape), puis tous les livres qui se trouvent sur plusieurs pages. Au cours des étapes restantes, vous allez filtrer votre moissonnage par catégorie de livres. Vous enregistrerez vos données en tant que fichier JSON.

Avertissement :  le moissonnage est éthiquement et légalement très complexe et en constante évolution. À ce titre, il est également très différent en fonction de votre région, de l'emplacement des données et du site web en question. Ce tutoriel moissonne un site web spécifique, books.toscrape.com , qui a été spécialement conçu pour tester des applications de moissonage. Le fait de remplacer ce domaine par un autre domaine ne relève pas de la portée de ce tutoriel.

Conditions préalables

Étape 1 — Configuration de l'application de Web Scraping

Une fois Node.js installé, vous pouvez commencer à configurer votre application de moissonnage. Tout d'abord, vous allez créer un répertoire root de projet. Ensuite vous installerez les dépendances requises. Ce tutoriel ne nécessite qu'une seule dépendance que vous installerez en utilisant le gestionnaire de paquets npm par défaut de Node.js. npm est préinstallé avec Node.js, il est donc inutile de l'installer.

Créez un dossier pour ce projet. Ensuite vous pouvez y entrer :

mkdir book-scraper
cd book-scraper

Vous exécuterez toutes les commandes ultérieures depuis ce répertoire.

Nous devons installer un paquet en utilisant npm ou le gestionnaire de paquets de nœuds. Tout d'abord, initialisez npm afin de créer un fichier packages.json qui permettra de gérer les dépendances et les métadonnées de votre projet.

Initialisez npm pour votre projet :

npm init

npm présentera une série d'invites. Vous pouvez appuyer sur ENTRÉE pour chaque invite ou ajouter des descriptions personnalisées. Veillez à bien appuyer sur ENTRÉE et à laisser les valeurs par défaut lorsqu'on vous y invite pour entry point: et test command:. Sinon, vous pouvez également faire transmettre le drapeau y sur npmnpm init -y—. Cela soumettra toutes les valeurs par défaut.

node

Bootstrap 5 Complete Course with Examples

Bootstrap 5 Tutorial - Bootstrap 5 Crash Course for Beginners

Nest.JS Tutorial for Beginners

Hello Vue 3: A First Look at Vue 3 and the Composition API

Building a simple Applications with Vue 3

Deno Crash Course: Explore Deno and Create a full REST API with Deno

How to Build a Real-time Chat App with Deno and WebSockets

Convert HTML to Markdown Online

HTML entity encoder decoder Online

Does @types/node have to be the same version as Node?

You’ll notice from time-to-time that Node.js will release a new minor version and sometimes a major version. If you’re working with TypeScript, you’ll want to install the @types/node typings into your project.

Node JS Complete Course PDF | Node.js

There are some Features that choose Node.js the foremost decision of programming designers.

How to Hire Node.js Developers And How Much Does It Cost?

A Guide to Hire Node.js Developers who can help you create fast and efficient web applications. Also, know how much does it cost to hire Node.js Developers.

Need to Node – Volume 65

Volume 65 of Need to Node, a weekly collection of Node.js news, articles, tutorials and more.

Scheduling Tasks in Node.js with node-cron

Here's a straightforward post that shows you how to use the node-cron library to schedule cron jobs to be executed in your Node.js apps at specific times.