Cách quét web và tạo tập dữ liệu bằng Python

Trong hướng dẫn này, chúng ta sẽ tìm hiểu cách quét web và Cceate một tập dữ liệu bằng Python. Có rất nhiều thư viện, khung và công cụ được sử dụng cho nhiệm vụ quét web. Một số thư viện và mô-đun phổ biến nhất trong Python được sử dụng để quét web là:

Scrapy
Selenium
BeautifulSoup
Urlib.request

Tất cả các thư viện và mô-đun Python ở trên đều tuyệt vời để thu thập dữ liệu từ các trang web. Sau khi thu thập dữ liệu, dữ liệu sẽ được chuẩn bị để có thể lưu trữ trong tệp CSV nhằm tạo tập dữ liệu.

Trong hướng dẫn này, tôi sẽ sử dụng thư viện BeautifulSoup trong Python. Ở đây tôi sẽ tìm kiếm một cụm từ ngẫu nhiên trên Google và sau đó tôi sẽ thu thập dữ liệu từ trang đầu tiên mà Google hiển thị cho tôi. Dưới đây là cách chúng ta có thể sử dụng thư viện BeautifulSoup trong Python cho tác vụ quét web nhằm tạo tập dữ liệu:

import csv
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("https://en.wikipedia.org/wiki/Comparison_of_programming_languages")
soup = BeautifulSoup(html, "html.parser")
table = soup.findAll("table", {"class":"wikitable"})[0]
rows = table.findAll("tr")

with open("language.csv", "wt+", newline="") as f:
    writer = csv.writer(f)
    for i in rows:
        row = []
        for cell in i.findAll(["td", "th"]):
            row.append(cell.get_text())
        writer.writerow(row)
   
  
import pandas as pd
a = pd.read_csv("language.csv")
a.head()

Đầu ra:

tập dữ liệu được tạo bằng cách quét web bằng Python

Với hướng dẫn này, giờ đây bạn có thể quét web để tạo tập dữ liệu của riêng mình bằng Python.