Scraping và crawling Web với Scrapy Bình luận

Giới thiệu

Trong bài viết này sẽ giới thiệu ví dụ đơn giản thu thập dữ liệu từ một trang web bằng cách sử dụng Scrapy. Cụ thể mình sẽ thu thập toàn bộ thông tin sản phẩm của một cửa hàng trên mạng, ví dụ: http://hshop.vn/collections/all?page=1

Tiến hành

  • Cài Python 2.7
  • Cài packages Scrapy

Scraping và crawling
Chúng ta có thể thấy thông tin của mỗi sản phẩm được đặt trong thẻ div và class là ProductDetails

Để lấy tên của sản phẩm và đường dẫn tương đối của

Trang web này tất cả sản phẩm hiện thị trong 32 page, đoạn code dưới dây sẽ thu thập toạn bộ tên các sản phẩm, đường link của từng sản phẩm, từ đó chúng ta có thể vào từ link sản phẩm và thu thập các meta data, hình ảnh vào cơ sở dữ liệu hoặc đơn giản hơn Scrapy hỗ trợ xuất dữ liệu sang file csv, xml…
Scraping và crawling

Code Python

Full project Scrapy: đang cập nhật

Viết bình luận

Địa chỉ email của bạn sẽ được giữ bí mật. Đánh dấu * là trường bắt buộc

Trang web này sử dụng Akismet để giảm spam. Tìm hiểu cách xử lý dữ liệu nhận xét của bạn .