Scraping và crawling Web với Scrapy

Giới thiệu

Trong bài viết này sẽ giới thiệu ví dụ đơn giản thu thập dữ liệu từ một trang web bằng cách sử dụng Scrapy. Cụ thể mình sẽ thu thập toàn bộ thông tin sản phẩm của một cửa hàng trên mạng, ví dụ: http://hshop.vn/collections/all?page=1

Tiến hành

  • Cài Python 2.7
  • Cài packages Scrapy

Scraping và crawling
Chúng ta có thể thấy thông tin của mỗi sản phẩm được đặt trong thẻ div và class là ProductDetails

Để lấy tên của sản phẩm và đường dẫn tương đối của

Trang web này tất cả sản phẩm hiện thị trong 32 page, đoạn code dưới dây sẽ thu thập toạn bộ tên các sản phẩm, đường link của từng sản phẩm, từ đó chúng ta có thể vào từ link sản phẩm và thu thập các meta data, hình ảnh vào cơ sở dữ liệu hoặc đơn giản hơn Scrapy hỗ trợ xuất dữ liệu sang file csv, xml…
Scraping và crawling

Code Python

Full project Scrapy: đang cập nhật

Tiến Anh

Xin chào, tôi là Tiến Anh. Nội dung trên blog này là những chia sẽ kiến thức của tôi với hy vọng sẽ hữu ích cho mọi người.

Trả lời