Làm quen với Big Data: Xây dựng mô hình đơn giản

Mở đầu

Gần đây mình có làm việc trong một project về Big Data trong lĩnh vực hàng không, ngoài làm việc ở công ty thì mình cũng dành ra thêm thời gian học hỏi thêm vài thứ liên quan. Tình cờ mình tìm thấy vài Tutorial hướng dẫn build Big Data platform cho mục đích học tập nghiên cứu, thấy cũng hay và liên quan đến công việc hiện tại nên cũng làm theo. Đến bây giờ tuy chưa ổn nhưng gọi là cũng có thể dùng nó để học thêm về Machine Learning, AI nên muốn chia sẻ mới mọi người.
Mình sử dụng hướng dẫn tham khảo từ Repository: Docker Hadoop Spark Workbench.
dựa theo đó mình đã build được các docker:

  • Hadoop
  • Spark
  • Zeppelin
  • Hue (HDFS Filebrowser)

Tiến hành

Cấu hình phần cứng

Đầu tiên, để chạy được toàn bộ ứng dụng thì cấu hình máy khá mạnh, với mình:

  • Ổ cứng SSD và dung lượng trống > 20 GB
  • Ram 16Gb
  • Docker Engine >= 1.13.0
  • docker-compose >= 1.10.0

Tiến hành

Bước 1: Cài docker và các tool cần thiết
Bước 2: Clone repo của mình: https://github.com/nvtienanh/spark-workbench

  • Để build lại các docker images:

  • Để chạy toàn platform:

  • Để dừng platform:

Bước 3: Chỉnh sửa hoặc cải thiện theo code theo nhu cầu của các bạn

Kết quả của mình

  • Khởi động các docker image thành công:

  • Hue (HDFS Filebrowser):

  • Spark master:

  • Hadoop datanode:

  • Zeppelin:

TODO lists

Đây chỉ là mô hình mình dùng để học tập và nghiên cứu nên rõ ràng chưa thể nào hoàn thiện được và còn nhiều vấn đề mình chưa sửa được:

  • Tự động scale up worker
  • Kết nối Hue với postgresSQL

Vì mình cũng chưa nắm rõ hết các vấn đề và cũng không có thời gian ngồi viết chi tiết hướng dẫn được (vì còn phải đi làm kiếm cơm mà. hi)
Hy vọng bài viết này sẽ giúp ích cho các bạn lúc mới tìm hiểu về Big Data và muốn xây dựng cho mình 1 platform để nghiên cứu, học tập.

Tiến Anh

Xin chào, tôi là Tiến Anh. Nội dung trên blog này là những chia sẽ kiến thức của tôi với hy vọng sẽ hữu ích cho mọi người.

Trả lời