Trang chủ Development

Hadoop là gì? Giới thiệu nhanh về công cụ phân tích Big data phổ biến nhất thế giới

Khi bạn tìm hiểu về Big data, không sớm thì muộn bạn sẽ bắt gặp một thuật ngữ có thể nghe khá lạ: Hadoop – vậy chính xác Hadoop là gì và có mối liên hệ như thế nào với Big data?

Hadoop là gì?

Để giải thích đơn giản, Hadoop có thể được coi là một tập hợp của các chương trình và quy trình nguồn mở (có nghĩa là về cơ bản tất cả mọi người đều có thể sử dụng hoặc sửa đổi miễn phí các chương trình này, tuy nhiên, vẫn có một vài ngoại lệ), để sử dụng như "xương sống" cho việc vận hành Big data.

Sau đây là một vài khái niệm và đặc tính cơ bản của Hadoop để giúp bạn có thể nhanh chóng hiểu được về thuật ngữ này một cách dễ dàng.

>> Đọc thêm: [Infographic] Các vấn đề của Big Data

4 module của Hadoop

Hadoop được tạo thành từ các "module", mỗi module đảm nhiệm một nhiệm vụ cụ thể trên một hệ thống máy tính và hệ thống này sử dụng cho việc phân tích Big data.

1. Hệ thống file phân tán

Hai module quan trọng nhất của Hadoop là:

- Distributed File System - Hệ thống tệp phân tán cho phép lưu trữ data ở một định dạng dễ truy cập, trên một số lượng lớn các thiết bị lưu trữ có liên kết với nhau

- Và MapReduce - cung cấp các công cụ cơ bản sử dụng để "chọc" vào data.

"File system" là phương pháp máy tính sử dụng để lưu trữ data, qua đó data có thể được tìm thấy và sử dụng. Thông thường, hệ điều hành máy tính sẽ xác định các vị trí này, tuy nhiên, hệ thống Hadoop sẽ sử dụng File system của riêng mình và File system này nằm "phía trên" File system của máy chủ - có nghĩa là nó có thể được truy cập từ bất kỳ máy tính nào chạy bất kỳ OS nào được hỗ trợ).

Hadoop là gì? Giới thiệu nhanh về công cụ phân tích Big data phổ biến nhất thế giới - Ảnh 1.

2. MapReduce

MapReduce được đặt tên theo hai thao tác cơ bản mà module này thực hiện - đọc data từ cơ sở dữ liệu, đưa data vào định dạng phù hợp để phân tích (dưới dạng bản đồ - map) và chạy các thuật toán. Ví dụ: đếm số nam giới trên 30 tuổi trong cơ sở dữ liệu khách hàng (reduce).

3. Hadoop Common

Một module khác là Hadoop Common, cung cấp các công cụ (dạng Java) cần thiết cho hệ thống máy tính của người dùng (Windows, Unix hoặc bất cứ OS nào) để đọc dữ liệu được lưu trữ trong hệ thống tệp Hadoop.

4. YARN

Module cuối cùng là YARN, quản lý tài nguyên của các hệ thống lưu trữ dữ liệu và chạy phân tích. Trong một vài năm trở lại đây, nhiều quy trình, thư viện, hay một số tính năng được coi như một phần của Hadoop framework, nhưng Hệ thống tệp phân tán của Hadoop, Hadoop MapReduce, Hadoop Common và Hadoop YARN là bốn nguyên tắc cơ bản nhất về công cụ này.

Hadoop là gì? Giới thiệu nhanh về công cụ phân tích Big data phổ biến nhất thế giới - Ảnh 2.

Đôi nét về lịch sử hình thành Hadoop

Sự phát triển của Hadoop bắt đầu khi một số các kỹ sư phần mềm nhận ra rằng sẽ vô cùng hữu ích để có thể lưu trữ và phân tích các tập dữ liệu lớn hơn nhiều khả năng lưu trữ và truy cập thực tế trên một thiết bị lưu trữ vật lý (như đĩa cứng chẳng hạn).

Khởi đầu của ý tưởng này có thể là do các thiết bị lưu trữ vật lý dần dần sẽ phải lớn hơn, cần nhiều thời gian hơn để thành phần đọc dữ liệu từ đĩa (nằm trong đĩa cứng, có thể là phần "head") di chuyển đến một phân đoạn cụ thể nào đó. Thay vào đó, nhiều thiết bị nhỏ hơn làm việc song song sẽ cho hiệu quả tốt hơn một thiết bị lớn.

Hadoop là gì? Giới thiệu nhanh về công cụ phân tích Big data phổ biến nhất thế giới - Ảnh 3.

Hadoop được Apache Software Foundation phát hành chính thức vào năm 2005. Apache Software Foundation là tổ chức phi lợi nhuận chuyên sản xuất phần mềm nguồn mở hỗ trợ rất nhiều mạng Internet.

Thêm một thông tin ngoài lề khá thú vị cho bạn: Nếu bạn đang tự hỏi cái tên lạ tai Hadoop đến từ đâu, câu trả lời  là Hadoop là tên của một chú voi đồ chơi thuộc về con trai của một trong số những người sáng lập ban đầu!

Ứng dụng của Hadoop

Khả năng linh hoạt của hệ thống Hadoop cho phép các công ty có thể thêm hoặc sửa đổi hệ thống dữ liệu bất cứ khi nào nhu cầu phát sinh sự thay đổi. Họ cũng có thể sử dụng các thành phần giá thành rẻ và có sẵn từ bất kỳ nhà cung cấp nào trên thị trường.

Ngày nay, Hadoop là hệ thống cung cấp lưu trữ và xử lý dữ liệu trên phần cứng được sử dụng rộng rãi nhất - tương đối hiệu quả về chi phí, các hệ thống sẵn có được kết nối với nhau, trái ngược với các giải pháp chuyên biệt đắt tiền được thiết kế riêng cho từng nhu cầu cụ thể.

Theo BizFly Cloud

>> Có thể bạn quan tâm: Machine Learning - công nghệ khai thác tối đa giá trị Big Data như thế nào?

Kể từ ngày 05/11/2018, VCCloud chính thức đổi tên thành BizFly Cloud - là nhà cung cấp các dịch vụ đám mây hàng đầu tại Việt Nam hiện nay với các dịch vụ nổi bật như: BizFly Cloud Server, BizFly CDN, BizFly Load Balancer, BizFly Pre-built Application, BizFly Business Mail, BizFly Simple Storage. Hãy tăng tốc thích nghi cho doanh nghiệp cùng các giải pháp công nghệ của BizFly Cloud tại đây.