Trang chủ Development

Những điều bạn cần làm trước khi bắt đầu triển khai kho big data trên đám mây (P2)

>> Link bài phần 1: Những điều bạn cần làm trước khi bắt đầu triển khai kho big data trên đám mây (P1)

3. Tìm các công cụ big data phù hợp với nhu cầu phân tích

Sau khi đã đánh giá kỹ lưỡng về cách lưu trữ và quản lý dữ liệu, đây sẽ là thời điểm để quyết định các công cụ hỗ trợ trích xuất những thông tin phân tích tốt nhất từ kho dữ liệu.

Sau đây là tổng quan về một số công cụ phổ biến phù hợp với các mục đích sử dụng khác nhau.

Lưu trữ và xử lý dữ liệu phân tán

Để giải quyết tính chất "đồ sộ" của dữ liệu, công cụ xử lý dữ liệu phân tán có thể sẽ giúp quản lý và xử lý hiệu quả tất cả dữ liệu của bạn.

Hadoop và Spark đã nổi lên như hai trong số các công cụ nguồn mở được sử dụng phổ biến nhất cho phép xử lý phân tán các tập hợp dữ liệu lớn.

Hadoop, thông qua hệ module rộng lớn, phân tách big data và phân phối các dữ liệu phân tách này qua nhiều node trong một cụm để dữ liệu có thể được xử lý song song. Spark chuyên xử lý bộ nhớ trong thời gian thực nhờ sử dụng 1 phương pháp gọi là Bộ dữ liệu phân tán đàn hồi (RDD) và do đó nhanh hơn Hadoop. Tuy nhiên, nó không thực hiện lưu trữ phân tán như Hadoop. Như vậy, Hadoop và Spark có thể kết hợp với nhau để đạt được tốc độ và hiệu quả cần thiết.

Những điều bạn cần làm trước khi bắt đầu triển khai kho big data trên đám mây (P2) - Ảnh 1.

Các công cụ này có thể được cài đặt trên hệ thống tại chỗ, nhưng sẽ lý tưởng hơn khi triển khai trên môi trường đám mây. Tất cả các nhà cung cấp đám mây hàng đầu đều có các dịch vụ dịch vụ có thể chạy các cụm Hadoop hoặc Spark. AWS có Elastic MapReduce, Azure có HDInsight và DataBricks, Google Cloud cung cấp Cloud Dataproc.

Giám sát và phản hồi dữ liệu theo thời gian thực

Giám sát và phân tích dữ liệu theo thời gian thực có thể giúp việc ra quyết định nhanh chóng thuận lợi hơn. Khi kết hợp với tính năng cảnh báo tức thời, phân tích dữ liệu thời gian thực có thể giúp doanh nghiệp nhanh chóng ra quyết định, điều chỉnh và hành động cụ thể để cải thiện sự hài lòng của khách hàng.

Các trường hợp sử dụng của phân tích dữ liệu thời gian thực bao gồm phát hiện gian lận thẻ tín dụng, nhận biết các trường hợp khẩn cấp về chăm sóc sức khỏe, xác định lỗi hệ thống phần mềm và nhiều vấn đề khác.

Khởi tạo báo cáo và giao diện dashboard

Đồ thị và biểu diễn trực quan cho phép các nhà phân tích và người ra quyết định dễ dàng đánh giá thông tin chỉ trong nháy mắt. Đó là lý do tại sao các công cụ biểu diễn dữ liệu trực quan là một phần quan trọng trong phân tích.

Cho dù là các công cụ cloud-based, ủy thác cho các nhà cung cấp đã có thâm niên hay tìm đến những bên nhỏ hơn chuyên về một số ngành nhất định, thì luôn không thiếu các công cụ phân tích dữ liệu trực quan trên thị trường cho bạn lựa chọn.

4. Xác định các yêu cầu về bảo mật và quy chuẩn

Càng có nhiều dữ liệu, bạn càng có nhiều cơ hội trích xuất các thông tin có giá trị một cách chi tiết. Tuy nhiên, cần hết sức lưu ý bảo vệ tính bảo mật và quyền riêng tư của tất cả các dữ liệu này.

Các vụ việc rò rỉ dữ liệu có thể dẫn đến những thiệt hại nghiêm trọng không còn là chuyện của riêng ai. Việc rò rỉ hay gây phương hại đến thông tin cá nhân khách hàng có thể dẫn đến những tổn thất tài chính không hề nhỏ, thậm chí là phải đối mặt với xử phạt theo quy định và thiệt hại về mặt uy tín. Vì vậy, nếu muốn khai thác giá trị từ nguồn lực big data, bạn phải cân nhắc đến chi phí bảo mật và quyền riêng tư.

Những điều bạn cần làm trước khi bắt đầu triển khai kho big data trên đám mây (P2) - Ảnh 2.

Big data có các yêu cầu bảo mật đặc thù do có khối lượng khổng lồ và vô cùng đa dạng (cả dữ liệu có cấu trúc và phi cấu trúc), lưu trữ phân tán (tại chỗ hoặc đám mây), xử lý phân tán (trên nhiều cụm node), các công cụ phân tích và cơ sở hạ tầng khác nhau. Ngoài ra, khi dữ liệu của bạn ở trên môi trường đám mây, bạn sẽ phải kết hợp chặt chẽ với nhà cung cấp dịch vụ đám mây của mình để đảm bảo sự tuân thủ SLA.

-  Không có giải pháp one-size-fit-all nào khi đề cập đến bảo mật big data. Các chuyên gia security khuyến nghị nên kết hợp các chiến thuật dạng tùy chỉnh cho kho big data là tốt nhất. Một số công nghệ và công cụ có thể được kết hợp bao gồm:

- Các công cụ mã hóa có thể làm việc được với các loại định dạng dữ liệu và lưu trữ khác nhau

- Hệ thống quản lý khóa tập trung bao gồm các thiết bị, chính sách và quy trình liên quan đến việc xử lý các khóa

- Chính sách kiểm soát người dùng truy cập nghiêm ngặt

- Hệ thống phát hiện và ngăn chặn xâm nhập

Các kỹ thuật như vậy không chỉ quan trọng trong việc giảm thiểu rủi ro bảo mật, mà còn tuân thủ các tiêu chuẩn quy định ngày một thắt chặt hơn. Điều này có nghĩa là ngay cả vị trí của các data center cũng có thể là một vấn đề cần lưu tâm, trong trường hợp đó, sử dụng mô hình đám mây riêng hoặc lai sẽ là tốt hơn cả.

Mặc dù chưa có một tiêu chuẩn chính thức toàn ngành nào về bảo mật big data, các tổ chức vẫn nên xem bảo mật là vấn đề chính trong mỗi bước xử lý dữ liệu. Chìa khóa để thành công là đảm bảo tất cả các thành viên trong tổ chức – từ nhà quản lý, team data cho đến team security – đều phải coi bảo mật dữ liệu là mục tiêu chung đòi hỏi nỗ lực phối hợp để đạt được.

Lựa chọn mô hình đám mây phù hợp nhất với tính chất của tổ chức

Một trong những vấn đề quan trọng mà bạn sẽ phải đưa ra khi chuyển dữ liệu của mình sang đám mây là sử dụng mô hình đám mây công cộng, đám mây riêng hay lai.

Cần phải cân bằng giữa chi phí, hiệu quả kỹ thuật, các yêu cầu về bảo mật và khả năng tuân thủ trước khi đưa ra quyết định. Một vài nhận định tổng quan cơ bản về từng mô hình đám mây:

Những điều bạn cần làm trước khi bắt đầu triển khai kho big data trên đám mây (P2) - Ảnh 3.

Đám mây công cộng - Public cloud

Trong một đám mây công cộng, các tổ chức sẽ chia sẻ các phần cứng vật lý, trong khi toàn bộ cơ sở hạ tầng đám mây được sở hữu và vận hành bởi một nhà cung cấp dịch vụ đám mây bên thứ ba như Amazon, Microsoft hoặc Google. Ưu điểm lớn nhất của đám mây công cộng là khả năng mở rộng vô hạn các tài nguyên tại một thời điểm nhất định mà không cần đầu tư trả trước, điều này sẽ rất hữu ích khi lượng dữ liệu tăng lên. Ngoài ra, sử dụng các dịch vụ đám mây công cộng cho phép bạn tận dụng các công nghệ tiên tiến và mới nhất cho các mô hình phân tích.

Đám mây riêng - Private cloud

Nếu nhu cầu tùy chỉnh và kiểm soát dữ liệu ở mức tối đa, đám mây riêng có thể sẽ là lựa chọn tốt nhất.

Trong mô hình này, dữ liệu của bạn nằm trong môi trường đám mây nhưng cơ sở hạ tầng sử dụng sẽ không được chia sẻ qua nhiều tổ chức mà hoàn toàn dành riêng cho công ty của bạn. Các đám mây riêng có thể được vận hành tại cơ sở kinh doanh hoặc trong trung tâm dữ liệu của bên thứ ba.

Với một đám mây riêng, bạn sẽ có đầy đủ hiểu biết và khả năng kiểm soát các tính năng bảo mật và nguyên tắc quản lý dữ liệu đang được áp dụng thực tế. Điều này sẽ có lợi cho mục đích bảo mật và tuân thủ quy định, tuy nhiên đòi hỏi chi phí  hành và chi phí quản lý cao hơn.

Đám mây lai

Các doanh nghiệp đang tìm kiếm một lựa chọn khác có thể tận dụng được tối đa ưu điểm của cả hai mô hình trên về khả năng tùy biến, mở rộng, bảo mật và hiệu quả chi phí có thể lựa chọn môi trường đám mây lai.

Đám mây lai là sự kết hợp giữa đám mây công cộng và đám mây riêng, cả hai đều hoạt động độc lập nhưng giao tiếp liền mạch với nhau. Bạn có thể điều chỉnh việc triển khai đám mây lai sao cho phù hợp với nhu cầu của riêng bạn.

Có thể tham khảo một ví dụ sử dụng như sau: các dữ liệu bí mật sẽ được lưu trữ trên đám mây riêng, trong khi đó chạy các truy vấn và phân tích dữ liệu ít nhạy cảm hơn trên đám mây công cộng.

Các đám mây lai chắc chắn sẽ đem lại nhiều lợi ích, tuy nhiên chúng đòi hỏi trình độ quản lý kỹ thuật và vận hành cao hơn.

Theo BizFly Cloud

>> Có thể bạn quan tâm: Machine Learning - công nghệ khai thác tối đa giá trị Big Data như thế nào?

Kể từ ngày 05/11/2018, VCCloud chính thức đổi tên thành BizFly Cloud - là nhà cung cấp các dịch vụ đám mây hàng đầu tại Việt Nam hiện nay với các dịch vụ nổi bật như: BizFly Cloud Server, BizFly CDN, BizFly Load Balancer, BizFly Pre-built Application, BizFly Business Mail, BizFly Simple Storage. Hãy tăng tốc thích nghi cho doanh nghiệp cùng các giải pháp công nghệ của BizFly Cloud tại đây.