Big Data #11 – Vai trò của điện toán đám mây trong Big Data

Cloud là gì?

Cloud là từ thông dụng nhất trong vài năm trở lại đây. Mọi người đều biết về cloud, nhưng trong bài nay chúng ta sẽ thảo luận cloud trong ngữ cảnh big data. Cloud computing là 1 phương pháp cung cấp các tài nguyên máy tính được chia sẽ cho các ứng dụng yêu cầu tài nguyên linh động. Các tài nguyên này gồm ứng dụng, tính toán, lưu trữ, mạng, phát triển, và các nền tảng triển khai khác. Nền tảng của cloud computing là nó chia sẽ tài nguyên và phân phối đến người dùng cuối như 1 dịch vụ.

Các ví dụ của cloud computing và big data là Google và Amazon.com. Cả hai đều cung cấp big data với sự trợ giúp của cloud.

Có 2 mô hình triển khai cloud khác nhau: 1) Public Cloud và 2) Private Cloud. (more…)

Big Data #10 – NewSQL là gì?

NewSQL là gì?

NewSQL viết tắt của new scalable and high performance SQL Database vendors. Các sản phẩm được bán bởi các nhà cung cấp NewSQL có thể mở rộng theo chiều ngang. NewSQL không phải 1 loại CSDL nhưng nó là về nhà cung cấp đã hỗ trợ các sản phẩm dữ liệu với những thuộc tính của CSDL quan hệ (như ACID, Transaction,…) cùng với hiệu suất cao.

Các sản phẩm từ các nhà cung cấp NewSQL thường theo hướng dữ liệu bộ nhớ để tăng tốc độ truy cập và mở rộng ngay lập tức.

NewSQL được đặt ra bởi 451 group analyst Matthew Aslett trong bài đăng này. (more…)

Big Data #9 – Tầm quan trọng của CSDL quan hệ trong Big Data

Câu hỏi lớn?

Một vài câu hỏi khi bắt đầu với big data:

  • CSDL quan hệ không có chỗ đứng trong câu chuyện big data phải không?
  • CSDL quan hệ không còn phù hợp khi big data phát triển phải không?
  • CSDL quan hệ không có khả năng xử lý big data đúng không?
  • Có đúng là không cần phải tìm hiểu CSDL quan hệ nếu big data là điểm đến cuối cùng?

Theo ý kiến cá nhân, những người tham vọng trở thành chuyên gia về big data nên tìm hiểu về CSDL quan hệ. (more…)

Big Data #8 – HDFS là gì?

HDFS là gì?

HDFS là viết tắt của Hadoop Distributed File System và nó là 1 hệ thống lưu trữ chính được dùng bởi Hadoop. Nó cung cấp truy cập hiệu suất cao đến dữ liệu trên các cụm Hadoop. Nó thường ợc triển khai trên các phần cứng chi phí thấp. Các máy chủ chi phí thấp này rất dễ xảy ra lỗi phần cứng. Vì lý do này mà HDFS được xây dựng để có khả năng chịu lỗi cao. Tốc độ truyền dữ liệu giữa các nodes trong HDFS là rất cao, dẫn đến giảm thiểu nguy cơ lỗi.

HDFS tạo các mảnh nhỏ hơn của dữ liệu lớn và phân tán nó trên các nodes khác nhau. Nó cũng sao chép mỗi miếng dữ liệu nhỏ hơn nhiều lần trên nhiều nodes khác nhau. Do đó khi bất kỳ node nào có dữ liệu lỗi, hệ thống tự động dùng dữ liệu từ 1 node khác và tiếp tục xử lý. Đây là tính năng quan trọng của HDFS. (more…)

Big Data #7 – MapReduce là gì?

MapReduce là gì?

MapReduce được thiết kế bởi Google như 1 mô hình lập trình xử lý tập dữ liệu lớn song song, thuật toán được phân tán trên 1 cụm. Mặc dù, MapReduce ban đầu là công nghệ độc quyền của Google, nó đã trở thành thuật ngữ tổng quát hóa trong thời gian gần đây.

MapReduce gồm các thủ tục: 1 Map() và 1 Reduce(). Thủ tục Map() lọc (filter) và phân loại (sort) trên dữ liệu trong khi thủ tục Reduce() thực hiện tổng hợp dữ liệu. Mô hình này dựa trên các khái niệm biến đổi của bản đồ và reduce các chức năng trong lập trình hướng chức năng. Thư viện thủ tục Map() và Reduce() được viết bằng nhiều ngôn ngữ. Cài đặt miễn phí, phổ biến nhất của MapReduce là Apache Hadoop. (more…)

Big Data #6 – Hadoop là gì?

Hadoop là gì?

Apache Hadoop là 1 nền tảng mềm mã nguồn mở, miễn phí, dựa trên Java, cung cấp 1 nền tảng phân tán mạnh để lưu trữ và quản lý big data. Bản quyền Apache V2 license. Nó chạy ứng dụng trên các cụm phần cứng lớn và xử lý hàng ngàn terabytes dữ liệu trên hàng ngàn nodes. Hadoop lấy cảm hứng từ Google MapReduce và Google File System (GFS). Điểm mạnh của nền tảng Hadoop là cung cấp độ tin cậy và tính sẵn sàng cao.

what_is_hadoop (more…)

Big Data #5 – NoSQL là gì?

NoSQL là gì?

NoSQL là viết tắt cho Not Relational SQL hay Not Only SQL. Nhiều người nghĩ rằng NoSQL có nghĩa là No SQL, là không đúng – cả hai đều phát âm giống nhau nhưng nghĩa hoàn toàn khác nhau. NoSQL dùng SQL nhưng nó dùng nhiều hơn cả SQL để đạt được mục tiêu của mình.

Như định nghĩa NoSQL Database trên Wikepedia – “A NoSQL database provides a mechanism for storage and retrieval of data that uses looser consistency models than tranditional relational databases.”

nosql (more…)

Big Data #4 – Cơ bản về kiến trúc Big Data

Chu kỳ của Big Data

Cũng giống các ứng dụng liên quan đến cơ sở dữ liệu khác, dự án big data cũng có chu kỳ phát triển của nó. 3Vs đóng vai trò quan trọng trong việc quyết định kiến trúc của dự án big data. Dự án big data cũng có các phase như data capturing, transforming, integrating, analyzing và building actionable reporting.

Các quá trình này trông gần như giống nhau, nhưng do bản chất của dữ liệu, kiến trúc thường là hoàn toàn khác nhau. Dưới đây là vài câu hỏi mà tất cả mọi người nên hỏi trước khi bắt đầu với kiến trúc big data. (more…)

Big Data #3 – Sự tiến hóa của Big Data

Dữ liệu dạng Flat File

data_in_flat_file

 

Dữ liệu được lưu trong các tập tin văn bản thường không chứa cấu trúc (flat file). Không có khả năng truy xuất dữ liệu hiệu quả và việc tích hợp dữ liệu không thể thực hiện khi không có bất kỳ mô hình hay cấu trúc xung quanh. Dữ liệu lưu trong flat file sẽ gặp vấn đề về khai thác trong thời đại ngày nay. Nó như một cơn ác mộng khi có bất kỳ xử lý dữ liệu trong ứng dụng. Mặc dù các ứng dụng được phát triển tại thời điểm đó là phù hợp với sự phát triển của kỹ thuật và dữ liệu. (more…)

Big Data #2 – Big Data là gì? – So sánh Volume, Velocity và Variety

Dữ liệu là mãi mãi, đây là sự thật. Bạn có đang dùng 1 ứng dụng được xây dựng cách đây 10 năm? Bạn có đang dùng các phần cứng được tạo ra cách đây 10 năm? Câu trả lời đa phần là không. Tuy nhiên, nếu hỏi – bạn có đang dùng dữ liệu đã có cách đây 50 năm? câu trả lời chắc chắn là có. Ví dụ, nhìn vào lịch sử của dân tộc, hay như dữ liệu ngày sinh nhật của chúng ta – ít nhất chúng ta cũng đang sử dụng nó đến ngày hôm nay. Dữ liệu không bao giờ cũ và nó sẽ được lưu giữ mãi.

Các tổ chức ngày càng phát triển, dữ liệu liên quan cũng phát triển và ngày càng phức tạp hơn. Hầu hết các tổ chức lớn đều có dữ liệu trong nhiều ứng dụng và định dạng khác nhau. Dữ liệu dàn trải rất khó để phân loại với chỉ 1 thuật toán duy nhất. Cuộc cách mạng di động đã hoàn toàn thay đổi cách chúng ta thu thập dữ liệu và xây dựng các hệ thống thông minh. Các tổ chức lớn đang thực sự đối mặt với thách thức để giữ tất cả dữ liệu trên một nền tảng để cho họ một cái nhìn nhất quán tất cả dữ liệu đang có. (more…)