Mapreduce

Mình thấy mapreduce là 1 công nghệ khá hay được áp dụng trong mô hình cdsl phân tán. Theo mình được biết thì hiện nay Google, Yahoo,… đang sử dụng nó cực kỳ lợi hại. Không biết có ACE làm tiểu luận vấn đề này không, chia sẻ kinh nghiệm cùng nhau làm,…
Tham khảo file đính kèm nhé,…

MapReduce theo như mình biết thì chỉ là một mô hình xử lý dữ liệu thô để đưa vào DBMS và xử lí tiếp. Điểm hay của MR là có thể chạy cùng lúc nhiều instance và chạy trên nhiều máy có cấu hình bình thường. Điều này giúp tiêt kiệm chi phí rất lớn. Mỗi mô hình MK thường được đi kèm với 1 file system để lưu trữ. Yahoo dùng Hadoop thì phải. Mình dự định sẽ làm chủ đề này. Anh em có ai làm thì cùng trao đổi nhé.

Chào a Sơn,
Đúng vậy MR là quy trình giúp xử lý dữ liệu phân tán siêu lớn, MR được xây dựng từ mô hình lập trình hàm và lập trình xử lý song song.
<img src=‘http://www.tienphongtech.com/images/mp.jpg’ border=‘0’ alt=‘user posted image’ />
Quy trình này chia làm 02 phần:
<span style=‘color:red’>Map:</span> Master node (nút chủ)- dữ liệu đầu vào sau đó nó split (chia nhỏ) ra nhiều vấn đề khác nhỏ hơn,…
<span style=‘color:red’>Reduce:</span> Các đầu ra trung gian sẽ tổng hợp lại để đưa ra kết quả cho Master. Các bạn có idea gì chia sẻ nhé…