Big Data Vietnam: November 2018

Wednesday, November 7, 2018

Concepts, use cases and principles to build big data systems

1) Introduction to the key Big Data concepts
1.1 The Origins of Big Data
1.2 What is Big Data ?
1.3 Why is Big Data So Important ?
1.4 How Is Big Data Used In Practice ?

2) Introduction to the key principles of Big Data Systems
2.1 How to design Data Pipeline in 6 steps
2.2 Using Lambda Architecture for big data processing

3) Practical case study : Chat bot with Video Recommendation Engine

4) FAQ for student

Concepts, use cases and principles to build big data systems (1) from Trieu Nguyen

Machine Learning - xu hướng công nghệ không thể thiếu trong thời đại máy móc thay thế con người

AI và Machine Learning đã, đang và sẽ là trụ cột tương lai của công nghệ thế giới. Để nắm được những cơ hội mới, kiến thức về chúng là không thể bỏ qua.

Thời đại công nghệ lên ngôi, vạn vật kết nối internet (IoT) đòi hỏi phải có một phương thức có thể giúp ta sử dụng. Đồng thời, từ khối dữ liệu khổng lồ mà con người cần dự đoán, vận hành mà không cần đến quá nhiều bàn tay con người.

Sự nổi lên của AI - Trí Tuệ Nhân Tạo và Machine Learning (máy tự học) đã và đang mang đến rất nhiều lợi ích cho toàn thế giới. Từ việc đi lại cho đến học tập hay mua sắm, xem phim trực tuyến, giờ đây và trong thời gian tới, tất cả sẽ có bàn tay của AI xen vào.

Nhưng tóm lại, Machine learning là gì?

Nếu coi lĩnh vực AI - Artifical Intelligence hay Trí Tuệ Nhân Tạo như một cỗ máy đồ sộ thì Machine Learning chính là những thứ bên trong cỗ máy đó, giúp cho nó trở nên hoàn thiện nhất có thể.

Cỗ máy ấy sẽ có khả năng tự học hỏi dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể.

Vì vậy, công việc chủ yếu sẽ dựa vào thuật toán và dữ liệu. Một khi có trong tay rất nhiều dữ liệu thì vấn đề sẽ chỉ còn nằm ở thuật toán mà thôi.

Khi một cỗ máy có thể tự học

Nhiều năm trước, AI và Machine learning chỉ dừng lại ở mức ý tưởng rất hạn chế. Nhưng những năm gần đây, mọi chuyện đã bắt đầu thay đổi.

Mới đây nhất, chúng ta có cuộc cách mạng công nghiệp 4.0. Tại sao lại là 4.0? Vì trong lịch sử, chúng ta đã có 3 cuộc cách mạng công nghiệp trước đó, bao gồm: động cơ hơi nước (1), năng lượng điện (2), máy móc tự động hóa - công nghệ thông tin (3). Và nay, AI cùng Machine Learning chính là cột mốc cách mạng thứ tư.

Hai chữ Machine Learning mới được nhiều người biết đến, nhưng ứng dụng của nó đã hết sức rộng rãi. Từ xe tự hành của Google và Tesla, cho đến hệ thống tự tag khuôn mặt trong ảnh của Facebook, trợ lý ảo Siri của Apple, hệ thống gợi ý sản phẩm của Amazon, tự động đề xuất những thứ người dùng quan tâm của Facebook, Google, Youtube... Tất cả đều là công năng của AI và Machine Learning.

Một trong những minh họa tốt nhất về Machine Learning là bộ lọc "spam" - thứ mà bạn vẫn dùng để quản lý email, giúp chúng ta phân loại những email hữu ích và email rác (hay còn gọi là Junk Mail).

Để làm được việc này, những "máy lọc" (filter) sẽ được thêm vào các tập hợp tiêu chí và quy định bởi chính lập trình viên. Phản hồi của người dùng sau đó sẽ giúp hệ thống tự học, tự rèn luyện cách đánh giá thế nào là một email spam, để rồi trở nên thông minh hơn và vận hành một cách tự động sau này.

Thuật toán Machine Learning hoạt động ra sao?

Quá trình hoạt động của thuật toán sẽ được chia ra 2 phần: Học Hỏi và Dự Đoán.

Đầu tiên là công đoạn Học hỏi. Các dữ liệu trước tiên sẽ được trải qua công đoạn "tiền xử lý", bao gồm Chuẩn hóa, Giảm chiều dữ liệu, và Xử lý hình ảnh. Tiếp đó máy tính sẽ học hỏi theo nhiều cách. Có thể là Học giám sát (có bàn tay con người), Học không giám sát (không cần đến con người), rồi Tối ưu hóa, Phân tích Lỗi, và kiểm tra thành quả.

Bước cuối cùng là Phán đoán. Sau khi trải qua tất cả công đoạn từ quá trình đầu tiên, sản phẩm thu được chính là dữ liệu đã qua xử lý. Từ các mẫu đã có sẵn và dữ liệu mới được nạp vào, AI sẽ dự đoán các dữ liệu tiếp theo, và cho ra thành phẩm.

Tùy thuộc phương thức học, các thuật toán Machine Learning thường được chia làm 4 nhóm: Supervised learning, Unsupervised learning, Semi-supervised learning và Reinforcement learning.

Supervised Learning (Học Có Giám Sát) giống như thuật toán về lọc thư rác, bao gồm những dữ liệu vào ra để cuối cùng đưa ra kết quả mong muốn. Ví dụ, bạn đưa một email vào thư mục spam, các email tương tự sẽ được máy tính tự động lọc bỏ ra. Đây cũng là nhóm phổ biến nhất trong các thuật toán của Machine Learning.

Tiếp theo là Unsupervised Learning (Học Không Giám Sát), ở đó dữ liệu trong quá trình làm việc không có đầu ra rõ ràng. Thuật toán này sẽ dựa vào cấu trúc dữ liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việc tính toán và lưu trữ.

Tương tự Unsupervised Learning, Semi-supervised Learning (Học Bán Giám Sát) chỉ phụ trách một công việc đó là đưa ra ít kết quả được yêu cầu nhất.

Loại còn lại là Reinforcement Learning - là tập hợp các bài toán giúp cho một hệ thống tự động xác định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất. Nó được áp dụng trong các hệ thống video game, nhằm giúp cho AI của game hoạt động với trình độ tốt nhất trong phạm vi có thể cài đặt.

Tại sao thế giới cần đến Machine Learning?

Là một phần của lĩnh vực Trí Tuệ Nhân Tạo, Machine Learning gần như trở thành một bộ não của AI.

Những thuật toán có thể hiểu đơn giản là kiến thức đầu đời dành cho một em bé. Từ kiến thức ban đầu, các "em bé" dần thu thập thông tin từ môi trường, tự trải nghiệm, học hỏi sau những lần tiếp xúc.

Nếu ví Machine Learning như một người đang học hỏi thì đúng là như vậy

Nếu ví nó như người đang học nghề thì quá trình nhận biết, học hỏi đó chính là giai đoạn training. Xuyên suốt quãng thời gian training, càng được huấn luyện nhiều - ở đây tức là người dùng càng sử dụng tương tác với AI - thì người ấy sẽ càng thành thạo hơn.

Nói cách khác các máy móc ấy sẽ càng ngày càng thông minh, đáp ứng được nhu cầu nhanh hơn và chính xác hơn. Ở những trường hợp cụ thể, thậm chí nó còn gợi ý cho người sử dụng biết phải làm hay không nên làm những gì tiếp theo để tránh gặp nguy hiểm, hoặc đưa ra được lựa chọn tốt nhất cho người sử dụng.

Machine Learning tiềm ẩn những ứng dụng tuyệt vời, chính vì thế mà công nghệ muốn phát triển vượt bậc hơn nữa sẽ không thể bỏ qua vùng đất hứa này được. Ban đầu chỉ từ những công việc "đơn thuần" như gợi ý các sản phẩm cho khách hàng, sau đó hoàn toàn có thể là vận hành, giám sát cả một hệ thống giao thông, công ty, ngân hàng... mà gần như không thể sai số hay nhầm lẫn.

Công việc của chúng ta lúc ấy chỉ cần đảm bảo cho nó luôn được vận hành tốt nhất. Viễn tưởng về một tương lai, nơi mọi thứ đều an toàn, nhanh chóng, thuận tiện và chính xác dưới sự vận hành của máy móc có khả năng tự học, được bảo an bởi con người chắc chắn là điều có thể.

Nguồn tham khảo: Simplilearn, mathworks, Forbes, digital trend...

Big Data - xu hướng cần thiết khi máy móc có thể dự đoán tương lai và số phận của con người

Bằng nguồn dữ liệu khổng lồ, máy móc có thể làm được bất kỳ điều gì, kể cả dự đoán được tương lai. Đó chính là lợi điểm mà Big Data mang lại.

Nếu đã từng xem qua bộ phim Captain America 2: The winter soldier, chắc hẳn bạn vẫn còn nhớ cảnh phim tổ chức Hydra sử dụng thuật toán để biết được những người có thể gây nguy hiểm cho chúng là ai. Chúng thậm chí có thể dự đoán được tương lai, số phận của một con người.

Nhưng thuật toán đó dựa vào đâu mà có thể làm được như vậy? Đó chính là Big Data.

Big Data là gì?

Đúng như tên gọi của nó, Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và phức tạp đến mức các công cụ phân tích, xử lý dữ liệu thông thường không thể nào đảm đương được nhiệm vụ của nó.

Hãy tưởng tượng, 50 người ngẫu nhiên truy cập vào một trang web bất kỳ. Các hoạt động của họ trên website đó sẽ được lưu trữ dưới dạng các dữ liệu (data). Tuy nhiên, nếu có hơn 3 triệu người cùng truy cập vào trang web ấy, thì đó được gọi là Big Data (hay Dữ Liệu Lớn).

Theo trang internetlivestats.com, ngay tại thời điểm bạn đang đọc bài viết này thì có hơn 3.800.950.100 người dùng đang sử dụng Internet trên toàn thế giới. Con số ấy là gì vậy? Nó chính là Big Data.

Và với một khối dữ liệu khổng lồ mang trong mình hàng tấn không tin quý giá như vậy, nếu trích xuất thành công sẽ giúp rất nhiều cho việc kinh doanh, khoa học, y tế, giao thông, và thậm chí là cả... dự đoán tương lai.

Cấu tạo 4V của Big Data

Mọi thứ trên thế giới đều có cấu tạo của riêng nó, cho dù là những sinh vật bé nhỏ nhất hay những thứ khổng lồ. Big Data cũng vậy, có thể phân tích nó thành 4 yếu tố (còn gọi là mô hình 4V): Khối lượng (Volume), Tốc độ (Velocity), Đa dạng (Variety), và Tính chân thực (Veracity).

Khối lượng: Tất cả những hoạt động diễn ra từ các nguồn đa dạng như giao dịch thương mại, mạng xã hội, thông tin qua lại giữa máy móc hay cảm biến dữ liệu đều được thuật toán Big Data quan sát và theo dõi. Chính vì thế, khối lượng của Big Data phải nói là khổng lồ.

Tốc độ: Chỉ các luồng dữ liệu (data) ở tốc độ cao và phải được xử lý kịp thời. Việc xử lý dữ liệu như phân tích dòng data để đưa ra kết quả gần hoặc song song với thời gian thực cũng đều diễn ra rất nhanh.

Lấy ví dụ như Facebook! Mạng xã hội này phải xử lý khoảng... 900 triệu bức hình upload lên mỗi ngày. Tốc độ xử lý hình ảnh này chính là tốc độ xử lý Big Data của Facebook.

Đa dạng: Nguồn dữ liệu của Big Data đến từ rất nhiều nguồn. Đó là tất cả các dạng thông tin có thể được cấu trúc hóa, số hóa trong cơ sở dữ liệu truyền thống.

Chúng có thể là các tài liệu văn bản phi cấu trúc, video, âm thanh, email, thậm chí là dữ liệu mã cổ phiếu.

Tính chân thực: Mặc dù, chất lượng cũng như khả năng sử dụng của dữ liệu phần lớn phụ thuộc vào nguồn cung cấp, nhưng chúng ta chẳng bao giờ có thể tránh được rủi ro không mong muốn.

Trên thực tế không phải những dữ liệu nào cũng có giá trị cao mà trong đó đều có tốt có xấu. Tính chân thực ở đây, tức là dữ liệu phải đáng tin cậy.

Big Data và xu hướng bắt buộc của doanh nghiệp trong tương lai

Nhìn chung, tất cả các kiểu dữ liệu đều quan trọng đối với kinh doanh, bất kể là Small Data hay Big Data.

Trong khi Small Data chỉ hiệu quả cho kinh doanh nhỏ lẻ để nhằm có bước đệm phát triển sau này, thì Big Data có giá trị giúp ích rất lớn cho việc nghiên cứu, phân tích những nhu cầu và cơ hội phát triển của khách hàng.

Lợi ích cụ thể của Big Data là:

1. Giúp phát triển tính sáng tạo

Để đạt được thành công trong kinh doanh, ý tưởng sáng tạo là một thứ cực kỳ quan trọng.

Nó cũng lý giải cho việc tại sao Big Data lại cần thiết trong công việc tìm ra loại giải pháp nào mà người dùng đang tìm kiếm đến như vậy.

Ví dụ, các hãng hàng không tất nhiên sẽ không thể vì một người muốn du lịch tới Tokyo mà cho cất cánh một chiếc máy bay 150 chỗ được. Họ sẽ phải sử dụng đến kho dữ liệu khổng lồ của họ, dựa trên những yêu cầu từ khách hàng và thông tin sẵn có để đưa ra giải pháp phù hợp hơn - ở đây là tìm cho họ một chuyến bay hợp lý.

2. Biến giấc mơ kinh doanh trở thành sự thật

Phân tích Big Data sẽ là công cụ tốt nhất để tìm ra ý tưởng kinh doanh và tạo ra giải pháp sao cho phù hợp nhất với chiến lược của công ty.

Xu hướng thị trường sẽ được dự đoán nhờ Big Data

Tại sao ư? Một công ty muốn phát triển tốt cần có tầm nhìn trong dài hạn, ít nhất phải là 5 - 10 năm. Dự đoán trước được xu hướng thị trường có thể đem lại một nguồn lợi nhuận khổng lồ.

Nhưng bạn không thể nào dự đoán được 5 năm tiếp theo chỉ bằng một lượng nhỏ dữ liệu để phân tích được. Đó chính là lý do Big Data trở nên quan trọng.

3. Tiết kiệm chi phí

Dữ liệu lớn, phương pháp kinh doanh sẽ hiệu quả hơn và đương nhiên chi phí phải bỏ ra cũng thấp hơn.

4. Giảm thiểu thời gian

Công cụ tốc độ cao như Hadoop và phân tích bộ nhớ có thể xác định dễ dàng các nguồn dữ liệu mới giúp các doanh nghiệp phân tích dữ liệu ngay tức thì và đưa ra các quyết định nhanh chóng dựa trên khả năng tự học - machine learning.

Nguồn tham khảo: Forbes, Big Data, Dummies, SAS, Plasma Comp...