Wednesday, November 7, 2018

Concepts, use cases and principles to build big data systems



1) Introduction to the key Big Data concepts
1.1 The Origins of Big Data
1.2 What is Big Data ?
1.3 Why is Big Data So Important ?
1.4 How Is Big Data Used In Practice ?

2) Introduction to the key principles of Big Data Systems
2.1 How to design Data Pipeline in 6 steps
2.2 Using Lambda Architecture for big data processing

3) Practical case study : Chat bot with Video Recommendation Engine

4) FAQ for student



Machine Learning - xu hướng công nghệ không thể thiếu trong thời đại máy móc thay thế con người

AI và Machine Learning đã, đang và sẽ là trụ cột tương lai của công nghệ thế giới. Để nắm được những cơ hội mới, kiến thức về chúng là không thể bỏ qua.

Thời đại công nghệ lên ngôi, vạn vật kết nối internet (IoT) đòi hỏi phải có một phương thức có thể giúp ta sử dụng. Đồng thời, từ khối dữ liệu khổng lồ mà con người cần dự đoán, vận hành mà không cần đến quá nhiều bàn tay con người.
Sự nổi lên của AI - Trí Tuệ Nhân Tạo và Machine Learning (máy tự học) đã và đang mang đến rất nhiều lợi ích cho toàn thế giới. Từ việc đi lại cho đến học tập hay mua sắm, xem phim trực tuyến, giờ đây và trong thời gian tới, tất cả sẽ có bàn tay của AI xen vào.
Machine Learning - xu hướng công nghệ không thể thiếu trong thời đại máy móc thay thế con người - Ảnh 1. 
Nhưng tóm lại, Machine learning là gì? 
Nếu coi lĩnh vực AI - Artifical Intelligence hay Trí Tuệ Nhân Tạo như một cỗ máy đồ sộ thì Machine Learning chính là những thứ bên trong cỗ máy đó, giúp cho nó trở nên hoàn thiện nhất có thể. 
Cỗ máy ấy sẽ có khả năng tự học hỏi dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể. 
Vì vậy, công việc chủ yếu sẽ dựa vào thuật toán và dữ liệu. Một khi có trong tay rất nhiều dữ liệu thì vấn đề sẽ chỉ còn nằm ở thuật toán mà thôi.
Machine Learning - xu hướng công nghệ không thể thiếu trong thời đại máy móc thay thế con người - Ảnh 2.
Khi một cỗ máy có thể tự học
Nhiều năm trước, AI và Machine learning chỉ dừng lại ở mức ý tưởng rất hạn chế. Nhưng những năm gần đây, mọi chuyện đã bắt đầu thay đổi. 
Mới đây nhất, chúng ta có cuộc cách mạng công nghiệp 4.0. Tại sao lại là 4.0? Vì trong lịch sử, chúng ta đã có 3 cuộc cách mạng công nghiệp trước đó, bao gồm: động cơ hơi nước (1), năng lượng điện (2), máy móc tự động hóa - công nghệ thông tin (3). Và nay, AI cùng Machine Learning chính là cột mốc cách mạng thứ tư. 
Hai chữ Machine Learning mới được nhiều người biết đến, nhưng ứng dụng của nó đã hết sức rộng rãi. Từ xe tự hành của Google và Tesla, cho đến hệ thống tự tag khuôn mặt trong ảnh của Facebook, trợ lý ảo Siri của Apple, hệ thống gợi ý sản phẩm của Amazon, tự động đề xuất những thứ người dùng quan tâm của Facebook, Google, Youtube... Tất cả đều là công năng của AI và Machine Learning.
Machine Learning - xu hướng công nghệ không thể thiếu trong thời đại máy móc thay thế con người - Ảnh 3.
Một trong những minh họa tốt nhất về Machine Learning là bộ lọc "spam" - thứ mà bạn vẫn dùng để quản lý email, giúp chúng ta phân loại những email hữu ích và email rác (hay còn gọi là Junk Mail).
Để làm được việc này, những "máy lọc" (filter) sẽ được thêm vào các tập hợp tiêu chí và quy định bởi chính lập trình viên. Phản hồi của người dùng sau đó sẽ giúp hệ thống tự học, tự rèn luyện cách đánh giá thế nào là một email spam, để rồi trở nên thông minh hơn và vận hành một cách tự động sau này. 
Thuật toán Machine Learning hoạt động ra sao?
Quá trình hoạt động của thuật toán sẽ được chia ra 2 phần: Học Hỏi và Dự Đoán.
Machine Learning - xu hướng công nghệ không thể thiếu trong thời đại máy móc thay thế con người - Ảnh 4.
Đầu tiên là công đoạn Học hỏi. Các dữ liệu trước tiên sẽ được trải qua công đoạn "tiền xử lý", bao gồm Chuẩn hóa, Giảm chiều dữ liệu, và Xử lý hình ảnh. Tiếp đó máy tính sẽ học hỏi theo nhiều cách. Có thể là Học giám sát (có bàn tay con người), Học không giám sát (không cần đến con người), rồi Tối ưu hóa, Phân tích Lỗi, và kiểm tra thành quả.
Bước cuối cùng là Phán đoán. Sau khi trải qua tất cả công đoạn từ quá trình đầu tiên, sản phẩm thu được chính là dữ liệu đã qua xử lý. Từ các mẫu đã có sẵn và dữ liệu mới được nạp vào, AI sẽ dự đoán các dữ liệu tiếp theo, và cho ra thành phẩm.  
Tùy thuộc phương thức học, các thuật toán Machine Learning thường được chia làm 4 nhóm: Supervised learning, Unsupervised learning, Semi-supervised learning và Reinforcement learning.
Supervised Learning (Học Có Giám Sát) giống như thuật toán về lọc thư rác, bao gồm những dữ liệu vào ra để cuối cùng đưa ra kết quả mong muốn. Ví dụ, bạn đưa một email vào thư mục spam, các email tương tự sẽ được máy tính tự động lọc bỏ ra. Đây cũng là nhóm phổ biến nhất trong các thuật toán của Machine Learning.
Machine Learning - xu hướng công nghệ không thể thiếu trong thời đại máy móc thay thế con người - Ảnh 5.
Tiếp theo là Unsupervised Learning (Học Không Giám Sát), ở đó dữ liệu trong quá trình làm việc không có đầu ra rõ ràng. Thuật toán này sẽ dựa vào cấu trúc dữ liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việc tính toán và lưu trữ.
Machine Learning - xu hướng công nghệ không thể thiếu trong thời đại máy móc thay thế con người - Ảnh 6.
Tương tự Unsupervised Learning, Semi-supervised Learning (Học Bán Giám Sát) chỉ phụ trách một công việc đó là đưa ra ít kết quả được yêu cầu nhất.
Machine Learning - xu hướng công nghệ không thể thiếu trong thời đại máy móc thay thế con người - Ảnh 7.
Loại còn lại là Reinforcement Learning - là tập hợp các bài toán giúp cho một hệ thống tự động xác định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất. Nó được áp dụng trong các hệ thống video game, nhằm giúp cho AI của game hoạt động với trình độ tốt nhất trong phạm vi có thể cài đặt.
Machine Learning - xu hướng công nghệ không thể thiếu trong thời đại máy móc thay thế con người - Ảnh 8.
Tại sao thế giới cần đến Machine Learning?
Là một phần của lĩnh vực Trí Tuệ Nhân Tạo, Machine Learning gần như trở thành một bộ não của AI. 
Những thuật toán có thể hiểu đơn giản là kiến thức đầu đời dành cho một em bé. Từ kiến thức ban đầu, các "em bé" dần thu thập thông tin từ môi trường, tự trải nghiệm, học hỏi sau những lần tiếp xúc. 
Machine Learning - xu hướng công nghệ không thể thiếu trong thời đại máy móc thay thế con người - Ảnh 9.
Nếu ví Machine Learning như một người đang học hỏi thì đúng là như vậy
Nếu ví nó như người đang học nghề thì quá trình nhận biết, học hỏi đó chính là giai đoạn training. Xuyên suốt quãng thời gian training, càng được huấn luyện nhiều - ở đây tức là người dùng càng sử dụng tương tác với AI - thì người ấy sẽ càng thành thạo hơn
Nói cách khác các máy móc ấy sẽ càng ngày càng thông minh, đáp ứng được nhu cầu nhanh hơn và chính xác hơn. Ở những trường hợp cụ thể, thậm chí nó còn gợi ý cho người sử dụng biết phải làm hay không nên làm những gì tiếp theo để tránh gặp nguy hiểm, hoặc đưa ra được lựa chọn tốt nhất cho người sử dụng.
Machine Learning tiềm ẩn những ứng dụng tuyệt vời, chính vì thế mà công nghệ muốn phát triển vượt bậc hơn nữa sẽ không thể bỏ qua vùng đất hứa này được. Ban đầu chỉ từ những công việc "đơn thuần" như gợi ý các sản phẩm cho khách hàng, sau đó hoàn toàn có thể là vận hành, giám sát cả một hệ thống giao thông, công ty, ngân hàng... mà gần như không thể sai số hay nhầm lẫn
Công việc của chúng ta lúc ấy chỉ cần đảm bảo cho nó luôn được vận hành tốt nhất. Viễn tưởng về một tương lai, nơi mọi thứ đều an toàn, nhanh chóng, thuận tiện và chính xác dưới sự vận hành của máy móc có khả năng tự học, được bảo an bởi con người chắc chắn là điều có thể.
Nguồn tham khảo: Simplilearn, mathworks, Forbes, digital trend...

Big Data - xu hướng cần thiết khi máy móc có thể dự đoán tương lai và số phận của con người

Bằng nguồn dữ liệu khổng lồ, máy móc có thể làm được bất kỳ điều gì, kể cả dự đoán được tương lai. Đó chính là lợi điểm mà Big Data mang lại.

Nếu đã từng xem qua bộ phim Captain America 2: The winter soldier, chắc hẳn bạn vẫn còn nhớ cảnh phim tổ chức Hydra sử dụng thuật toán để biết được những người có thể gây nguy hiểm cho chúng là ai. Chúng thậm chí có thể dự đoán được tương lai, số phận của một con người.
Nhưng thuật toán đó dựa vào đâu mà có thể làm được như vậy? Đó chính là Big Data.
Big Data - xu hướng cần thiết khi máy móc có thể dự đoán tương lai và số phận của con người - Ảnh 1.
Big Data là gì?
Đúng như tên gọi của nó, Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và phức tạp đến mức các công cụ phân tích, xử lý dữ liệu thông thường không thể nào đảm đương được nhiệm vụ của nó. 
Hãy tưởng tượng, 50 người ngẫu nhiên truy cập vào một trang web bất kỳ. Các hoạt động của họ trên website đó sẽ được lưu trữ dưới dạng các dữ liệu (data). Tuy nhiên, nếu có hơn 3 triệu người cùng truy cập vào trang web ấy, thì đó được gọi là Big Data (hay Dữ Liệu Lớn).
Big Data - xu hướng cần thiết khi máy móc có thể dự đoán tương lai và số phận của con người - Ảnh 2.
Theo trang internetlivestats.com, ngay tại thời điểm bạn đang đọc bài viết này thì có hơn 3.800.950.100 người dùng đang sử dụng Internet trên toàn thế giới. Con số ấy là gì vậy? Nó chính là Big Data. 
Và với một khối dữ liệu khổng lồ mang trong mình hàng tấn không tin quý giá như vậy, nếu trích xuất thành công sẽ giúp rất nhiều cho việc kinh doanh, khoa học, y tế, giao thông, và thậm chí là cả... dự đoán tương lai.
Cấu tạo 4V của Big Data
Mọi thứ trên thế giới đều có cấu tạo của riêng nó, cho dù là những sinh vật bé nhỏ nhất hay những thứ khổng lồ. Big Data cũng vậy, có thể phân tích nó thành 4 yếu tố (còn gọi là mô hình 4V): Khối lượng (Volume), Tốc độ (Velocity), Đa dạng (Variety), và Tính chân thực (Veracity).
Big Data - xu hướng cần thiết khi máy móc có thể dự đoán tương lai và số phận của con người - Ảnh 3.
Khối lượng: Tất cả những hoạt động diễn ra từ các nguồn đa dạng như giao dịch thương mại, mạng xã hội, thông tin qua lại giữa máy móc hay cảm biến dữ liệu đều được thuật toán Big Data quan sát và theo dõi. Chính vì thế, khối lượng của Big Data phải nói là khổng lồ.
Tốc độ: Chỉ các luồng dữ liệu (data) ở tốc độ cao và phải được xử lý kịp thời. Việc xử lý dữ liệu như phân tích dòng data để đưa ra kết quả gần hoặc song song với thời gian thực cũng đều diễn ra rất nhanh.
Lấy ví dụ như Facebook! Mạng xã hội này phải xử lý khoảng... 900 triệu bức hình upload lên mỗi ngày. Tốc độ xử lý hình ảnh này chính là tốc độ xử lý Big Data của Facebook.
Big Data - xu hướng cần thiết khi máy móc có thể dự đoán tương lai và số phận của con người - Ảnh 4.
Đa dạng: Nguồn dữ liệu của Big Data đến từ rất nhiều nguồn. Đó là tất cả các dạng thông tin có thể được cấu trúc hóa, số hóa trong cơ sở dữ liệu truyền thống. 
Chúng có thể là các tài liệu văn bản phi cấu trúc, video, âm thanh, email, thậm chí là dữ liệu mã cổ phiếu.
Tính chân thực: Mặc dù, chất lượng cũng như khả năng sử dụng của dữ liệu phần lớn phụ thuộc vào nguồn cung cấp, nhưng chúng ta chẳng bao giờ có thể tránh được rủi ro không mong muốn. 
Trên thực tế không phải những dữ liệu nào cũng có giá trị cao mà trong đó đều có tốt có xấu. Tính chân thực ở đây, tức là dữ liệu phải đáng tin cậy.
Big Data và xu hướng bắt buộc của doanh nghiệp trong tương lai
Nhìn chung, tất cả các kiểu dữ liệu đều quan trọng đối với kinh doanh, bất kể là Small Data hay Big Data. 
Trong khi Small Data chỉ hiệu quả cho kinh doanh nhỏ lẻ để nhằm có bước đệm phát triển sau này, thì Big Data có giá trị giúp ích rất lớn cho việc nghiên cứu, phân tích những nhu cầu và cơ hội phát triển của khách hàng. 
Lợi ích cụ thể của Big Data là:
1. Giúp phát triển tính sáng tạo
Để đạt được thành công trong kinh doanh, ý tưởng sáng tạo là một thứ cực kỳ quan trọng.  
Big Data - xu hướng cần thiết khi máy móc có thể dự đoán tương lai và số phận của con người - Ảnh 5.
Nó cũng lý giải cho việc tại sao Big Data lại cần thiết trong công việc tìm ra loại giải pháp nào mà người dùng đang tìm kiếm đến như vậy.

Ví dụ, các hãng hàng không tất nhiên sẽ không thể vì một người muốn du lịch tới Tokyo mà cho cất cánh một chiếc máy bay 150 chỗ được. Họ sẽ phải sử dụng đến kho dữ liệu khổng lồ của họ, dựa trên những yêu cầu từ khách hàng và thông tin sẵn có để đưa ra giải pháp phù hợp hơn - ở đây là tìm cho họ một chuyến bay hợp lý. 
2. Biến giấc mơ kinh doanh trở thành sự thật
Phân tích Big Data sẽ là công cụ tốt nhất để tìm ra ý tưởng kinh doanh và tạo ra giải pháp sao cho phù hợp nhất với chiến lược của công ty. 
Big Data - xu hướng cần thiết khi máy móc có thể dự đoán tương lai và số phận của con người - Ảnh 6.
Xu hướng thị trường sẽ được dự đoán nhờ Big Data
Tại sao ư? Một công ty muốn phát triển tốt cần có tầm nhìn trong dài hạn, ít nhất phải là 5 - 10 năm. Dự đoán trước được xu hướng thị trường có thể đem lại một nguồn lợi nhuận khổng lồ.
Nhưng bạn không thể nào dự đoán được 5 năm tiếp theo chỉ bằng một lượng nhỏ dữ liệu để phân tích được. Đó chính là lý do Big Data trở nên quan trọng.
3. Tiết kiệm chi phí
Dữ liệu lớn, phương pháp kinh doanh sẽ hiệu quả hơn và đương nhiên chi phí phải bỏ ra cũng thấp hơn.
4. Giảm thiểu thời gian
Công cụ tốc độ cao như Hadoop và phân tích bộ nhớ có thể xác định dễ dàng các nguồn dữ liệu mới giúp các doanh nghiệp phân tích dữ liệu ngay tức thì và đưa ra các quyết định nhanh chóng dựa trên khả năng tự học - machine learning.
Nguồn tham khảo: Forbes, Big Data, Dummies, SAS, Plasma Comp...

Monday, October 22, 2018

Video Ecosystem và các ý tưởng xây dựng hệ thống Big Data kế tiếp chuyên cho video



Sự thật: YouTube có hơn 300 giờ video được tải lên mỗi phút. Và đó chỉ là YouTube CHỈ CÓ! Nếu chúng ta thêm tất cả các video khác từ toàn bộ Internet, chúng ta thậm chí sẽ không biết bắt đầu từ đâu bằng các con số nào.
Tuy nhiên, những con số thậm chí còn lớn hơn thực sự ẩn trong công ty riêng tư như từ các nguồn như đài truyền hình, công ty truyền thông, CCTV, GoPros, bodycams, thiết bị thông minh, v.v. Thế giớ chúng ta đang sống đang tạo ra video với tốc độ và quy mô chưa từng có.

Điều này đưa chúng ta đến khái niệm Video Big Data. Điều này sẽ tạo ra khả năng trích xuất dữ liệu video và hiểu được nó. Nhưng có rất nhiều thông tin được nhúng bên trong các video đang chờ để phát hiện ra, đó là một mỏ vàng với bất kỳ công ty nào !

Khái niệm "Video Big Data" sẽ lớn hơn rất nhiều khái niệm "Big Data" cổ điển của 10 năm về trước (vốn chỉ bao gồm phổ biến chỉ có văn bản text và hình ảnh)
Vì sao Video Big Data sẽ phát triển trong nhiều năm tới ?
"Video First" là khái niệm phổ biến gần đây của các nhà sản xuất content, qua khá nhiều các startups cũng như công ty đang triển khai sản phẩm. Ngoài YouTube và Facebook, Instagram , các ứng dụng OTT như Netflix, FPT Play, ...
Điều này tất yếu dẫn đến 5 xu hướng các công ty công nghệ làm những mảng khác về hệ sinh thái cho video 


1) Streaming Cloud: làm về hạ tầng Live Streaming, Video Hosting, ... 


2) Video Ad Platform: 

3) Video Player
4) Video Content Platform
5) Video Analytics Platform
Vì sao Video Big Data lại phức tạp ?
  • Có rất nhiều yếu tố bên trong video (lời nói, văn bản, khuôn mặt, đối tượng, v.v.)
  • Video về bản chất là tập hợp image liên tục (29 frames/seconds), nó không phải là tĩnh.
  • Rất khó để trích xuất các phần tử khác nhau của dữ liệu video.
  • Mỗi phần tử video yêu cầu kỹ thuật trích xuất dữ liệu khác nhau.
  • Rất khó để hiểu được dữ liệu video vì bản chất không có cấu trúc của nó.
  • Tốn kém chi phí để trích xuất dữ liệu ở quy mô lớn vì cần nhiều card đồ hoạ và computing resources
Chúng ta tạo ra giá  trị gì từ những thông tin trong video ?

Thông tin phổ biến trong video bao gồm
  • Lời nói 
  • Văn bản 
  • Đối tượng 
  • Chuyển động (toàn bộ hoặc khu vực cụ thể của khung hình video)
  • Khuôn mặt những nhân vật (xác định User ID từ video)
  • Cảm xúc (lên đến 8 cảm xúc chính)
  • Nội dung xúc phạm (brand-safe)
Việc có cấu trúc hoá và index dữ liệu trong video sẽ giúp chúng ta đưa về năng lực hiểu rõ hơn nhiều thông tin chi tiết ở mức độ mà dữ liệu hình ảnh và text chưa cung cấp đủ
Video demo ứng dụng AI cho việc phân tích dữ liệu video 



Kết luận:

Lĩnh vực Video Big Data mới nổi lên. Nếu không có sự tiến bộ trong nhiều lĩnh vực Trí tuệ nhân tạo trong nhiều lĩnh vực (Speech Recognition, Computer Vision, Face Detection,Text Analytics v.v.,
Video Big Data thậm chí sẽ không tồn tại khi cần các lĩnh vực trên chưa phát triển.

Với tốc độ mà chúng ta đang sản xuất video, cùng với khả năng của chúng ta trích xuất dữ liệu video bằng cách sử dụng A.I sẽ tạo ra các khả năng lợi thế cạnh tranh là rất lớn.
Vậy lý do gì chúng ta sẽ bỏ qua Video Big Data trong danh mục các công nghệ cần đầu tư ? 

Tuesday, October 9, 2018

Công ty thời Big Data, Industry 4.0 cần xây dựng core digital platform gì ?



Ở  thập niên thứ 2 của thế kỷ 21 (2020s) , hệ thống thông tin của các công ty không chỉ là các hệ thống ERP phức tạp, tốn tiền và khó sử dụng . Nó cần phải linh hoạt theo nhu cầu business, cần tính real-time market insights, cần đào tạo phát triển nhân viên liên tục (training platform) và quản trị tài sản giá trị nhất của công ty là khách hàng (CRM). Đó là 3 chức năng chính nhưng cần bổ sung khả năng tiếp cận khách hàng, truyền thông và quảng cáo giá trị sản phầm mới (Marketing & Ad Platform).

Tóm lại 4 platform nhưng 4 cánh tay trợ lực cho sự phát triển kinh doanh của 1 công ty bao gồm CRM, Market Insights, Sales training platform và Marketing Platform.

Giờ đi vào phần trung tâm, nội lực nội tại của 1 công ty bao gồm là portal, là cổng thông tin kết nối 10 điểm cốt lõi là:
  1. Thông tin thị trường
  2. Giới thiệu doanh nghiệp của bạn
  3. Thông tin sản phẩm
  4. Case studies hay câu chuyện thành công (thông tin thể hiện giá trị sản phẩm từ phía khách hàng)
  5. Chính sách giá bán 
  6. Thông tin khuyến mãi
  7. Các chứng nhận công nghệ hoặc giới thiệu công nghệ tạo ra giá trị, điểm khác biệt sản phẩm
  8. Quản lý tài liệu
  9. Dịch vụ hỗ trợ khách hàng
  10. Quy trình bán hàng  
Tóm lại, với nền kinh tế tri thức thì quản trị thông tin bằng portal trên nền tảng mobile, Big Data là điều thiết yếu và gắn chặn với mô hình kinh doanh của bất kỳ công ty nào.

Wednesday, September 26, 2018

Market Research Meets Big Data Analytics for Business Transformation


The Twin Threats of Aging and Automation

Mercer’s report, The Twin Threats of Aging and Automation, focuses on 15 major markets to examine and quantify the risks of rapid societal aging and of older workers’ susceptibility to automation. Key findings include:
  • Countries with higher rates of aging also face a higher risk of older-worker job automation.
  • Older-worker jobs in China and Vietnam are at the highest risk of being automated, with 76% of tasks done by older workers in China and 69% in Vietnam at risk of being replaced by intelligent technologies.
  • Canada and Australia have the lowest rates of aging and the lowest average older-worker automation risk scores (at 47% and 42%, respectively), making older-worker jobs in these countries the least susceptible to automation.
  • In Germany, older-worker jobs are on average 57% automatable.
  • In the US, older workers are doing jobs that are on average 52% automatable.
  • Key factors that help explain a higher risk of older-worker job automation include education levels, industrial structures, government expenditure and the strength of legal rights in financial systems.

Tuesday, September 18, 2018

Ứng dụng Big Data cho việc phân tích trải nghiệm khách hàng (UX) từ thông tin truyền thông kỹ thuật số


Link download file PDF https://drive.google.com/open?id=1dWk-CSZj3MlSNjAluXflFiU1GMEh8b3X
Tham khảo: https://uxdesign.cc/user-experience-mapping-alice-emma-walker-868259547ba8

  • Khách hàng của chúng ta là ai ?
    => Segment Graph
  • Sở thích, tính cách và mong ước của họ là gì ?
    => Interest- Graph
  • Thống kê 3 phương tiện (medium) họ tiếp xúc thông tin truyền thông gần đây (trong 6 tháng) 
    • Consumers Most-Used Media
  • Phân tích trải nghiệm khách hàng (UX) cho điểm tiếp xúc thông tin truyền thông (touch point)
    => User Experience Heat Map Report
  • Thống kê 5 chủ đề thông tin mà khách hàng bị tác động sâu sắc về mặt cảm xúc
    => Deep Engagement report
  • Thống kê 6 đối tượng Key Influences mà khách hàng bị theo dõi thông tin gần đây (trong 3 tháng)
    => KOL Channel
  • Xác định 3 vấn đề, trải nghiệm mà khách hàng thường gặp
    => Problems
  • Hệ thống tìm kiếm và gợi ý các giải pháp phù hợp (sản phẩm, dịch vụ và thông tin)
    => Media Plan
  • Đánh giá tác động sau khi tiếp xúc lời đề nghị giải pháp
    => Post-Proposal Analysis report

Tuesday, September 11, 2018

Google ra mắt công cụ tìm kiếm mới để giúp các nhà khoa học tìm các tập dữ liệu họ cần


Tìm kiếm tập dữ liệu có thể là người bạn tốt nhất của một nhà khoa học
Minh họa bởi Alex Castro / The Verge
Mục tiêu của Google luôn là tổ chức thông tin của thế giới và mục tiêu đầu tiên của nó là trang web thương mại. Bây giờ, nó muốn làm tương tự cho cộng đồng khoa học với một công cụ tìm kiếm mới cho các tập dữ liệu.
Dịch vụ này, được gọi là Dataset Search, ra mắt ngày hôm nay và nó sẽ là bạn đồng hành của Google Scholar, công cụ tìm kiếm phổ biến của công ty cho các nghiên cứu và báo cáo học tập. Các tổ chức xuất bản dữ liệu của họ trực tuyến, như trường đại học và chính phủ, sẽ cần phải bao gồm thẻ siêu dữ liệu trong trang web mô tả dữ liệu của họ, bao gồm cả người tạo ra dữ liệu, khi nó được xuất bản, cách được thu thập, v.v. Thông tin này sau đó sẽ được công cụ tìm kiếm của Google lập chỉ mục và kết hợp với thông tin từ Sơ đồ tri thức. (Vì vậy, nếu tập dữ liệu X được xuất bản bởi CERN, một ít thông tin về viện cũng sẽ được đưa vào tìm kiếm.)
Một công cụ tìm kiếm hợp nhất thế giới phân mảnh của các tập dữ liệu trực tuyến
Phát biểu với The Verge , Natasha Noy, một nhà khoa học nghiên cứu tại Google AI, người đã giúp tạo ra Dataset Search, cho biết mục tiêu là để thống nhất hàng chục nghìn kho dữ liệu khác nhau cho các tập dữ liệu trực tuyến."Chúng tôi muốn làm cho dữ liệu đó có thể phát hiện được, nhưng hãy giữ nó ở đâu," Noy nói.
Hiện tại, việc xuất bản tập dữ liệu cực kỳ bị phân mảnh. Các lĩnh vực khoa học khác nhau có kho lưu trữ ưa thích của riêng họ, cũng như các chính phủ và chính quyền địa phương khác nhau. "Các nhà khoa học nói," Tôi biết nơi tôi cần phải đi tìm các tập dữ liệu của mình , nhưng đó không phải là những gì tôi luôn muốn ", Noy nói. "Một khi họ bước ra khỏi cộng đồng độc đáo của họ, đó là khi nó trở nên khó khăn."
Noy đưa ra ví dụ về một nhà khoa học khí hậu mà cô đã nói chuyện gần đây, người đã nói với cô rằng cô đang tìm kiếm một số liệu cụ thể về nhiệt độ đại dương cho một nghiên cứu sắp tới nhưng không thể tìm thấy nó ở bất cứ đâu. Cô đã không theo dõi nó cho đến khi cô gặp một đồng nghiệp tại một hội nghị, người đã công nhận bộ dữ liệu và nói với cô ấy nơi nó được lưu trữ. Chỉ khi đó cô mới có thể tiếp tục công việc của mình. "Và điều này thậm chí không phải là một kho lưu trữ đặc biệt cửa hàng," Noy nói. "Tập dữ liệu được viết tốt ở một nơi khá nổi bật, nhưng nó vẫn khó tìm."
Tìm kiếm ví dụ về các bản ghi thời tiết trong Google Dataset Search . Hình ảnh: Google
Bản phát hành đầu tiên của Tìm kiếm dữ liệu sẽ bao gồm các khoa học môi trường và xã hội, dữ liệu của chính phủ và các tập dữ liệu từ các tổ chức tin tức như ProPublica . Tuy nhiên, nếu dịch vụ trở nên phổ biến, số lượng dữ liệu mà nó lập chỉ mục sẽ nhanh chóng trượt tuyết như các tổ chức và các nhà khoa học tranh giành để làm cho thông tin của họ có thể truy cập được.
Điều này sẽ được giúp đỡ bởi sự phát triển gần đây của các sáng kiến ​​dữ liệu mở trên toàn thế giới. "Tôi nghĩ trong vài năm qua số lượng kho đã bùng nổ," Noy nói. Cô ghi nhận tầm quan trọng ngày càng tăng của dữ liệu trong tài liệu khoa học, có nghĩa là các tạp chí yêu cầu các tác giả xuất bản tập dữ liệu, cũng như “quy định của chính phủ ở Mỹ và châu Âu và sự gia tăng chung của phong trào dữ liệu mở”.
Tôi hy vọng rằng Google bước vào sẽ làm cho nó dễ dàng hơn."
Có sự tham gia của Google sẽ giúp làm cho dự án này thành công, theo Jeni Tennison, Giám đốc điều hành của Viện dữ liệu mở (ODI). "Tìm kiếm Dataset luôn luôn là một điều khó khăn để hỗ trợ, và tôi hy vọng rằng Google bước vào sẽ làm cho nó dễ dàng hơn", cô nói.
Để tạo một công cụ tìm kiếm phong nha, bạn cần biết cách xây dựng các hệ thống thân thiện với người dùng và hiểu ý nghĩa của mọi người khi họ gõ vào các cụm từ nhất định, Tennison nói. Google rõ ràng biết những gì nó đang làm trong cả hai phòng ban đó.
Trong thực tế, Tennison nói, lý tưởng là Google sẽ xuất bản tập dữ liệu riêng của mình như thế nào Dataset Search được sử dụng. Mặc dù các thẻ siêu dữ liệu mà công ty đang sử dụng để làm cho bộ dữ liệu có thể nhìn thấy được với trình thu thập thông tin tìm kiếm của nó là tiêu chuẩn mở (có nghĩa là bất kỳ đối thủ cạnh tranh nào như Bing hoặc Yandex cũng có thể sử dụng chúng và xây dựng dịch vụ cạnh tranh), người dùng ở đó để cung cấp dữ liệu về những gì họ đang làm.

Featured Post

Big Data : Nhu cầu thị trường - Định hướng nghề nghiệp - Tính chất công việc

Tập hợp một số câu hỏi từ bạn trên page https://www.facebook.com/bigdatavn  và từ các buổi thuyết trình ở Barcamp 1. Làm việc trong ngàn...