Big Data Vietnam: September 2018

Wednesday, September 26, 2018

Market Research Meets Big Data Analytics for Business Transformation

Market Research Meets Big Data Analytics for Business Transformation from Sally Sadosky

The Twin Threats of Aging and Automation

https://www.mercer.com/our-thinking/career/the-twin-threats-of-aging-and-automation.html

Mercer’s report, The Twin Threats of Aging and Automation, focuses on 15 major markets to examine and quantify the risks of rapid societal aging and of older workers’ susceptibility to automation. Key findings include:

Countries with higher rates of aging also face a higher risk of older-worker job automation.
Older-worker jobs in China and Vietnam are at the highest risk of being automated, with 76% of tasks done by older workers in China and 69% in Vietnam at risk of being replaced by intelligent technologies.
Canada and Australia have the lowest rates of aging and the lowest average older-worker automation risk scores (at 47% and 42%, respectively), making older-worker jobs in these countries the least susceptible to automation.
In Germany, older-worker jobs are on average 57% automatable.
In the US, older workers are doing jobs that are on average 52% automatable.
Key factors that help explain a higher risk of older-worker job automation include education levels, industrial structures, government expenditure and the strength of legal rights in financial systems.

Wednesday, September 19, 2018

[Visualization Article] From CRM to Business Intelligence

Tuesday, September 18, 2018

Ứng dụng Big Data cho việc phân tích trải nghiệm khách hàng (UX) từ thông tin truyền thông kỹ thuật số

Link download file PDF https://drive.google.com/open?id=1dWk-CSZj3MlSNjAluXflFiU1GMEh8b3X
Tham khảo: https://uxdesign.cc/user-experience-mapping-alice-emma-walker-868259547ba8

Khách hàng của chúng ta là ai ?
=> Segment Graph
Sở thích, tính cách và mong ước của họ là gì ?
=> Interest- Graph
Thống kê 3 phương tiện (medium) họ tiếp xúc thông tin truyền thông gần đây (trong 6 tháng)

Consumers Most-Used Media

Phân tích trải nghiệm khách hàng (UX) cho điểm tiếp xúc thông tin truyền thông (touch point)
=> User Experience Heat Map Report
Thống kê 5 chủ đề thông tin mà khách hàng bị tác động sâu sắc về mặt cảm xúc
=> Deep Engagement report
Thống kê 6 đối tượng Key Influences mà khách hàng bị theo dõi thông tin gần đây (trong 3 tháng)
=> KOL Channel
Xác định 3 vấn đề, trải nghiệm mà khách hàng thường gặp
=> Problems
Hệ thống tìm kiếm và gợi ý các giải pháp phù hợp (sản phẩm, dịch vụ và thông tin)
=> Media Plan
Đánh giá tác động sau khi tiếp xúc lời đề nghị giải pháp
=> Post-Proposal Analysis report

Tuesday, September 11, 2018

Google ra mắt công cụ tìm kiếm mới để giúp các nhà khoa học tìm các tập dữ liệu họ cần

Tìm kiếm tập dữ liệu có thể là người bạn tốt nhất của một nhà khoa học

Mục tiêu của Google luôn là tổ chức thông tin của thế giới và mục tiêu đầu tiên của nó là trang web thương mại. Bây giờ, nó muốn làm tương tự cho cộng đồng khoa học với một công cụ tìm kiếm mới cho các tập dữ liệu.

Dịch vụ này, được gọi là Dataset Search, ra mắt ngày hôm nay và nó sẽ là bạn đồng hành của Google Scholar, công cụ tìm kiếm phổ biến của công ty cho các nghiên cứu và báo cáo học tập. Các tổ chức xuất bản dữ liệu của họ trực tuyến, như trường đại học và chính phủ, sẽ cần phải bao gồm thẻ siêu dữ liệu trong trang web mô tả dữ liệu của họ, bao gồm cả người tạo ra dữ liệu, khi nó được xuất bản, cách được thu thập, v.v. Thông tin này sau đó sẽ được công cụ tìm kiếm của Google lập chỉ mục và kết hợp với thông tin từ Sơ đồ tri thức. (Vì vậy, nếu tập dữ liệu X được xuất bản bởi CERN, một ít thông tin về viện cũng sẽ được đưa vào tìm kiếm.)

Một công cụ tìm kiếm hợp nhất thế giới phân mảnh của các tập dữ liệu trực tuyến

Phát biểu với The Verge , Natasha Noy, một nhà khoa học nghiên cứu tại Google AI, người đã giúp tạo ra Dataset Search, cho biết mục tiêu là để thống nhất hàng chục nghìn kho dữ liệu khác nhau cho các tập dữ liệu trực tuyến."Chúng tôi muốn làm cho dữ liệu đó có thể phát hiện được, nhưng hãy giữ nó ở đâu," Noy nói.

Hiện tại, việc xuất bản tập dữ liệu cực kỳ bị phân mảnh. Các lĩnh vực khoa học khác nhau có kho lưu trữ ưa thích của riêng họ, cũng như các chính phủ và chính quyền địa phương khác nhau. "Các nhà khoa học nói," Tôi biết nơi tôi cần phải đi tìm các tập dữ liệu của mình , nhưng đó không phải là những gì tôi luôn muốn ", Noy nói. "Một khi họ bước ra khỏi cộng đồng độc đáo của họ, đó là khi nó trở nên khó khăn."

Noy đưa ra ví dụ về một nhà khoa học khí hậu mà cô đã nói chuyện gần đây, người đã nói với cô rằng cô đang tìm kiếm một số liệu cụ thể về nhiệt độ đại dương cho một nghiên cứu sắp tới nhưng không thể tìm thấy nó ở bất cứ đâu. Cô đã không theo dõi nó cho đến khi cô gặp một đồng nghiệp tại một hội nghị, người đã công nhận bộ dữ liệu và nói với cô ấy nơi nó được lưu trữ. Chỉ khi đó cô mới có thể tiếp tục công việc của mình. "Và điều này thậm chí không phải là một kho lưu trữ đặc biệt cửa hàng," Noy nói. "Tập dữ liệu được viết tốt ở một nơi khá nổi bật, nhưng nó vẫn khó tìm."

Bản phát hành đầu tiên của Tìm kiếm dữ liệu sẽ bao gồm các khoa học môi trường và xã hội, dữ liệu của chính phủ và các tập dữ liệu từ các tổ chức tin tức như ProPublica . Tuy nhiên, nếu dịch vụ trở nên phổ biến, số lượng dữ liệu mà nó lập chỉ mục sẽ nhanh chóng trượt tuyết như các tổ chức và các nhà khoa học tranh giành để làm cho thông tin của họ có thể truy cập được.

Điều này sẽ được giúp đỡ bởi sự phát triển gần đây của các sáng kiến dữ liệu mở trên toàn thế giới. "Tôi nghĩ trong vài năm qua số lượng kho đã bùng nổ," Noy nói. Cô ghi nhận tầm quan trọng ngày càng tăng của dữ liệu trong tài liệu khoa học, có nghĩa là các tạp chí yêu cầu các tác giả xuất bản tập dữ liệu, cũng như “quy định của chính phủ ở Mỹ và châu Âu và sự gia tăng chung của phong trào dữ liệu mở”.

Tôi hy vọng rằng Google bước vào sẽ làm cho nó dễ dàng hơn."

Có sự tham gia của Google sẽ giúp làm cho dự án này thành công, theo Jeni Tennison, Giám đốc điều hành của Viện dữ liệu mở (ODI). "Tìm kiếm Dataset luôn luôn là một điều khó khăn để hỗ trợ, và tôi hy vọng rằng Google bước vào sẽ làm cho nó dễ dàng hơn", cô nói.

Để tạo một công cụ tìm kiếm phong nha, bạn cần biết cách xây dựng các hệ thống thân thiện với người dùng và hiểu ý nghĩa của mọi người khi họ gõ vào các cụm từ nhất định, Tennison nói. Google rõ ràng biết những gì nó đang làm trong cả hai phòng ban đó.

Trong thực tế, Tennison nói, lý tưởng là Google sẽ xuất bản tập dữ liệu riêng của mình như thế nào Dataset Search được sử dụng. Mặc dù các thẻ siêu dữ liệu mà công ty đang sử dụng để làm cho bộ dữ liệu có thể nhìn thấy được với trình thu thập thông tin tìm kiếm của nó là tiêu chuẩn mở (có nghĩa là bất kỳ đối thủ cạnh tranh nào như Bing hoặc Yandex cũng có thể sử dụng chúng và xây dựng dịch vụ cạnh tranh), người dùng ở đó để cung cấp dữ liệu về những gì họ đang làm.

Sunday, September 9, 2018

The Deep Learning Revolution: What Does It Tell Us About Our Understanding of Intelligence?

The surprising success of learning with deep neural networks poses two fundamental challenges: understanding why these networks work so well and what this success tells us about the nature of intelligence and our biological brain.
Our recent Information Theory of Deep Learning shows that large deep networks achieve the optimal tradeoff between training size and accuracy, and that this optimality is achieved through the noise in the learning process. In this talk, I will mainly address the relevance of these findings to the nature of intelligence and the human brain.

The Deep Learning Revolution: What Does It Tell Us About Our Understanding of Intelligence?

3 new jobs A.I. is creating: Trainers, explainers, and sustainers

Saturday, September 8, 2018

Giới thiệu Deep learning, công nghệ đang giúp cho trí tuệ nhân tạo sánh được với con người

Với sự phát triển dữ liệu hình ảnh từ social media và sự phổ biến của smartphone, các công nghệ Big Data cổ điển đã không còn đáp ứng được nhu cầu phân loại hình ảnh.

Tuy nhiên trong vài năm, deep learning đã thúc đẩy tiến bộ trong ứng dụng Big Data vào 2 loại dữ liệu phức tạp nhất là hình ảnh và video

Vậy Deep Learning là gì ? Bài viết này sẽ giúp mọi người hiểu thêm về nó

Một ví dụng demo Deep Learning cho việc phân loại hình ảnh bởi Blueseed Ad Tech team :
http://61.28.227.159/classify_image#https://i-thethao.vnecdn.net/2018/09/04/DONG7621-JPG-2857-1536036262.jpg

Chỉ trong vài năm, deep learning đã thúc đẩy tiến bộ trong đa dạng các lĩnh vực như nhận thức sự vật, dịch tự động, nhận diện giọng nói,… - những vấn đề từng rất khó khăn với các nhà nghiên cứu trí tuệ nhân tạo.

Deep learning là gì?

Deep learning đã và đang là một chủ đề AI được bàn luận sôi nổi. Là một phạm trù nhỏ của machine learning, deep learning tập trung giải quyết các vấn đề liên quan đến mạng thần kinh nhân tạo nhằm nâng cấp các công nghệ như nhận diện giọng nói, tầm nhìn máy tính và xử lý ngôn ngữ tự nhiên. Deep learning đang trở thành một trong những lĩnh vực hot nhất trong khoa học máy tính. Chỉ trong vài năm, deep learning đã thúc đẩy tiến bộ trong đa dạng các lĩnh vực như nhận thức sự vật (object perception), dịch tự động (machine translation), nhận diện giọng nói,… - những vấn đề từng rất khó khăn với các nhà nghiên cứu trí tuệ nhân tạo.

Để hiểu hơn về deep learning, hãy nhìn lại một số khái niệm cơ bản về trí tuệ nhân tạo.

Trí tuệ nhân tạo có thể được hiểu đơn giản là được cấu thành từ các lớp xếp chồng lên nhau, trong đó mạng thần kinh nhân tạo nằm ở dưới đáy, machine learning nằm ở tầng tiếp theo và deep learning nằm ở tầng trên cùng.

Mạng thần kinh nhân tạo

Trong công nghệ thông tin, mạng thần kinh nhân tạo là một hệ thống các chương trình và cấu trúc dữ liệu mô phỏng cách vận hành của não người. Một mạng thần kinh như vậy thường bao gồm một lượng lớn các vi xử lý hoạt động song song, mỗi vi xử lý chứa đựng một vùng kiến thức riêng và có thể truy cập vào các dữ liệu trong bộ nhớ riêng của mình (đôi khi chúng không nhất thiết phải là phần cứng mà có thể là các phần mềm và giải thuật).

Nói cách khác, nếu ví mạng thần kinh nhân tạo với não người thì các neuron thần kinh chính là các node (node là đơn vị thần kinh trong mạng thần kinh nhân tạo – mỗi chiếc máy tính trong mạng thần kinh có thể được xem như 1 node) được kết nối với nhau trong một mạng lưới lớn. Bản thân từng node này chỉ trả lời được những câu hỏi hết sức cơ bản chứ không hề thông minh, nhưng khi được gộp chung với nhau thì chúng lại có sức mạnh xử lý được cả những tác vụ khó. Và điều quan trọng ở đây là bằng những thuật toán phù hợp, chúng ta có thể dạy và huấn luyện được chúng.

Machine và deep learning

Machine learning là chương trình chạy trên một mạng thần kinh nhân tạo, có khả năng huấn luyện máy tính "học" từ một lượng lớn dữ liệu được cung cấp để giải quyết những vấn đề cụ thể.

Chẳng hạn nếu muốn dạy máy tính cách băng qua đường, theo cách truyền thống bạn sẽ đưa cho nó một loạt quy tắc hướng dẫn cách nhìn trái phải hay đợi xe và người đi qua,… Thế nhưng nếu dùng machine learning, bạn sẽ cho máy tính xem 10.000 video quay cảnh người ta băng qua đường an toàn và 10.000 video quay cảnh ai đó bị xe đâm để nó tự học theo.

Phần khó nhất là làm sao cho máy tính hiểu và thẩm thấu được những video này ngay từ đầu. Qua nhiều thập kỷ, con người đã thử qua nhiều phương thức khác nhau, trong đó có cả cách “tặng thưởng” cho máy tính khi nó làm đúng (reinforcement learning), rồi so sánh chọn dần ra những cách tốt nhất.

Ngày nay, một phương pháp dạy máy tính mới đang nhanh chóng trở nên phổ biến là deep learning – một loại machine learning sử dụng nhiều lớp thần kinh nhân tạo để phân tích dữ liệu về nhiều chi tiết khác nhau.

Chẳng hạn nếu bạn dạy máy tính nhận diện hình ảnh một con mèo thì chúng ta sẽ lập trình ra nhiều lớp trong mạng thần kinh nhân tạo, mỗi lớp có khả năng xác định một đặc điểm cụ thể của con mèo như râu, vuốt, chân,… rồi cho máy xem hàng ngàn bức ảnh mèo (chỉ ra rằng “Đây là con mèo”) cùng hàng ngàn bức ảnh không phải mèo (chỉ ra rằng "đây không phải mèo"). Khi mạng thần kinh nhân tạo này xem hết các bức ảnh, các lớp node của nó sẽ dần nhận ra râu, vuốt, chân,..., biết lớp nào là quan trọng, lớp nào không. Nó cũng sẽ nhận ra rằng mèo luôn có chân nhưng những con vật không phải mèo cũng có chân nên khi cần xác định mèo, chúng sẽ tìm chân đi kèm những đặc điểm khác như vuốt hay râu.

AI , Machine Learning and Deep Learning in one picture

Cuộc chơi deep learning

Năm 2011, Google khởi tạo dự án Google Brain với mục đích tạo ra một mạng thần kinh được huấn luyện bởi các thuật toán deep learning. Dự án này sau đó đã chứng minh được khả năng tiếp nhận được cả những khái niệm bậc cao của deep learning.

Năm ngoái, Facebook cũng thành lập AI Research Unit, đơn vị nghiên cứu về AI sử dụng deep learning vào việc tạo ra các giải pháp hiệu quả hơn giúp nhận diện khuôn mặt và sự vật trên 350 triệu bức ảnh và video được đăng tải lên Facebook mỗi ngày. Một ví dụ tiêu biểu khác về deep learning trong thực tế là khả năng nhận diện giọng nói của các trợ lý ảo Google Now và Siri.

Tương lai của deep learning

Deep learning đang ngày càng cho thấy một tương lai đầy hứa hẹn với ứng dụng vào điều khiển xe tự lái hay robot quản gia. Mặc dù các sản phẩm này vẫn còn nhiều hạn chế nhưng những thứ chúng làm được hiện nay thực sự rất khó tưởng tượng nổi chỉ vài năm trước đây; tốc độ nâng cấp cũng cao chưa từng thấy. Khả năng phân tích dữ liệu lớn và sử dụng deep learning vào các hệ thống máy tính có thể tự thích nghi với những gì chúng tiếp nhận mà không cần đến bàn tay lập trình của con người sẽ nhanh chóng mở đường cho nhiều đột phá trong tương lai. Những đột phá này có thể là việc thiết kế ra những trợ lý ảo, các hệ thống xe tự lái hay sử dụng vào thiết kế đồ họa, sáng tác nhạc, cho đến phát triển các nguyên liệu mới giúp robot thấu hiểu thế giới xung quanh hơn. Chính vì tính thương mại cao mà các công ty lớn, đặc biệt là Google, luôn ưu tiên các startup về robot và deep learning trong danh sách thâu tóm của mình.

Một số ứng dụng khác của deep learning:

Hệ thống gợi ý trên các nền tảng (Recommendation Sys

Các nền tảng lớn hiện nay như Facebook, Amazon, Netflix,... đều có hệ thống gợi ý (recommend) rất mạnh giúp tăng đáng kể độ tương tác của người dùng. Cụ thể là chúng dựa trên các dữ liệu người dùng phát sinh ra khi dùng để gợi ý thêm những sản phẩm họ sẽ thích (trên các nền tảng mua sắm), những bộ phim họ sẽ muốn xem (vd. như trên Netflix), gợi ý các bài quảng cáo/được tài trợ (trên Facebook) hay các khóa học người học quan tâm (trên các nền tảng học online).

Nhận diện hình ảnh

Mục tiêu của công nghệ nhận diện ảnh là nhận biết và xác định các đối tượng trong ảnh cũng như hiểu được nội dung và ngữ cảnh trong đó. Ví dụ trên cho thấy dịch vụ nhận diện và xác định khuôn mặt của AlchemyVision có khả năng phân biệt hai khuôn mặt tương tự nhau giữa nam diễn viên Will Ferrell và tay trống của Red Hot Chili Peppers, Chad Smith. Công nghệ nhận diện hình ảnh cũng được đưa vào Facebook để gợi ý người dùng tag mặt bạn bè hay ứng dụng vào khoa học tội phạm và điều tra.

Phát hiện các loại bệnh hiếm gặp

Gần đây, trí tuệ nhân tạo Watson của IBM đã phát hiện ra một loại bệnh mà các bác sĩ đã bó tay không thể tìm ra ở một nữ bệnh nhân. Bằng cách so sánh bộ gen của người phụ nữ này với hơn 20 triệu kết quả nghiên cứu bệnh khác, Watson đã đưa ra kết quả là một chứng leukemia cực kỳ hiếm gặp chỉ trong 10 phút.

Mặt hạn chế

Ưu việt là vậy nhưng deep learning không phải là không có những giới hạn nhất định.

Thứ nhất, deep learning luôn đòi hỏi một lượng dữ liệu đầu vào khổng lồ để máy tính học hỏi. Quy trình này mất nhiều thời gian và sức mạnh xử lý mà chỉ có các server cỡ lớn mới làm được. Nếu không có đủ dữ liệu đầu vào, hay có đủ dữ liệu nhưng không đủ sức mạnh để xử lý, thì mọi thứ không thể diễn ra đúng như ý định, kết quả máy tính đưa ra do đó cũng không chính xác.

Thứ hai, deep learning vẫn chưa thể nhận biết được những thứ phức tạp. hay tương tự nhau. Lý do là vì hiện chưa có kĩ thuật nào đủ tốt để trí tuệ nhân tạo có thể rút ra những kết luận đó một cách logic bởi chúng chưa có được khả năng nhận biết như con người. Ví dụ như trường hợp một mạng thần kinh được yêu cầu tạo ra các hình ảnh về quả tạ 2 đầu sau khi xem loạt ảnh mẫu. Bức hình lẽ ra sẽ khá hoàn hảo nếu không chi tiết cánh tay người thừa thãi bởi máy tính vẫn chưa hiểu rằng dù có hay đi cùng hình ảnh quả tạ thì cánh tay cũng không phải là một phần của quả tạ.

Chưa hết, những công cụ trí tuệ nhân tạo thể hiện tốt hiện nay như Siri hay Cortana đều sử dụng nhiều mánh khóe để tránh né những câu hỏi khó và khiến bạn có cảm giác như đang nói chuyện với người thật vì chúng sử dụng các câu nói đùa, câu trích dẫn, các biểu hiện cảm xúc,…được set sẵn để làm bạn phân tâm và không còn chú ý đến câu hỏi ban đầu bạn đặt ra nữa.

Kết

Deep learning nói riêng hay trí tuệ nhân tạo nói chung thực sự có rất nhiều ứng dụng tuyệt vời, nhưng chúng ta hiện mới chỉ đang ở giai đoạn đầu phát triển nó nên những hạn chế là không thể tránh khỏi. Có lẽ còn phải chờ khá lâu nữa những hệ thống AI “có tri giác” mới thực sự xuất hiện, nhưng những gì các công ty lớn như Google, Facebook, IBM đang làm hiện nay cũng tương tự với việc đặt những viên gạch đầu tiên mở đường cho kỷ nguyên AI trong những thập kỷ tới.

Bạn đã học Computer Science, muốn tìm hiểu về Deep Learning có thể tham khảo cuốn sách này, download ebook at http://bit.ly/2wUpXbv

Tham khảo OpenMind, The Verge

Tuesday, September 4, 2018

Textbooks cho các bạn thích tự học Big Data, A.I và Machine Learning

Link khóa học Python ở MIT
https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-0001-introduction-to-computer-science-and-programming-in-python-fall-2016/

Machine Learning Basics
https://goo.gl/HbFdYF

Machine Learning for Predictive Analytics
https://goo.gl/p8nttv

Introduction to Computation with Python
https://goo.gl/KGRHe2

Big Data Fundamentals
https://goo.gl/WhhFXC

Algorithms
https://goo.gl/uNcAk8

Image result for Springer.Encyclopedia.of.Algorithms

Pages

Wednesday, September 26, 2018

Wednesday, September 19, 2018

Tuesday, September 18, 2018

Tuesday, September 11, 2018

Sunday, September 9, 2018

The Deep Learning Revolution: What Does It Tell Us About Our Understanding of Intelligence?

3 new jobs A.I. is creating: Trainers, explainers, and sustainers

Saturday, September 8, 2018

Chỉ trong vài năm, deep learning đã thúc đẩy tiến bộ trong đa dạng các lĩnh vực như nhận thức sự vật, dịch tự động, nhận diện giọng nói,… - những vấn đề từng rất khó khăn với các nhà nghiên cứu trí tuệ nhân tạo.

Tuesday, September 4, 2018