Sunday, March 3, 2019

Hiểu, Học và ứng dụng Big Data như thế nào ?

1. Big data là gì? Nó khác gì với việc lưu giữ và phân tích data truyền thống ?



Nguồn gốc: 

Từ khi Internet, việc lưu trữ dữ liệu, thông tin là yêu cầu bắt buộc. Sự phát triển các công nghệ lưu trữ từ 1960s (khai sinh mạng Internet đầu tiên) là dùng file để lưu trữ thông tin.
Khi Google sinh ra, họ đã phát minh ra cách thức scale việc lựu trữ và xử lý ở mức cao hơn (mô hình Map-Reduce) để sắp xếp lại gần toàn bộ thông tin trên Internet .
Lịch sử Database Technology qua các thời kỳ khác nhau
Mốc thời gian 2002 đánh dấu cho bước nhảy vọt do Google tiên phong, cách mạng Dot Com phát triển

Định nghĩa:


Big data là tập hợp dữ liệu lớn và phức tạp vượt mức đảm đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên, tính đến năm 2012 mỗi ngày có 2,5 exabyte dữ liệu được sinh ra (exabyte bằng 1 tỷ gigabyte), và đến năm 2025 IDC dự đoán số liệu này sẽ là 163 zettabyte (zettabyte bằng 1 nghìn exabyte)...
Ví dụ cho tiềm năng khối dữ liệu lớn có thể kể đến kính thiên văn Sloan Digital Sky Survey đặt tại New Mexico (Mỹ) bắt đầu đi vào hoạt động hồi năm 2000; sau một vài tuần thiết bị này đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà ngành thiên văn học từng thu thập trong quá khứ, và sau 10 năm tổng dung lượng đã đạt đến hơn 140 terabyte (terabyte bằng 1 nghìn gigabyte).
Trong khi đó thống kê được công bố thời điểm cuối năm 2017 cho thấy Facebook đang có khoảng 2 tỷ người dùng thường xuyên và chỉ riêng ảnh cũng đã có khoảng 300 triệu bức được tải lên mỗi ngày. YouTube hay Google cũng phải lưu lại hết vô số các lượt truy vấn và video của người dùng cùng nhiều loại thông tin khác có liên quan.
Nguồn dữ liệu cho big data tăng trưởng cực nhanh cũng một phần bởi sự gia tăng số lượng và giảm giá của các thiết bị cảm biến, thu nhận thông tin trong môi trường Internet vạn vật như điện thoại, camera, micro, chip bắt sóng…

Điều quan trọng là ứng dụng của big data có mặt ở khắp mọi nơi trong các xu hướng công nghệ ảo hóa mới nhất. Ví dụ như trong một mảng sản xuất của cuộc cách mạng công nghiệp 4.0, những công nghệ mới như big data hay cloud computing sẽ giúp cảnh báo sớm sản phẩm lỗi, hỏng, từ đó phòng ngừa trước và gia tăng năng suất, chất lượng, nâng cao giá trị cạnh tranh.
Để đưa ra nhận định hữu ích cho quy trình quản lý nhà máy công xưởng, dữ liệu cần được xử lý bằng các công cụ, các thuật toán để trích xuất ra được thông tin có ý nghĩa. Khi có vấn đề hiện hữu hoặc vô hình trong một công xưởng công nghiệp ví dụ như máy móc xuống cấp hoặc chi tiết hao mòn thì thuật toán phải có khả năng phát hiện và tìm cách giải quyết.
Big data còn ẩn chứa rất nhiều thông tin quý giá mà nếu trích xuất (data mining) thành công sẽ giúp rất nhiều cho việc nắm bắt xu thế trong kinh doanh, nghiên cứu khoa học, dự đoán để phòng tránh các dịch bệnh sắp phát sinh, phát hiện sớm tội phạm; dù tất nhiên mức độ ứng dụng thu thập dữ liệu cũng đặt ra nghi ngại về sự giám sát vượt quá giới hạn riêng tư của công dân trong thành phố thông minh.

Các nhóm người dùng chính trong chiến lược xây dựng Big Data trong tổ chức 

Nhóm manager có nhu cầu data nhiều nhất, trong nhóm bên trên là các data scientist làm công việc phân tích

Quy trình áp dụng:






Big Data và A.I kết hợp với nhau như thế nào ?

CLick vào hình để xem lớn, kiến trúc hệ thống Big Data và Machine Learning kết hợp lại với nhau

Các bài toán Big Data thực tế trong các ngành khác nhau



2. Những đầu sách nào là must-read dành cho beginner nếu muốn tìm hiểu về big data & data analytics ? 

.











3. Ứng dụng của SQL/R/Python trên thực tế ở các mô hình business tại VN hiện tại là như nào ?

SQL 

là ngôn ngữ truy vấn dữ liệu bậc cao (viết code như tiếng Anh), nên khá dễ học
Do mục đích truy vấn dữ liệu nên nó cần 1 môi trường database như Access (rất cơ bản) đến MySQL (cho developer ) hay Google Big Query (trên Cloud Computing)
Học SQL miễn phí:
https://www.mikedane.com/databases/sql/
https://www.youtube.com/watch?v=HXV3zeQKqGY




Python







Monday, February 11, 2019

22 Things Big Tech Companies Know About You Right Now

You'd be surprised just how much big tech companies like Google, Facebook, Apple, Twitter and Amazon know about you.
They're collecting information about you and your habits right now.
This information is being used to market specifically to your preferences.
Wondering just how much they know about you?
Here are 22 things they're collecting data on.

1. Personal Information

First of all is basic information like your name, gender, birthday, contact information, etc.
If you're on social media in any capacity, these are easy enough to dig up unless you're using a fake name.

2. Location and Address

Most tech services make use of location tracking on smartphones.
That means where you live and your usual routes can be tracked.
This is especially useful for local businesses looking to market to customers in the area.

3. Relationship Status

Whether you're single or married affects what's marketed to you.
For instance, if you just got engaged, you may get ads related to weddings.
If you just got married, you may start seeing furniture and baby product ads.

4. Work Status and Income Level

Businesses want to market to people with employment or other sources of income.
Your income level will dictate the ads you see.

5. Educational Background

College graduates are more likely to have higher employment, which typically correlates to higher income -- accordingly, companies are tracking your education level.

6. Ethnicity

Big tech companies track your race/ethnicity.

7. Religious and Political Beliefs

They also want to know people's religious beliefs and political leanings.

8. Facial Recognition Data

Face ID is becoming more ubiquitous as a biometric security solution, mostly thanks to Apple.
Casinos, for example, have databases of facial recognition data to track everyone going in and out.
China is also tapping into the technology for their sophisticated public surveillance systems.

9. Financial and Banking Information

This is information you have to be really careful with since it involves your money.
There are people out there who can do bad things if your financial information is dug up.
But people do tend to enter their credit card numbers in online stores, so companies get them all the time.

10. IP Address

If you're using a device connected to the Internet, it will be assigned a unique IP address.
As long as your IP address is known, your online activities can be tracked.
Even your device can be hacked into if you're unlucky or not careful enough.
That's why you have to be very careful about people knowing your IP address.

11. Communications

When you send a message or make a call online, they're most likely archived in some way.
Instant messengers like Facebook Messenger stores your chat history.
Meanwhile, applications like Skype can store your call history as well.

12. Calendar Events

If you use a calendar app like Google Calendar, the data regarding those events is kept even after they're over.
Companies use it to learn how you spend your time, how organized you are, and how busy you are.

13. Search History

Every time you search something on Google or other search engines, the query gets stored.
Your search history can say a lot about what things you're interested in.

14. Media Consumed

Whatever you tend to watch on YouTube says a lot about you and your interests.
It's especially true now since are videos on just about everything on the Internet these days.
It's not just videos they're tracking -- they keep track of the games you play, music you listen to, books you read, etc.

15. Web Browsing History

Even if you delete your browser history, Google will still remember what websites you visited.
Not only do they know where you've been, but they also know how long you've stuck around.
They may also know where you go at what usual times, so they get your browsing habits.

16. Social Media Behavior

It's natural nowadays for everything you do on social media to be recorded.
Whatever you like and comment in, the pages and profiles you follow, the people you block, and so on are all kept in your account's history.

17. Purchase History

Naturally, online stores keep records of what you buy from them.
It lets you track whatever you've bought before so you know how much you've spent.
The data can also be used to advertise products you gravitate to.

18. Fitness and Health Data

Fitness trackers are everywhere now, and that fitness and health data sometimes get uploaded.
They can say much about your exercise habits, how health conscious you are, and how consistent you are with your fitness regimen.

19. Clicked Ads

Companies want to know if their ads are being clicked on.
They're tracking those clicks, as well as the ad copy and format that caused the clicks.

20. Posts Hidden from Facebook Newsfeed

Social media platforms are interested in what posts on your feed irk you.
If a certain page tends to post content that gets blocked or hidden by a lot of people, that's a cause for concern.

21. Devices Used

Companies are also interested in the devices you use to access the Internet.
This influences how they shape their media formats -- for example, the widespread use of mobile devices has caused companies to make content and ads more mobile-friendly.

22. Voice Data

More people are now using devices like Amazon Alexa or Google home to access information and buy things.
You better believe there's a record of your voice data, too.
This infographic from Visual Capitalist shows exactly what tech companies like Google, Facebook, Apple, Twitter, Amazon and Microsoft have admitted to collecting about you.

How to grow your business in the age of Digital Marketing 4.0



Featured Post

Big Data : Nhu cầu thị trường - Định hướng nghề nghiệp - Tính chất công việc

Tập hợp một số câu hỏi từ bạn trên page https://www.facebook.com/bigdatavn  và từ các buổi thuyết trình ở Barcamp 1. Làm việc trong ngàn...