Big Data Vietnam: February 2019

You'd be surprised just how much big tech companies like Google, Facebook, Apple, Twitter and Amazon know about you.

They're collecting information about you and your habits right now.

This information is being used to market specifically to your preferences.

Wondering just how much they know about you?

Here are 22 things they're collecting data on.

1. Personal Information

First of all is basic information like your name, gender, birthday, contact information, etc.

If you're on social media in any capacity, these are easy enough to dig up unless you're using a fake name.

2. Location and Address

Most tech services make use of location tracking on smartphones.

That means where you live and your usual routes can be tracked.

This is especially useful for local businesses looking to market to customers in the area.

3. Relationship Status

Whether you're single or married affects what's marketed to you.

For instance, if you just got engaged, you may get ads related to weddings.

If you just got married, you may start seeing furniture and baby product ads.

4. Work Status and Income Level

Businesses want to market to people with employment or other sources of income.

Your income level will dictate the ads you see.

5. Educational Background

College graduates are more likely to have higher employment, which typically correlates to higher income -- accordingly, companies are tracking your education level.

6. Ethnicity

Big tech companies track your race/ethnicity.

7. Religious and Political Beliefs

They also want to know people's religious beliefs and political leanings.

8. Facial Recognition Data

Face ID is becoming more ubiquitous as a biometric security solution, mostly thanks to Apple.

Casinos, for example, have databases of facial recognition data to track everyone going in and out.

China is also tapping into the technology for their sophisticated public surveillance systems.

9. Financial and Banking Information

This is information you have to be really careful with since it involves your money.

There are people out there who can do bad things if your financial information is dug up.

But people do tend to enter their credit card numbers in online stores, so companies get them all the time.

10. IP Address

If you're using a device connected to the Internet, it will be assigned a unique IP address.

As long as your IP address is known, your online activities can be tracked.

Even your device can be hacked into if you're unlucky or not careful enough.

That's why you have to be very careful about people knowing your IP address.

11. Communications

When you send a message or make a call online, they're most likely archived in some way.

Instant messengers like Facebook Messenger stores your chat history.

Meanwhile, applications like Skype can store your call history as well.

12. Calendar Events

If you use a calendar app like Google Calendar, the data regarding those events is kept even after they're over.

Companies use it to learn how you spend your time, how organized you are, and how busy you are.

13. Search History

Every time you search something on Google or other search engines, the query gets stored.

Your search history can say a lot about what things you're interested in.

14. Media Consumed

Whatever you tend to watch on YouTube says a lot about you and your interests.

It's especially true now since are videos on just about everything on the Internet these days.

It's not just videos they're tracking -- they keep track of the games you play, music you listen to, books you read, etc.

15. Web Browsing History

Even if you delete your browser history, Google will still remember what websites you visited.

Not only do they know where you've been, but they also know how long you've stuck around.

They may also know where you go at what usual times, so they get your browsing habits.

16. Social Media Behavior

It's natural nowadays for everything you do on social media to be recorded.

Whatever you like and comment in, the pages and profiles you follow, the people you block, and so on are all kept in your account's history.

17. Purchase History

Naturally, online stores keep records of what you buy from them.

It lets you track whatever you've bought before so you know how much you've spent.

The data can also be used to advertise products you gravitate to.

18. Fitness and Health Data

Fitness trackers are everywhere now, and that fitness and health data sometimes get uploaded.

They can say much about your exercise habits, how health conscious you are, and how consistent you are with your fitness regimen.

19. Clicked Ads

Companies want to know if their ads are being clicked on.

They're tracking those clicks, as well as the ad copy and format that caused the clicks.

20. Posts Hidden from Facebook Newsfeed

Social media platforms are interested in what posts on your feed irk you.

If a certain page tends to post content that gets blocked or hidden by a lot of people, that's a cause for concern.

21. Devices Used

Companies are also interested in the devices you use to access the Internet.

This influences how they shape their media formats -- for example, the widespread use of mobile devices has caused companies to make content and ads more mobile-friendly.

22. Voice Data

More people are now using devices like Amazon Alexa or Google home to access information and buy things.

You better believe there's a record of your voice data, too.

This infographic from Visual Capitalist shows exactly what tech companies like Google, Facebook, Apple, Twitter, Amazon and Microsoft have admitted to collecting about you.

Trong vài năm qua, với tư cách là một lĩnh vực phụ của học máy và học thống kê, Deep Learning (học sâu) đã tạo ra những bước đột phá ấn tượng trong nhiều lĩnh vực. Các công cụ nguồn mở Open Source mạnh mẽ, điện toán đám mây và một lượng lớn dữ liệu có sẵn là các khối xây dựng quan trọng để thành công trong học tập sâu.

Phương pháp tiếp cận máy học truyền thống hoạt động giống như nửa trên của hình bên dưới. Bạn sẽ phải thiết kế một thuật toán trích xuất tính năng (feature engineering) thường liên quan đến nhiều toán học nặng (thiết kế phức tạp), không hiệu quả và hoàn toàn không hoạt động tốt (mức độ chính xác chỉ không phù hợp với các ứng dụng trong thế giới thực ). Sau khi thực hiện tất cả điều đó, bạn cũng sẽ phải thiết kế một mô hình phân loại toàn bộ để phân loại đầu vào của bạn với các tính năng được trích xuất.
Đó là rất nhiều công việc cho quy trình Machine Learning truyền thống !!!

Với các mạng sâu (Deep Network), chúng tôi có thể thực hiện trích xuất và phân loại tính năng trong một lần, điều đó có nghĩa là chúng tôi chỉ phải thiết kế một mô hình (one model).
Tính sẵn có của một lượng lớn dữ liệu (Big Data) được dán nhãn cũng như GPU có thể xử lý dữ liệu này song song ở tốc độ cao cho phép các mô hình này nhanh hơn nhiều so với các phương pháp trước đây.
Sử dụng thuật toán lan truyền ngược (back-propagation algorithm), hàm mất mát (loss function) được thiết kế tốt và hàng triệu tham số, các mạng sâu này có thể tìm hiểu các tính năng rất phức tạp (theo truyền thống phải được thiết kế bằng tay).
Chúng đã trở nên khá dễ thực hiện, đặc biệt là với các thư viện mã nguồn mở cấp cao như Keras, Pytorch và TensorFlow.

Deep Learning đã thực sự làm cho nhiều ứng dụng mới thực tế khả thi. VD như Google Translate!

Dưới đây, chúng tôi liệt kê mười bài (research papers) học sâu hàng đầu cho năm 2018:

▌ 1.Deep Learning, bởi Yann L., Yoshua Geoffrey B. & H. (2015) (trích dẫn: 5716):

Deep learning là một mô hình tính toán bao gồm nhiều lớp xử lý có thể học biểu diễn trừu tượng đa cấp của dữ liệu. Hiện tại, các phương pháp như vậy đã đạt được hiệu suất tốt nhất trong việc phát hiện mục tiêu, nhận dạng giọng nói, nhận dạng mục tiêu trực quan và nhiều lĩnh vực khác, như khám phá thuốc và genomics.

Liên kết PDF: https://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf

▌ 2.TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems, by Martín A., Ashish A. B., Eugene B. C., et al. (2015) (Cited: 2,423)

Đây là một hệ thống học sâu linh hoạt có thể được sử dụng để thể hiện các thuật toán khác nhau, bao gồm các thuật toán đào tạo và suy luận cho các mô hình mạng thần kinh sâu, và nhiều nhà nghiên cứu sử dụng nó và triển khai nó cho các hệ thống máy học để đạt được nhiều nhiệm vụ. Bao gồm truy xuất máy tính và các lĩnh vực khác như truy xuất thông tin, nhận dạng giọng nói, robot, thị giác máy tính, khai thác thông tin địa lý, xử lý ngôn ngữ tự nhiên và khám phá thuốc tính toán.

Liên kết PDF: http://doad.tensorflow.org/apers/whitepaper2015.pdf

▌ 3.TensorFlow: a system for large-scale machine learning, by Martín A., Paul B., Jianmin C., Zhifeng C., Andy D. et al. (2016) (Cited: 2,227)

TensorFlow là một dự án nguồn mở được thiết kế để giải quyết việc đào tạo và lý luận về các mạng lưới thần kinh sâu sắc. Nó hỗ trợ một loạt các ứng dụng. TensorFlow được sử dụng bởi nhiều dịch vụ và ứng dụng của Google. Theo thời gian, nó cũng đã được sử dụng rộng rãi trong lĩnh vực học máy.

Liên kết PDF: https://www.usenix.org/system/files/conference/osdi16/osdi16-abadi.pdf

▌ 4.Deep Learning trong Neural Networks, bởi Juergen Schmidhuber (2015) (trích dẫn: 2.196)

Bài viết này là một đánh giá về sự phát triển của học tập sâu, mạng lưới thần kinh sâu sắc và công việc liên quan. Hầu hết các nội dung giới thiệu kết quả nghiên cứu của thế kỷ trước. Mạng lưới thần kinh nông và sâu được phân biệt theo độ sâu của đường phân phối tín dụng. Đường phân phối tín dụng được xác định bởi mối quan hệ nhân quả giữa hành vi và hiệu quả, và mối quan hệ nhân quả này có thể được học.

Liên kết PDF: https://arxiv.org/pdf/1404.7828.pdf

▌ 5..Human-level control through deep reinforcement learning, by Volodymyr M., Koray K., David S., Andrei A. R., Joel V et al (2015) (Cited: 2,086)

Bài báo này phát triển một loại trí thông minh nhân tạo mới gọi là "mạng Q" sâu. Sử dụng những tiến bộ gần đây trong đào tạo mạng lưới thần kinh sâu sắc, chúng tôi sử dụng chiến lược học tập củng cố từ đầu đến cuối để học các chiến lược thành công trực tiếp từ đầu vào cảm biến chiều cao. Ngoài ra, tác nhân này đã được thử nghiệm trong một số khu vực đầy thách thức của trò chơi Atari 2600 cổ điển.

Liên kết PDF: https://web.stanford.edu/group/psych209/Readings/MnihEtAlHassibis15 NatureControlDeepRL.pdf

▌ 6.Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, by Shaoqing R., Kaiming H., Ross B. G. & Jian S. (2015) (Cited: 1,421)

Trong công việc này, chúng tôi sẽ giới thiệu Mạng khuyến nghị khu vực (RPN), một tính năng hình ảnh được tích hợp đầy đủ, để triển khai mạng phát hiện đề xuất khu vực được chia sẻ. Mạng tư vấn khu vực là một mạng lưới thần kinh tích chập hoàn toàn, chia sẻ các khu vực phát hiện và đồng thời dự đoán ranh giới mục tiêu và điểm số khách quan tại mỗi địa điểm.

Liên kết PDF: https://arxiv.org/pdf/1506.01497.pdf

▌ 7.Long-term recurrent convolutional networks for visual recognition and description, by Jeff D., Lisa Anne H., Sergio G., Marcus R., Subhashini V. et al. (2015) (Cited: 1,285)

Không giống như trường tiếp nhận không gian cố định hoặc mô hình chuỗi thời gian trung bình đơn giản để xử lý dữ liệu chuỗi, mạng nơ ron tích chập có thể đạt được phản ứng tổng hợp mô hình ở cấp độ không gian và thời gian thông qua cơ chế "sâu kép".

Liên kết PDF: https://arxiv.org/pdf/1411.4389.pdf

▌ 8MatConvNet:Convolutional Neural Networks for MATLAB, by Andrea Vedaldi & Karel Lenc (2015) (Cited: 1,148)

Mô hình này dễ sử dụng và mở nguồn các chức năng khối xây dựng CNN của nó trong MATLAB, cung cấp các đường dẫn để tính toán các kết hợp tuyến tính với các ngân hàng bộ lọc, tính năng tổng hợp, v.v. Bài viết này sẽ cung cấp một cái nhìn tổng quan về cấu trúc mạng nơ ron tích chập và việc triển khai nó trong MatConvNet và cung cấp các chi tiết kỹ thuật tương tự trong hộp công cụ cho mỗi khối tính toán.

Liên kết PDF: https://arxiv.org/pdf/1412.4564.pdf

▌ 9.Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, by Alec R., Luke M. & Soumith C. (2015) (Cited: 1,054)

Trong công việc này, mối quan tâm chính của chúng tôi là thu hẹp khoảng cách giữa CNN trong học tập có giám sát và học tập không giám sát. Trong bài báo này, chúng tôi giới thiệu một lớp các mô hình CNN với một số hạn chế về kiến trúc nhất định, được gọi là Mạng chống tạo thế hệ sâu (DCGAN). Kết quả thử nghiệm cho thấy chúng là một phương pháp học tập không giám sát đầy hứa hẹn.

Liên kết PDF: https://arxiv.org/pdf/1511.06434.pdf

▌ 10.U-Net: Convolutional Networks for Biomedical Image Segmentation, by Olaf R., Philipp F. &Thomas B. (2015) (Cited: 975)

Sự thành công của mạng lưới thần kinh sâu đòi hỏi nhiều mẫu đào tạo được dán nhãn, đó là một sự đồng thuận. Trong bài viết này, chúng tôi sẽ đề xuất một cấu trúc mạng và chiến lược đào tạo mới để sử dụng hiệu quả hơn các mẫu chú thích hiện có để huấn luyện mô hình, dựa hoàn toàn vào các cải tiến dữ liệu mạnh mẽ.

Liên kết PDF: https://arxiv.org/pdf/1505.04597.pdf

Trên đây là tóm tắt ngắn gọn về mười bài học sâu hàng đầu năm 2018. Để biết thông tin chi tiết về bài báo, bạn có thể tham khảo liên kết văn bản gốc bên dưới mỗi bài.

Big Data Vietnam

Pages

Monday, February 11, 2019

22 Things Big Tech Companies Know About You Right Now