Monday, April 3, 2017

Big Data, siêu thị Coopmart, METRO, Google , Facebook, ...



Câu chuyện bắt đầu bằng những câu hỏi: 
Vì sao các siêu thị chúng ta hay đi có đăng ký thẻ khách hàng thân thiết thì sẽ giảm giá ?
Vì sao đi Metro thì buộc phải có thẻ khách hàng ?
Làm thế nào các công ty kinh doanh bán lẻ như Amazon có thể tối ưu chiến lược bán hàng tự động ở quy mô toàn cầu (Analytics for Sales Automation) ?


Hãy nghĩ, khi chúng ta đăng ký thông tin , bạn sẽ phải điền tất cả thông tin cá nhân tên, tuổi, số mobile, và nhà ở .... => số ID của khách hàng
=> lúc tính tiền tiền thì check thẻ
=> tất cả thông tin về đơn hàng sẽ lưu lại.
=> dùng phần mềm để thống kế dữ liệu, VD: nhóm các sản phẩm khách hàng thường mua chung => sắp các quày hàng kế nhau, ...
Nếu số lượng ít thì làm bằng thủ công cũng OK, nhưng cả 1 siêu thị khổng lồ như Metro, BigC với cả chục ngàn mặt hàng thì rất khó




Các quy trình quan sát những thói quen, những suy nghĩ và hành động mua hàng ? 
=> Thu thập, quan sát
=> Lưu dữ liệu
=> Thống kê => các "thông tin ẩn" bên trong
=> Đưa ra mô hình xác xuất để tối ưu việc chúng ta bị dính "bẫy" sẽ mua 1 món hàng gì, đó...
=> tóm lại, tất cả dữ liệu chúng ta mua hàng sẽ được track lại nhằm đưa ra
1) công thức để bán hàng tốt hơn (Optimized Marketing), nhà sản xuất sẽ biết nhu cầu khách hàng cụ thể cho từng điểm
2) mô hình "kiến trúc lựa chọn theo thói quen" (Choice architecture  ) , đó là cách thức các nhà marketing "thuốc" vào tất cả giác quan mà chúng ta có thể thấy, nghe, ngửi, sờ, nếm ... nhằm khiến ta "phải" mua 1 thứ gì đó.


Quy luật "đám đông" hay cách Việt Nam hay gọi là "sức mạnh nhân dân", 

Làm sao Google xếp hạng các trang web theo quy luật cực kì đơn giản, 1 trang web được xem hạng cao nếu có nhiều liên kết URL tới nó. (PageRank)
Câu chuyện bằng đầu vào những năm 1995, các trang web được tạo ra chủ yếu được gắn links bằng tay. (con người) là chính, vì vậy, khi xếp các links vào trang, đồng thời người ta đã 1 phần nào đó xếp hạng dùm Google các trang web. Vì vậy, ngoài việc search theo keywords như các search engine thời đó, Google đã "lơi dụng" con người như đánh dấu các metadata (các dữ liệu mô tả về trang) cho trang web.
=> thống kê + đưa ra các xác xuất theo keywords cho tất trang web.
=> better search engine ??



Phân tích dữ liệu của "đám đông"
Khi Tim Berners-Lee  dự đoán về 1 tương lai của Web , ông chỉ xem Web 2.0 như là 1 "hiện tượng" thay vì là bước  đệm để con người tiến vào thời đại của "semantic web" như ông đã nghĩ.
Thật sự các mô hình phát triển web hiện tại thực hiện một 1 mục tiêu căn bản là "kết nối" dữ liệu tri thức, các thông tin của mỗi cá nhân trên trên thế giới này thay vì "close" như 1 hệ thống thông tin cục bộ của 1 công ty gì đó.
Facebook không thể đơn ra các mô hình quảng cáo nếu các công nghệ hiện tại vá các nghiên cứu đã có sẵn để làm 1 việc là "bán quảng cáo" với số lượng cực lớn, giá rẻ, và tốt hơn các trang web truyền thống.
=> 100 tỉ đô là IPO  == 1.5 tỉ users ?
ý tưởng nhưng Facebook người ta đã nghĩ ra từ thời kỳ xa xưa khi mới có Internet , Internet được tạo ra để chia sẻ dữ liệu và kết nối tất cả như 1 cỗ máy tính khổng lồ.
Vì vậy, thông tin chia sẻ có thể là hình, status, ... và mọi người connect nhau bởi những thứ đó.


Để kết thúc bài post này, mình có vẽ đại 1 cái hình hơi trừu tượng 1 tí ở đây (toán học luôn trừu tượng, chỉ có thành product  là dễ tưởng tượng ):
thế giới nhỏ (Small-world_network)  được tạo thành từ các cấu trúc topo , trong đó để thực hiện được các hành động hoặc trạng thái số 3, cần làm các bước ở số 2, và tương tự số 1.
VD: (1) phải có Internet, (2) mới có  Facebook, (3) rồi có quảng cáo

Tham khảo thêm:



Tuesday, March 28, 2017

Where do you think the biggest opportunities are in the continued evolution of big data?


  • Tie in real-time operations to telecom providers in Japan automatically directing antennae for cell phones based on need. React in real time based on where the users are located.
  • Managing things centrally makes sense. All companies are scrambling to become part of Amazon. We want to make our product available on AWS. Redundant, virtualized systems in the public cloud. This is a Capex versus Op Ex versus core competency decision. Offload your IT architecture to AWS and focus on your business. Trust someone else to maintain the environment and use as a service.
  • Moore’s law in computing power continues to enable the handling of larger datasets, containers, and microservices. Integration challenges are being solved. IT needs to focus on the right problem, set-up, configure, maintain, and manage disparate data sources to innovate like Tesla and Uber.
  • Continue to help companies take different formats – normalize, tag, and put in a repository to use and analyze. Analysis of data by computers by enriching the data by enabling lookups.
  • The immediate opportunity is to find effective, efficient ways to correlate use cases, and leverage common big data stores to address multiple needs. The concepts behind big data are fabulous for collecting a wide range of data, and now the challenge is to break away from legacy siloed thinking to recognize and leverage data relationship to solve the remaining hard problems that are out there today, such as complex multi-domain proactive incident prevention and multi-faceted cybersecurity threats.
  • Insights everywhere for everyone – not just the elite. Take big data, business intelligence, and analytics to 100% of the population. Everyone can use analytics just like everyone can read and write.
  • Democratization of data. Able to get useful information from data via the clould and solutions as a service (SaaS).
  • Catalog data in NoSQL and Cloud, in addition to Hadoop so analysts can get access to all big data.
  • We will be collecting more data, getting actionable insights, with repeatable (automated) processes, to see near-term value from data. In the next generation, we’ll have real-time streaming and decision making. More of a real-time view.
  • Tremendous. Data is king. Evolution of tools with machine learning and NLP. Make it easy for people to use our infrastructure and focus on data mining. Cloud, Flash, soft edifying makes infrastructure invisible with APIs.
  • For risk-averse markets, how to incorporate detailed data to do more experimentation and test more hypotheses. Enable experiments to go into rapid prototyping. Don’t trigger false positives. Don’t open security issues. Take advantage of big data technology. Plan for voice of the customer, sensor data, biometric signals with changes. Don’t hard code the data feed, stay flexible. Think ahead about how our kids are the next generation and how the user interface will change.
  • Anyone involved realizes we’re in a boom time. Remain adaptable and flexible. Don’t be dogmatic about a particular solution. Evolution of production analytics. Predictability, scalability and how to get value out of network technologies. Embedding of knowledge to make real-time decisions and have real-time knowledge.
  • Convergence of software, data, and machine learning. AR/VR via mobile. Blockchain is getting less buzz but being able to share data to get an outside perspective without moving the data is a tremendous opportunity. Attributes and scores are based on data that’s secure and encrypted.
  • More real-time convergence of disparate data sets for real-time analytics. Machine learning. Being able to ask questions of big data and get answers back. IoT will provide real-time traffic, threats, and traffic. Make computer systems smarter. Build enterprise data hub architecture. Average users employ Hadoop to do one thing realizing the multi-tenant state of the data. Open source will continue to drive big data. Need to move to the cloud but maintain flexibility with hybrid solutions.
  • The distant future is the application of machine learning, AI, and automation. There’s still a way to go for this not to be science fiction. We get there by having tools make the analysis and collection of data more similar. Machine learning is currently siloed away from the analysis tools. This will need to change for machine learning to be integrated into real-time decision making.
  • Life sciences – struggle with large data sets. Able to predict microbiotics’ impact on humans. Learning systems across industries are building cognitive systems where all training and machine learning is based on user behavior in real-time.
  • Resurgence of small businesses integrating with online businesses. It’s easy to open a store online, look at the analytics and then replicate in brick and mortar. Bonobos is doing this as are craft businesses in coffee, chocolates, and bedding. Retail will be able to use the same technology developed for casinos (e.g., Space Meter) to track walk byes and drive byes. There will be more analytics involved in monitoring the performance and potential of retail stores even down to the use of shelf space.
  • Lower barrier to entry for majority of organizations and users, so that Big Data analytics can truly be integrated into day-to-day operations.
  • Automation of the generic use cases will change the perception of big data projects and how they are carried out in the next couple of years. Additionally, moving away from custom implementation to more generic implementations, which in turn can be tuned to the customers’ needs.
  • Better education at the grassroots level. Computer engineering degrees need to teach the concepts and provide future computer engineers with experience in big data processing. It takes a significant mind shift to move away from traditional data processing concepts, such as relational database, and to move toward big data processing concepts. Cloud providers need to keep refining their tools to make them easier and easier to use. To be fair, they are doing this. Machine learning and advanced analysis as a follow-on phase to Big Data processing is already a revolution. I believe that the longer-term impact of this technology will be politically and economically profound and is currently grossly under-estimated by most people.
Sourcehttps://dzone.com/articles/big-data-opportunties?fromrel=true

Content Rating