Thursday, June 6, 2019

What is a Customer Data Platform?

A Customer Data Platform (CDP) is a system that collects and stores all your customer data, for analysis and use by marketers. A CDP makes it easier for marketers to build and execute targeted, data-driven strategies.

A key function of a Customer Data Platform is to unify fragmented customer data within business silos. For example, CRM, mobile, transactional, website, email and third party data. This data then undergoes a Single Customer View process, which matches, merges and de-duplicates the data. The result is a 'Single Source of Truth', for consistent treatment by marketing across all channels.


As this data hygiene process is persistent, a Customer Data Platform allows marketers to iteratively improve their efforts, based on new data fed into the platform.

Customer Data Platform
Once processed by a Single Customer View, a CDP makes this trustworthy data visible and accessible to integrated and external marketing technologies. This includes segmentation and data analysis, campaign automation and customer journey management, along with email platforms, online advertising solutions and real-time personalization tools.

Customer Data Platforms are marketer controlled, meaning they avoid the pitfalls of a storage solution that serves multiple business departments and multiple purposes. Instead, CDPs focus on collecting and storing customer data for marketing usage, organizing it as to allow marketers to develop a holistic view of every customer.

Customer Data Platform features at a glance:

  • Creates a single, unified database from all channels
  • Merges and improves data to form a single record to identify each customer
  • Makes Single Customer View records visible to all your analytics and journey management and automation technologies, and executional marketing tools
  • Enables marketers to understand customer behavior and develop insight based on their Image result for Customer Data Platform
Open Source Solutions https://unomi.apache.org/index.html

An Open Source CDP Alternative

The main arguments against implementing a commercial CDP are the limited extensibility — vendors focus first, and sometimes exclusively, on integrating their own products — and the closed nature of those systems. These solutions often store data in a proprietary format, and vendor licensing and terms-of-use language can cloud the issue of who “owns” the customer data managed by the CDP.
Implementing an open source CDP is an interesting — and now viable — alternative to investing in a vendor’s proprietary offering.

Unpacking Apache Unomi

The Apache Software Foundation recently announced a major milestone in the Unomi project: it is now a Top Level Project, meaning it has graduated from the Apache Incubator; is now fully deployable; and is supported by a sufficiently large community of developers. The long and impressive list of Unomi project team members includes Adobe, Jahia, Red Hat and Talend employees, among others.

A Bit of Data Management History

The term master data management (MDM) has been around since at least 2004. While the overarching goal remains the same — to provide access to data to the systems that need to consume it — the approaches to MDM today are different.
A centralized MDM hub moves master data from source systems into a single data repository, consolidates it, cleanses it to remove errors and inconsistencies, and then distributes to other systems. A registry-style hub creates an index of the data on source systems, and can do data matching and cleansing, but leaves data in the original systems. Hybrid MDMs combine these approaches: they create a reference to the original data sources but also serve as the primary data source for new applications.
MDM requires data integration tools to extractdata (or link to it) from individual data sources, (optionally) transform it, and then load it into the target system (ETL). ETL integration was commonly done “point to point,” meaning each source is integrated with the ETL tool one at a time. The newest generation of data management tools can connect to and federate with multiple data sources to create a virtual database (VDB), including integration platforms-as-a-service (iPaaS) and lighter-weight integration software-as-a-service (iSaaS) offerings. They can even link to third-party data sources like social media and data providers such as credit reporting agencies. The integration tool then makes the data available as a service to consuming applications, often using RESTful APIs.
According to Elie Auvray, co-founder and head of business development at Jahia, the vision for Apache Unomi is to be “a hub that integrates with and completes other systems for digital marketing purposes rather than a centralized master storage for all customer data from all system.”
In order to be a true registry-style data hub (see A Bit of Data Management History), data must be able to easily flow through the hub, to and from the connected spokes. Having a standard way of getting and exposing data would make connecting spokes simpler. Apache Unomi is the industry's first reference implementation of the upcoming OASIS Context Server specification (editor's note: recently changed to the Customer Data Platform specification) and intends to provide an open interoperability standard for customer data, just as CMIS is for content stores.
Data privacy, protection and transparency are all hallmarks of Apache Unomi. According to Auvray, the software can aggregate customer profile information without the need for personally identifiable information (PII). Instead, Apache Unomi uses unique identifiers to relate records in the source information systems, for example, CRM ID corresponding to a support database ID. Per Auvray:
Apache Unomi has built-in personal data protection capabilities (from the customer’s point of view) such as consent management, data anonymization right-to-be-forgotten capabilities as required by new regulations (e.g., as defined by European GDPR regulations and in California’s Erasure Law). Using Apache Unomi APIs, developers can build application features and UIs for managing and controlling what data are collected, whether or not visitors must consent to it, and (eventuality) to anonymize/delete it.

Buying vs. Building Your CDP

Let's be clear: Apache Unomi is not intended for business users and is not commercial off-the-shelf software. Instead, it is a “headless” CDP, designed for corporate and commercial software developers as an alternative to licensing another vendor’s CDP or building their own, when a CDP is intended to be a layer of a larger, service-oriented (API-driven) digital experience (DX) software platform.

That said, Apache Unomi provides a rich set of CDP functionality that is very attractive to developers. And using an open source CDP means developers can easily understand, improve or extend the CDP without having to wait on a third-party vendor. It also allows developers to leverage their peer community that shares the same willingness to build quality software and which can collectively bear the effort and the cost of that development.
Apache Unomi profile view shell command

Sunday, March 3, 2019

Hiểu, Học và ứng dụng Big Data như thế nào ?

1. Big data là gì? Nó khác gì với việc lưu giữ và phân tích data truyền thống ?



Nguồn gốc: 

Từ khi Internet, việc lưu trữ dữ liệu, thông tin là yêu cầu bắt buộc. Sự phát triển các công nghệ lưu trữ từ 1960s (khai sinh mạng Internet đầu tiên) là dùng file để lưu trữ thông tin.
Khi Google sinh ra, họ đã phát minh ra cách thức scale việc lựu trữ và xử lý ở mức cao hơn (mô hình Map-Reduce) để sắp xếp lại gần toàn bộ thông tin trên Internet .
Lịch sử Database Technology qua các thời kỳ khác nhau
Mốc thời gian 2002 đánh dấu cho bước nhảy vọt do Google tiên phong, cách mạng Dot Com phát triển

Định nghĩa:


Big data là tập hợp dữ liệu lớn và phức tạp vượt mức đảm đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên, tính đến năm 2012 mỗi ngày có 2,5 exabyte dữ liệu được sinh ra (exabyte bằng 1 tỷ gigabyte), và đến năm 2025 IDC dự đoán số liệu này sẽ là 163 zettabyte (zettabyte bằng 1 nghìn exabyte)...
Ví dụ cho tiềm năng khối dữ liệu lớn có thể kể đến kính thiên văn Sloan Digital Sky Survey đặt tại New Mexico (Mỹ) bắt đầu đi vào hoạt động hồi năm 2000; sau một vài tuần thiết bị này đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà ngành thiên văn học từng thu thập trong quá khứ, và sau 10 năm tổng dung lượng đã đạt đến hơn 140 terabyte (terabyte bằng 1 nghìn gigabyte).
Trong khi đó thống kê được công bố thời điểm cuối năm 2017 cho thấy Facebook đang có khoảng 2 tỷ người dùng thường xuyên và chỉ riêng ảnh cũng đã có khoảng 300 triệu bức được tải lên mỗi ngày. YouTube hay Google cũng phải lưu lại hết vô số các lượt truy vấn và video của người dùng cùng nhiều loại thông tin khác có liên quan.
Nguồn dữ liệu cho big data tăng trưởng cực nhanh cũng một phần bởi sự gia tăng số lượng và giảm giá của các thiết bị cảm biến, thu nhận thông tin trong môi trường Internet vạn vật như điện thoại, camera, micro, chip bắt sóng…

Điều quan trọng là ứng dụng của big data có mặt ở khắp mọi nơi trong các xu hướng công nghệ ảo hóa mới nhất. Ví dụ như trong một mảng sản xuất của cuộc cách mạng công nghiệp 4.0, những công nghệ mới như big data hay cloud computing sẽ giúp cảnh báo sớm sản phẩm lỗi, hỏng, từ đó phòng ngừa trước và gia tăng năng suất, chất lượng, nâng cao giá trị cạnh tranh.
Để đưa ra nhận định hữu ích cho quy trình quản lý nhà máy công xưởng, dữ liệu cần được xử lý bằng các công cụ, các thuật toán để trích xuất ra được thông tin có ý nghĩa. Khi có vấn đề hiện hữu hoặc vô hình trong một công xưởng công nghiệp ví dụ như máy móc xuống cấp hoặc chi tiết hao mòn thì thuật toán phải có khả năng phát hiện và tìm cách giải quyết.
Big data còn ẩn chứa rất nhiều thông tin quý giá mà nếu trích xuất (data mining) thành công sẽ giúp rất nhiều cho việc nắm bắt xu thế trong kinh doanh, nghiên cứu khoa học, dự đoán để phòng tránh các dịch bệnh sắp phát sinh, phát hiện sớm tội phạm; dù tất nhiên mức độ ứng dụng thu thập dữ liệu cũng đặt ra nghi ngại về sự giám sát vượt quá giới hạn riêng tư của công dân trong thành phố thông minh.

Các nhóm người dùng chính trong chiến lược xây dựng Big Data trong tổ chức 

Nhóm manager có nhu cầu data nhiều nhất, trong nhóm bên trên là các data scientist làm công việc phân tích

Quy trình áp dụng:






Big Data và A.I kết hợp với nhau như thế nào ?

CLick vào hình để xem lớn, kiến trúc hệ thống Big Data và Machine Learning kết hợp lại với nhau

Các bài toán Big Data thực tế trong các ngành khác nhau



2. Những đầu sách nào là must-read dành cho beginner nếu muốn tìm hiểu về big data & data analytics ? 

.











3. Ứng dụng của SQL/R/Python trên thực tế ở các mô hình business tại VN hiện tại là như nào ?

SQL 

là ngôn ngữ truy vấn dữ liệu bậc cao (viết code như tiếng Anh), nên khá dễ học
Do mục đích truy vấn dữ liệu nên nó cần 1 môi trường database như Access (rất cơ bản) đến MySQL (cho developer ) hay Google Big Query (trên Cloud Computing)
Học SQL miễn phí:
https://www.mikedane.com/databases/sql/
https://www.youtube.com/watch?v=HXV3zeQKqGY




Python







Featured Post

Big Data : Nhu cầu thị trường - Định hướng nghề nghiệp - Tính chất công việc

Tập hợp một số câu hỏi từ bạn trên page https://www.facebook.com/bigdatavn  và từ các buổi thuyết trình ở Barcamp 1. Làm việc trong ngàn...