Wednesday, December 4, 2019

Tại sao CDP là từ thuật ngữ mới mà hệ sinh thái marketing đang nhảy vào

24 tháng qua đã chứng kiến ​​sự tăng trưởng ổn định của một từ viết tắt mới trong ngành tiếp thị kỹ thuật số.
Sự xuất hiện của CDP (Nền tảng dữ liệu khách hàng) đã chứng kiến ​​một số công ty khởi nghiệp thu hút được khoản đầu tư lớn bao gồm các công cụ như mParticle (75 triệu đô la *), Lytics (58 triệu đô la *) và ActionIQ (45 triệu đô la *)
Khi thị trường tiếp tục phát triển, chúng ta đã thấy ba Marketing Cloud (Adobe, Oracle và Salesforce) đều thông báo rằng họ sẽ xây dựng các biến thể CDP của họ, với các nền tảng của Adobe và Oracle đã ở giai đoạn thử nghiệm và Salesforce chính thức ra mắt biến thể tại Dreamforce tuần trước.
Vậy CDP là gì và tại sao nó lại phát triển từ một từ viết tắt ba chữ cái khác thành một phần công nghệ mà Adobe, Oracle và Salesforce đều đầu tư hàng trăm triệu đô la để đảm bảo sự liên quan của họ trong tương lai của Digital Marketing ?

CDP là gì?
Nền tảng dữ liệu khách hàng là một phần công nghệ hứa hẹn sẽ thống nhất tất cả thông tin khách hàng của một công ty trong một nền tảng duy nhất.
Khi đó, các công ty có thể có được một cái nhìn duy nhất về khách hàng của họ để giúp họ hiểu cách tốt nhất để liên lạc với họ qua các kênh chính như email, trung tâm cuộc gọi, thiết bị di động và trang web của họ.
Nếu bạn nghĩ rằng CDP như Nền tảng quản lý dữ liệu (DMP), thì hãy theo dõi các thông tin so sánh giữa CDP và DMP


Vậy tại sao khái niệm về CDP lại phổ biến đến vậy?
CDP không đặc biệt mới. Một số các nền tảng này đã tồn tại hơn năm năm nay và cũng có thể là cả đời trong không gian công nghệ quảng cáo.

Vậy, tại sao vậy?
Lý do đơn giản là bây giờ đã có một thị trường thực sự và đang phát triển nhanh chóng cho những gì các nền tảng cung cấp và, theo tôi, đó là chủ yếu theo các lý do sau đây.

GDPR đã đến châu Âu - với quy định tương tự dự kiến ​​sẽ được tung ra ở Mỹ và APAC
Một nhà tư vấn Datatech có trụ sở tại Châu Âu, thật công bằng khi nói rằng GDPR đã thay đổi mọi thứ.
Với các khoản tiền phạt cho các công ty phá vỡ quy định mới bắt đầu từ mười triệu euro và đạt tới 4% doanh thu hàng năm trên toàn cầu, các công ty phải có được những điều đúng đắn hoặc mạo hiểm trong một thời điểm xác định trong kinh doanh của họ.
Vấn đề họ gặp phải là rất ít tổ chức cảm thấy thoải mái khi họ bị buộc phải theo luật, nếu họ được kiểm toán.
Một phần lớn trong số đó phụ thuộc vào thực tế là các thương hiệu truyền thống đã thu thập quyền cho phép sử dụng dữ liệu tiêu dùng của họ cho mục đích marketing. Rốt cuộc, trước khi GDPR vào, không cần thiết - vậy tại sao họ lại làm vậy?
Do đó, các thương hiệu đang ở một vị trí mà họ phải:
  1. Hãy xin phép sử dụng dữ liệu người tiêu dùng của họ lần đầu tiên
  2. Tìm một phần công nghệ đáng tin cậy để lưu trữ các quyền đó trên vô số điểm tiếp cận người tiêu dùng
  3. Tiếp tục với những nỗ lực tiếp thị dựa trên dữ liệu của họ trong thời gian này.
Phần lớn các CDP sẽ giúp một tổ chức đánh dấu cả ba hộp đó cho một khoản phí giấy phép hàng tháng.
Điều đó bởi vì hầu hết các CDP sẽ sử dụng PII (Thông tin nhận dạng cá nhân) làm tiêu chuẩn. Vì vậy, họ có xu hướng cung cấp cho khách hàng của họ:
  • Khả năng nhập dữ liệu từ nhiều nguồn trong khi sao chép dữ liệu người dùng và phân khúc người tiêu dùng dựa trên tất cả các tương tác của họ với một thương hiệu
  • Công nghệ quản lý và thu thập quyền theo tiêu chuẩn ở bất cứ đâu và tuy nhiên người tiêu dùng tương tác với thương hiệu
  • Hàng trăm tương tác vào hệ sinh thái tiếp thị để đảm bảo rằng khách hàng có thể (gần thời gian thực) tiếp tục liên lạc với người tiêu dùng của họ. khi quyền được cập nhật.
Dữ liệu của 3rd-party (do chôm hay ăn cắp data đâu đó 😉) quá rủi ro và sự trở lại của Dữ liệu của First-party (dữ liệu thu thập trực tiếp từ dịch vụ digital) để giành chiến thắng!

Đã có một phản ứng bổ sung đối với các thương hiệu không chắc chắn về khả năng tương thích với GDPR.
Để tránh bị phạt, chính sách đầu tiên về an toàn của người dùng đã được thực hiện có liên quan đến lệnh cấm sử dụng dữ liệu của bên thứ 3 vì thực tế không thể chứng minh rằng các quyền chính xác tất cả dữ liệu đã được thu thập để sử dụng.
Khó khăn trong việc thu thập quyền mặc dù không phải là vấn đề thương hiệu. Bản thân các nhà cung cấp dữ liệu đã có thể có được nhà riêng của họ theo yêu cầu của Mopub và Verve khi họ rời khỏi châu Âu vì họ không thể thu thập các quyền mà GDPR yêu cầu đối với dữ liệu mà họ đang bán.

Oracle, người luôn tự hào là một trong những nhà cung cấp bên thứ 3 lớn nhất ở châu Âu, đã buộc phải phá hủy thị trường của họ và đóng cửa các dịch vụ từ một số vụ mua lại khá lớn (Add This) sau khi các mối đe dọa kiện họ phát sinh từ việc họ không thể cung cấp quyền cho dữ liệu họ đang bán.

Vì vậy, với dữ liệu của bên thứ 3 được xem là một quả bom hẹn giờ, các thương hiệu và nhà cung cấp đang bị buộc phải lấy thêm giá trị từ dữ liệu của bên thứ nhất .

Điều này chơi trực tiếp vào điểm ngọt CDP, với điều kiện là trọng tâm của họ có xu hướng. về việc nhắn tin cho người dùng đã biết (thông qua dữ liệu PII) thay vì người dùng ẩn danh thường được tìm thấy thông qua nhà cung cấp dữ liệu bên thứ 3.
Các cập nhật về quyền riêng tư từ các trình duyệt chính đã gây ra mối lo ngại về việc cookie sẽ tồn tại trong bao lâu.
Nó không quá nhiều bước nhảy để nói rằng ngành tiếp thị kỹ thuật số được xây dựng trên cookie. 90% nền tảng được sử dụng trong đấu trường dựa vào cookie để thu thập dữ liệu cho mục đích nhắn tin và nhắm mục tiêu.
Do đó, hãy tưởng tượng mối lo ngại đã gây ra khi vào tháng 6 năm 2019, Apple chỉ ra rằng phiên bản tiếp theo của trình duyệt Safari của họ (khoảng 13,5% thị phần) sẽ giới hạn dữ liệu được thu thập từ các cookie của bên thứ 3 này.
Công cụ theo dõi thông minh (ITP) này chỉ cho phép cookie của bên thứ 3 duy trì hoạt động trong 24 giờ sau khi người dùng đã truy cập trang web.
Sau đó, cookie sẽ chỉ được phép cho mục đích đăng nhập (nghĩa là không dành cho tiếp thị) và sau đó sẽ bị xóa hoàn toàn sau ba mươi ngày.
Nói tóm lại, mọi dữ liệu được tạo bởi người tiêu dùng sử dụng Safari sẽ chỉ khả dụng trong 24 giờ.
Điều này sẽ có tác động lớn đến các chiến dịch tiếp thị - ngay cả đối với việc di chuyển nhanh nhất của doanh nghiệp!
Một bản cập nhật cho ITP được phát hành ngay sau đó đã nhắm đến các cookie của bên thứ nhất, hứa hẹn sẽ thanh lọc chúng trong vòng bảy ngày kể từ khi truy cập trang web của người dùng. Như vậy, một loạt các ý tưởng để có được xung quanh giao thức ban đầu sẽ được đưa ra vô dụng như nhau.
Đồng thời, Google tuyên bố rằng họ sẽ phát hành một bộ công cụ bảo mật trong trình duyệt Chrome của họ. Mặc dù các công cụ này không quá mạnh mẽ như lập trường của Apple, nhưng họ lo lắng cho các nhà tiếp thị nhiều hơn do sự thống trị của Chrome trên thị trường trình duyệt (57%).
Do đó, với các thương hiệu có khả năng không thể thu thập / lưu giữ dữ liệu trong bất kỳ thời gian có ý nghĩa nào từ gần ba phần tư vũ trụ trực tuyến, các nhà tiếp thị bắt đầu tìm kiếm một định danh dài hạn và đáng tin cậy hơn so với cookie.
Điều đó đã chơi độc đáo trong tay các nền tảng CDP, vốn có xu hướng gắn dữ liệu người tiêu dùng với các số nhận dạng PII mạnh hơn nhiều như địa chỉ email hoặc ID di động thay vì cookie, bắt đầu trông ngày càng mỏng manh.

DMP 1 đã chết và CDP đang được xem là DMP 2.0
Thay vào đó có thể dự đoán, có một ý nghĩa trong ngành là cần có một cái gì đó mới.
Với những điểm tương đồng giữa DMP và CDP, không có gì đáng ngạc nhiên khi một cái nhìn ngắn gọn qua LinkedIn hoặc các blog công nghiệp sẽ làm nổi bật niềm tin rằng, DMP đã chết, rằng CDP là DMP 2.0, v.v.

Sunday, December 1, 2019

Transforming Customer Experience with Psychology, Marketing Science, Big Data and Machine Learning

1) Case study: Customer Experience (CX) in Retail 4.0
2) Introducing the Customer Experience Theory
3) The architecture of CX Platform
4) Should we build a CX Platform or buy ?




Thursday, November 21, 2019

Data Scientist Glossary

The Basics

Data Science is a multidisciplinary field that combines statistics, computer science and business intelligence to extract meaningful information from data.

ah, the unicorn data scientist

Machine Learning is a method of building computer systems through finding and applying patterns learned from previous observations.
In the context of machine learning, models are mathematical expressions that use a set of parameters (determined through the training process) to generate inference for new observations.
These are all different ways of referring to the variables passed to a model to receive an inference result.
These are all the different ways of referring to the model output.
Parameters whose values are set ahead of the training process. They are distinguished from the other parameters in that they are unaffected by the training data (see below). Example: learning rate.
Data used to develop the model (i.e. determine the model parameters).
Data that is withheld from the model training process, but used to provide an unbiased evaluation of the model for the purpose of hyperparameter tuning.
Data that is withheld from the training and validation process to provide a realistic evaluation of model performance on subsequent observations.

General Concepts

Model deployment is the process of integrating a Machine Learning model with a production environment, usually to make inference available to other business systems.
The series of transformation steps applied to the raw input variables prior to the training phase.
Overfitting is used to describe models that “fit too well” to the training data. These models are bad because they do not generalize very well.
Underfitting is used to describe models that learned too little from the data set, which results in a simplistic understanding of the underlying relationships.


When we have a clearly defined input and output, we can use a supervised learning algorithm (think linear regression, support vector machines) to map the input to the output based on prior observations.
When we have a clearly defined input, but not a clearly defined output, we need to rely on unsupervised learning algorithms (such as clustering) to draw inference from our dataset.
In semi-supervised learning, we have labels for some of our observations. The classic semi-supervised learning approach is to train a model on the labelled data, use this model to infer the remaining missing labels, convert confident predictions to definite labels, retrain the model over the new labels and repeat until all data is labelled.
Regression models explain/predict the relationship between independent variables and a continuous dependent variable. Modeling house prices would be a regression problem.
Classification models explain/predict the relationship between independent variables and a categorical dependent variable. Classifying animals from pictures is a classification problem.
Clustering is a set of unsupervised learning techniques used to group data points based on similarities within each group and dissimilarities between groups.
NLP is the area of machine learning tasks focused on human languages. This includes both the written and spoken language.
Computer vision is the area of machine learning tasks focused on image recognition.
The n-dimensional space constructed by the model features.

Algorithms

a process or set of rules to be followed in calculations or other problem-solving operations, especially by a computer.
- Oxford Dictionary definition
Neural Networks (sometimes also referred to as Artificial Neural Networks) are a class of machine learning models meant to resemble the 🧠.
Recurrent Neural Network/RNN: RNNs are a subclass of neural networks typically used to process sequential data.
Convolutional Neural Network/CNN: CNNs are a subclass of neural networks typically used to process spatial data such as images.
Deep Learning is the area of machine learning that uses multi-layer neural networks.
Linear Regression is used to model a linear relationship between a continuous, scalar response variable and at least one explanatory variable. Linear Regression can be used for predicting monetary valuations amongst other use cases.

source: Wikipedia

Logistic Regression is used to model a probabilistic relationship between a binary response variable and at least one explanatory variable. The output of the Logistic Regression model is the log odds, which can be transformed to obtain the probability. Logistic Regression can be used to predict the likelihood of churn amongst other use cases.

source: Wikipedia

Support Vector Machine is a binary classifier used to find the optimal hyperplane to separate the two classes in the feature space. New observations are classified based on which side of the hyperplane they fall under.
A decision tree separates the feature space into distinct subsets. New observations are classified based on the subset they fall under.

source: Wikipedia

Ensemble Modeling is the process of aggregating multiple models to make a single prediction. The key behind successful ensembling is to pick diverse models that uses very different algorithms. There are several ways of choosing the prediction using multiple models, the simplest being:
  • take the most commonly predicted value
  • average/weigh the scores from each model and predict the outcome from the aggregated score

Tools for Model Development

GitHub is a web platform used for software development. It offers version control and other collaborative features such as task management and code reviews.
Dockers are used to deploy applications, including machine learning models.

Python Libraries

Without a doubt, Python is the most popular programming language for Data Scientists.
NumPy is a numerical computation library used to structure and manipulate data. It is a building block for many other open source Data Science libraries.
pandas makes it easy to read, export and work with relational data. The core pandas data structure (dataframes) organizes data into a table format that makes it easy to perform indexing, filtering, aggregating and grouping operations.
sklearn is a comprehensive library used for data analysis, feature engineering and for developing machine learning models.
TensorFlow is a machine learning framework developed by the Google Brain team. The primary use of TensorFlow is for developing and productionizing deep learning models.
Keras is a deep learning library written in Python. It is a high level API that can be used on top of several deep learning frameworks, including TensorFlow.
PyTorch is a machine learning library developed by the Facebook Artificial Intelligence Research group. It is also primarily used for developing deep learning models.

Metrics

These are some commonly used metrics for assessing model performance. When communicating model performance, we need to specify which dataset we obtained these metrics from in addition to the metrics themselves. A training accuracy of 95% is not the same as a testing accuracy of 95%!
We are usually more interested in the presence of one class than the other. For example, we are more concerned if a client is “fraudulent” than if they are not fraudulent. Let’s persist this example when defining the following terms.
False Positive/Type 1 Error (FP): this is an observation we misclassified as being our class of interest (example: a non-fraudulent client misclassified as fraudulent).
False Negative/Type 2 Error (FN): this is an observation we misclassified as not being our class of interest (example: a fraudulent client misclassified as non-fraudulent).
True Positive (TP): this is a fraudulent client that we correctly classified
True Negative (TN): this is a non-fraudulent client that we correctly classified
Precision: precision is calculated as TP/(TP+FP) where TP is the number of true positives and FP is the number of false positives
Recall: recall is calculated as TP/(TP + FN) where TP is the number of true positives and FN is the number of false negatives
F1-Score: as we can see above, optimizing for precision means reducing the number of false positives while optimizing for recall means reducing the number of false negatives. We use F1-score to combine these metrics. F1-score is calculated as 2 * (precision * recall) / (precision + recall)
Confusion Matrix: the confusion matrix is a visual representation of TP, FP, FN, TN.

Confusion Matrix as shown on Wikipedia

Most metrics used for binary classification can be used to assess the performance of each class in the multi-class scenario. If we had 3 classes, we would derive 3 precision scores. For each precision score, the TP would be the number of correct predictions we made for that class and FP would be the number of times we misclassified one of the other 2 classes as that class.
The confusion matrix can also be generalized as an matrix where n is the number of classes. The cell with row and column represents the number of class predicted to be class j.

Confusion Matrix Visualization from one of my other articles

Accuracy: the % of correct predictions. This is a good representation of model performance when class sizes are fairly balanced.
Mean Squared Error (MSE): Mean Squared Error averages the square of the difference between the actual and predicted values. This is one of the most common metrics used to evaluate regression models.
Root Mean Squared Error (RMSE): RMSE is the square root of MSE. MSE is usually selected in favor of RMSE because it is easier to work with (one less operation).
Mean Absolute Error (MAE): MAE is the average of the absolute difference between the actual and predicted values.
R-squared/Coefficient of Determination: R-squared is a statistical measure of the % of variance found in the data that can be “explained” by the model.
Adjusted R-squared: Adjusted R-squared adjusts R-squared by penalizing the number of parameters.

Thursday, October 31, 2019

Customer Data Platform for Data-driven Business and LTV/CAC Ratio






What is the LTV/CAC Ratio?

LTV stands for “lifetime value” per customer and CAC stand for “customer acquisition cost”.  The LTV/CAC ratio compares the value of a customer over their lifetime, compared to the cost of acquiring them.
This eCommerce metric compares the value of a new customer over its lifetime relative to the cost of acquiring that customer.
If the LTV/CAC ratio is less than 1.0 the company is destroying value, if the ratio is greater than 1.0 it may be creating value, but more analysis is required. Generally speaking, a ratio greater than 3.0 is considered “good” but that’s not necessarily the case.

What is the LTV/CAC ratio formula?

Below is the lifetime value to customer acquisition cost formula:
[(revenue per customer – direct expenses per customer) / (1 – customer retention rate)] /
(# of customers acquired / direct marketing spending)

Example calculation

An eCommerce company spends $10,000 on a Google AdWords campaign and acquires 1,000 new customers.  The average revenue per customer is $50 and the direct costs of filling each order are $30.  The company retains 75% of its customers per year.
  • Customer contribution margin = $50 – $30 = $20
  • LTV = $20 / (1 – 75%) = $80
  • CAC = $10,000 / 1,000 = $10
  • LTV/CAC ratio = $80 / $10 = 8.0x

Monday, October 7, 2019

Làm sao tối ưu mô hình lợi nhuận (Profit Model) với Customer Data Platform


  1. Tối ưu độ liên quan giữa điểm tiếp xúc truyền thông (media touchpoints) dùng phương pháp cá nhân hoá từ dữ liệu các chiến dịch A/B testing. 
  2. Trải nghiệm người dùng được tạo ra dữ liệu tiếp xúc ở thế giới thực (từ 5 giác quan) và chiều không gian thứ 6 là ý thức hay tâm trí của khách hàng, nó liền mạch như 1 câu chuyện (dùng Video TVC) nên bạn cần thiết kế trải nghiệm sản phẩm xoay quanh câu chuyện có cảm xúc để khiến họ ghi nhớ.
  3. Bạn dự đoán trạng thái cảm xúc khách hàng (tích cực, tiêu cực) từ dữ liệu phản hồi (feedback, comments)
  4. Tối ưu CLV thông qua các chương trình tích điểm, khuyến mãi giảm giá theo mùa, trợ giá tiêu dùng, các dịch vụ giá trị gia tăng cộng thêm (add-on services), cross-sell, up-sell.
  5. Phân tích dữ liệu về chi phí quảng cáo , truyền thông để tối ưu ngân sách marketing . 
Khi tối ưu giá được 3 thuộc tính từ bên trong tâm trí khách hàng (sự cá nhân hoá, trải nghiệm và sự trung thành), lúc này một khách hàng sẽ trở thành fan ruột về mặt giá trị thương hiệu branding. Với thời social media phát triển hiện nay, tính lan tỏa trong cộng đồng theo mạng lưới là theo cấp số nhân.

Video thuyết trình  ở Barcamp 2019