Friday, August 15, 2025

Customer Segmentation với AI Agent như thế nào ?


Sau đây là 4 trường phái khác nhau, nhưng có thể hoạt động độc lập hoặc kết hợp trong một Segmentation Orchestration Pipeline. Mình sẽ trình bày theo mục tiêu, input, output, core logic, AI/ML model, và workflow cho từng agent.


1) Persona Segmentation theo Ideal Customer Profile (ICP) sử dụng Vector Space

Mục tiêu Xác định khách hàng thuộc nhóm “khách hàng lý tưởng” dựa trên ngữ nghĩavector embeddings từ hồ sơ khách hàng.

Input

  • Thông tin profile: ngành, chức vụ, hành vi, sở thích, sản phẩm đã mua, v.v.
  • Bộ định nghĩa ICP (Ideal Customer Profile) → được encode thành vector.

Output

  • Nhãn persona (ví dụ: “Tech-Savvy Executive”, “Budget-Conscious Traveler”).
  • Điểm tương đồng cosine giữa profile và ICP.

Core Logic

  • Encode hồ sơ khách hàng bằng sentence-transformer hoặc multilingual-e5.
  • Encode ICPs thành vector.
  • Tính cosine similarity → phân nhóm dựa trên ngưỡng hoặc nearest centroid.

Model/Tech

  • Embedding model: intfloat/multilingual-e5-base (pgvector trong PostgreSQL 16).
  • Clustering: KMeans, HDBSCAN hoặc nearest neighbor search.

Workflow

Profile Data → Vector Encoding → Similarity Search → Assign Persona

2) Lead Scoring Segmentation

Mục tiêu Đánh giá mức độ tiềm năng của lead để ưu tiên chăm sóc.

Input

  • Hành vi tương tác: click, download, đăng ký form, mở email.
  • Dữ liệu nhân khẩu học & công ty học (firmographic).

Output

  • Điểm lead (0–100).
  • Nhóm phân loại: Hot, Warm, Cold.

Core Logic

  • Logistic regression hoặc XGBoost để dự đoán xác suất lead trở thành khách hàng.
  • Mapping xác suất → thang điểm 100.
  • Áp dụng business rules (ví dụ: job title + hoạt động gần đây).

Model/Tech

  • Scikit-learn/XGBoost
  • PostgreSQL + ML model deployment (PGML hoặc MLflow).

Workflow

Behavioral Data + Profile Data → Feature Engineering → ML Scoring → Segment

3) CLV (Customer Lifetime Value) Scoring Segmentation

Mục tiêu Phân nhóm khách hàng theo giá trị dự đoán mà họ sẽ mang lại trong suốt vòng đời.

Input

  • Lịch sử mua hàng: tần suất, giá trị đơn hàng, thời gian mua.
  • Thông tin hành vi và profile.

Output

  • CLV dự đoán.
  • Nhóm phân loại: High Value, Medium Value, Low Value.

Core Logic

  • Mô hình dự đoán: Pareto/NBD + Gamma-Gamma hoặc Gradient Boosting Regressor.
  • Tính CLV = (Average Order Value × Purchase Frequency × Predicted Retention Time).

Model/Tech

  • lifetimes Python package
  • XGBoost Regressor.

Workflow

Transaction Data → CLV Model → Predict Value → Segment

4) RFM (Recency, Frequency, Monetary) Segmentation

Mục tiêu Phân nhóm khách hàng dựa trên độ mới mua hàng, tần suất, và giá trị chi tiêu.

Input

  • Dữ liệu giao dịch: ngày mua cuối, số lần mua, tổng chi tiêu.

Output

  • RFM score (ví dụ: 5-3-4).
  • Nhóm: Champions, Loyal, At Risk, Hibernating…

Core Logic

  • Chuẩn hóa Recency, Frequency, Monetary thành thang 1–5.
  • Ghép điểm → phân nhóm theo bảng mapping.

Model/Tech

  • SQL window functions hoặc Python pandas.

Workflow

Transaction Data → Calculate R/F/M Scores → Assign Segment