Sunday, December 29, 2013

Luớt web 1 vòng, học 1 sàn tin: từ MicroAd Vietnam đến ý tuởng về App cho tin tức

MicroAds  là 1 platform quảng cáo của Nhật (có phòng R&D chuyên về display ads ở Japan ) có real-time bidding và bắt đầu chú ý đến thi truờng Vietnam

Circa ( ) là startup , có lẽ sẽ có đột phá trong 2014 ở lĩnh vực mobile cho news bằng cách mang tính trải nghiệm (UX) tốt cho nguời dùng mobile. 

Tech Stack:
  • scalable services, from web indexing and visualization to an API for the real-time delivery of content and metadata
  • conceptualizing and creating intuitive, engaging, and brand-consistent mobile experiences

Sunday, December 22, 2013

What's wrong with big data ?

it's too big 
  1. to do
  2. to understand
  3. to make core value
Solution: divide and conquer

it's hard to do ? no, it's easier day by day

Not easy to understand ? No , follow 4 steps: 
  1. Looking what data you have ?
  2. See data in different way
  3. Imagine what you want to see
  4. Show data in simple graph that anyone can understand 

From data to core value ?

ARMONK, N.Y. - 17 Dec 2013: Today IBM (NYSE: IBM) unveiled the eighth annual  "IBM 5 in 5" (#ibm5in5) – a list of innovations that have the potential to change the way people work, live and interact during the next five years.
This year’s IBM 5 in 5 explores the idea that everything will learn – driven by a new era of cognitive systems where machines will learn, reason and engage with us in a more natural and personalized way. These innovations are beginning to emerge enabled by cloud computingbig data analytics and learning technologies all coming together, with the appropriate privacy and security considerations, for consumers, citizens, students and patients.

Hadoop is not final Big Data Solution ?


Wednesday, December 18, 2013

Ideas for STAK - the framework for real-time reactive analytics

You or someone on your team is suggesting a change that just might work. But why act on a hunch when you can hold out for evidence? According to the author, the best way to support decision making on potential innovations is to...
  • Design an experiment.
Start with a hypothesis about how the change will help the business. If it’s a good one, you’ll learn as much by disproving it as you would by proving it. Put it to the test by measuring what happens in a test group versus a control group. From the outset, be clear on what you need to measure to produce a decisive result—and whether that’s a metric you even have the capability to track.
  • Act on the facts.
Nothing but a success in a testing environment should be rolled out more broadly. But neither should failures simply be scrapped. Refine the hypothesis on the basis of the results, and consider testing a variation. Most important, capture what’s been learned, and make it available to others in the organization through a “learning library,” so resources aren’t wasted proving the same thing again.
Example: Marketers at the Subway restaurant chain wanted to drum up business by putting foot-long subs on sale for only $5, but franchise owners worried that the promotion would lure existing customers away from higher-priced menu items. An experiment pitting test sites against control sites proved that the promotion would pay off—which it subsequently did.
  • Make testing the norm.
Create the training and infrastructure that will enable nonexperts in statistics to oversee rigorous experiments. Off-the-shelf software can walk them through the steps and help them analyze results. A core group of experts can lend resources and expertise and maintain the learning library. Leadership must cultivate a test-and-learn culture, in part by penalizing those who act without sufficient evidence.
As your managers become more comfortable with testing, they’ll discover that it paves the way for, rather than throwing up barriers to, promising new ideas.
New framework for Stage 5: autonomous analytics 
Autonomous Actor + Data Pipeline + In-memory + Reactive + Functor + Deep Learning 

Predictive Analytics using Storm, Hadoop, R and AWS

This presentation gives a quick refresher on Storm concepts, however most of the time will be spent discussing a recent project where Storm was a critical part of implementing a predictive analytics use case for an actual customer

This talk provides an overview of the open source Storm system for processing Big Data in realtime. The talk starts with an overview of the technology, including key components: Nimbus, Zookeeper, Topology, Tuple, Trident. The presentation then dives into the complex Big Data architecture in which Storm can be integrated. The result is a compelling stack of technologies including integrated Hadoop clusters, MPP, and NoSQL databases.

Tuesday, December 17, 2013

PALANTIR BIG DATA TECHNOLOGIES - từ quỷ dữ đến thiên thần ?

Là quỷ dữ ?
Trong loạt công ty bị phanh phui dính vào scandal nghe trộm mà tờ Washington Post (7/6/2013) liệt kê (Microsoft, Yahoo, Google, Facebook, PalTalk, AOL, Skype...), người ta không thấy tên hãng phần mềm Palantir. Tuy nhiên, ít người biết rằng, Palantir Technologies vài năm gần đây là một trong những "cánh cửa sau" đóng vai trò quan trọng đặc biệt đối với cộng đồng tình báo Mỹ trong cuộc chiến chống khủng bố nói riêng và rình rập nghe trộm nói chung...

Peter Thiel - người sáng lập Palantir Technologies
Là thiên thần ?
How we’re building an information infrastructure for Typhoon Haiyan response operations
Typhoon Haiyan has claimed the lives of thousands and displaced millions more. Along with other aid organizations from around the world, our disaster response partners Team Rubicon and Direct Relief have mobilized to provide relief to those affected by the storm, and we’ve been working closely with them to support their efforts.

We’ve been hacking away furiously all week to support these efforts. Here’s an update of what we’re already doing and what we have planned.
The Raven interface with data from Tacloban
Raven with live data from Tacloban.

Nhìn Job để biết Palartir vận hành như thế nào

Tuesday, December 10, 2013

Open resources for active news app and Dashboard

Resources for implementation (active news app) - new tool bigdata processing (unify Kafka + Hadoop HDFS) - Machine Learning for developers - setup Android dev on ubuntu - pushed news - fuzzy database - tracking service - demo for using Kafka as Scalable PubSub Messaging

 UI/UX for Log Dashboard - google style gauges using d3.js - Small Multiples for table of KPI Metrics monitor - Visualize how many we have/how many we used - error log filter - Visualize Browser (KPI with less 20 members) - Visualize time and heatmap

UI/UX Pattern for Mobile - a curated library of iPhone and iPad user interface patterns

Case Studies:

Think more:

Wednesday, December 4, 2013

Làm sao các thông tin có ích (news, musics, movies,...) chủ động đến với 1 nguời cần nó ?

Kết quả ban đầu khi đáng từ film để tìm các từ liên quan (unsupervised training ):
Enter word or sentence (EXIT to break): movie
 Word       Cosine distance
                                              film 0.726205
                                            movies 0.724130
                                             films 0.704162
                                            remake 0.646792
                                            batman 0.640161
                                    blaxploitation 0.629710
                                            gojira 0.620710
                                          animated 0.615535
                                           cartoon 0.611009
                                              toho 0.606068
                                        highlander 0.605127
                                             kaiju 0.604210
                                          godzilla 0.596378
                                          starring 0.592826
                                        soundtrack 0.58806

trờ về quá khứ tí, cách đây 6 năm, vào những năm 2007, bị ám ảnh bởi mô tả về cách các hàm vận động (functor) giữa các hệ thống do thầy Peter (,  thầy huớng dẫn của mình đề cập.
Thực tế đến giờ thắc mắc vì khá trừu tuợng. Lập ra cái blog để viết ra cho nó hại não tí.

Cùng thời gian này, 1 số các open source về big data (cụ thể là Hadoop - Map Reduce) bắt đầu hình thành sau khi Google publish cái paper này

Tóm lại, thông tin ở dạng phi cấu trúc dạng text/photo (non-structure) thì rất nhiều và đa dạng. Sự phổ biến của social media và mobile apps làm nó số luợng tăng rất nhanh.
Lịch sử đã nói rằng, có cầu thì sẽ có cung. Sự ra đời của các framework về big data , text analysis để giải quyết các vần đề trên là tất yếu.

Hôm nay, đọc vài bài về deep learning

Nếu cho có robot  crawler đi index các thông tin trên facebook thì sao ?

Xem bài post này sẽ rõ, ít nhất mình đã nghĩ ra từ năm 2011 

Why Mobile Ads Don’t Work and how to fix !

Tiếp theo của bài

Why Mobile Ads Don’t Work ?

Display ads function well in print and on desktop computers. But there’s a growing consensus that they just don’t work on mobile devices. Here are three reasons why:

People Don’t Like Them
Surveys show that people find mobile ads more intrusive than desktop ads, because mobile is a more private venue. In fact, fully four in five say that mobile ads are “unacceptable.”

There’s No Right Side
PC users are conditioned to find ads in the right margin of the screen—they appear that way on Facebook and in Google search results, for example. But mobile screens are too small to have a usable right margin, so ads pop up in unexpected places.

The “Fat Finger” Effect
Advertisers closely track how many users tap on an ad. But many of those taps are inadvertent, because the ads are tiny—so it’s difficult to judge an ad’s effectiveness.

Strategies for mobile ads:

  1. Add convenience
  2. Offer unique value
  3. Provide social value
  4. Beneficial information 
  5. Right products for right people at right place, right time and right demands


Tuesday, December 3, 2013

Lợi và hại và ý tuởng khi quảng cáo các ứng dụng smartphone (mobile ads)

1 tí khái niệm từ iAB
Location Based Advertising (LBA)

Nói về những cái hại  truớc:

Apple là 1 họa sỹ, và khá ghét các quảng cáo (đơn giản vì các quảng cáo chú trọng vào tiền bạc hơn là khả năng  usable & usability đối với nguời dùng)
Apple không duyệt các app có thu thập dữ liệu hành vi, thuộc loại dành cho trẻ con dưới 13 tuổi, app sẽ bị disapproved khi submit.

Nếu ads không có "beneficial information." , app sẽ bị cấm cửa trên app store. Khả năng bị thu thập thông tin về vị trí là 1 điều nhạy cảm, không ai thích bị theo dõi. 
Privacy, privacy, and privacy !

2 bài này nói về các lợi ích chung, tổng quát:
Location Targeting: Perception And Reality
Is location-based advertising right for you?

Đứng trên quan điểm của 1 user, Location Based Advertising sẽ cho thấy các ích lợi như:

  • Nguời sẽ đuợc nhận thông tin về 1 thông tin quảng cáo (giảm giá, khuyến mãi, sale off, ...) theo real-time (như sms) theo đúng vùng targeting (location).
  • Nếu cách trình bày tốt, 1 banner đẹp vài đúng thời gian+địa điểm sẽ là 1 thông điệp vô cùng giá trị (không phải vô cảm / phiền hà như SMS) 

Ý tuởng gia tăng lợi ích của LBA:

  • Mang thông điệp hay, đúng thời gian và địa điểm.
  • Gia tăng tính usability đối với user

Xây dựng 1 browser chỉ dành để hiển thị quảng cáo ?

Saturday, November 30, 2013

What you need to know about Lambdas

From FPT Technology Roadmap to setup a data science team

Here the roadmap and the core value:

Core skills for  a data engineering and science team 

  • Frontend Javascript Developer (AngularJS)
    • deep expertise in the latest web technologies.
    • Frontend Dev Buzzword Compliance: HTML5, CSS3/SASS, Bootstrap, AngularJS …
    • strong experience with AngularJS and the surrounding toolchain (Yeoman, Grunt, etc.).
    • a focus on simplicity and great UX.
    • high interest in data visualization with d3.js.
    • the desire to quickly learn and adapt the latest evolutions of frontend web technology.
    • no fear to work with node.js/PostgreSQL/redis based backends.
  • Frontend Web/Mobile Developer (HTML5 / Android / iOS )
  • Backend System Software Engineer
    • Big Data Buzzword Compliance: MapReduce, Hadoop, Hive, Solr/Lucene …
    • processes and analyzes massive amounts of data at minimum computing time.
    • is working at the cutting edge of Big Data and real-time technologies.
    • A background in online advertising technology (adserving, RTB).
  • Data Scientist / Statisticians 
    • an academic degree in a quantitative field, e.g. Mathematics, Statistics, Computer Science, Physics, etc.
    • the desire to quickly learn and adapt new technologies.
    • an analytical mind with a hands-on attitude.
    • substantial knowledge in at least one major programming language (preferably Python and/or C++,  Java).
    • a solid understanding of statistics and machine learning techniques.

Friday, November 29, 2013

Streaming Native Advertising

Actor (agent programming ) can be used to processing large big data in stream (manually or automatically) in real-time

Native advertising is a web advertising method in which the advertiser attempts to gain attention by providing content in the context of the user's experience. (

Tuesday, November 26, 2013

Simple but readable book for beginner in Qualitative Data Analysis

Qualitative Data Analysis shows that learning how to analyse qualitative data by computer can be fun. Written in a stimulating style, with examples drawn mainly from every day life and contemporary humour, it should appeal to a wide audience.

Analytics for small business

Đây là bài blog ngắn, mô tả về các tiềm năng & ứng dụng lĩnh vực phân tích dữ liệu dạng stream (từ vài KB logs đến vài TB logs ) cho  small business ở Vietnam.
Sau khi làm slide và present ở Barcamp Saigon, mình có nhận vài feedback quan tâm (hỏi làm quen có, offer công việc fulltime cũng có, dự án freelance cũng có,…).
Điều này cho thấy những tiềm năng: về mặt ứng dụng, nhận thức về lợi ích thật của việc biến những data logs vô dụng thành 1 sản phẩm có ích. Nó có ích trên nhiều điểm:
  • thấy được xu hướng và feedback xung quanh sản phẩm bạn bán cho khách hàng ( 1 sự kết hợp giữa team technical , business và operation )
  • xác định được khách hàng tiềm năng (có khả năng bán được hàng cao ROI - Return on Investment) (CRM 1 cách thông minh)
  • liên kết các dữ liệu từ nhiều nguồn, => đưa ra quyết định xác với thực tế hơn, khả năng thành công cao hơn (report được nhiều KPI )
  • thấy được các rủi ro  tiềm ẩn , fraud detection (monitor các giao dịch e-commerce bất thường, gian lận trong Games , ...)
  • targeting các chiến dịch marketing, nghiên cứu thị trường ở mức độ lớn
Trong giới hạn của 1 bài viết, mình chỉ trình bày gắn gọn, yếu tố cần quan tâm nhất là tính real-time , triển khai không quá phức tạp, không tốn quá nhiều chi phí (tận dụng open source projects & tools).
Các công ty/cửa hàng mình đã làm / biết đang có nhu cầu lớn về lĩnh vực này:
1) PhongCachMobile  (Mobile Data Analytics trên 1 app shop cài sẵn ). Đây là 1 project freelance ý tưởng lúc tham gia hackathon ideas
2) (???  chưa biết rõ nhưng có hỏi lúc present ở Barcamp Saigon 2013)
ý tưởng từ 1 bài viết ở nytimes Attention, Shoppers: Store Is Tracking Your Cell
Like dozens of other brick-and-mortar retailers, Nordstrom wanted to learn more about its customers — how many came through the doors, how many were repeat visitors — the kind of information that e-commerce sites like Amazon have in spades. So last fall the company started testing new technology that allowed it to track customers’ movements by following the Wi-Fi signals from their smartphones.
Dủng Stream computing (xe, mật độ giao thông, dữ liệu từ các cảm biến, …) +  Analytics =automatic real-time traffic monitoring (giảm tối thiếu thời gian lúc có 1 vụ kẹt xe và hiển thị trên biển thông báo ?)
Chưa biết ở FIS họ implement như thế nào, đi google được vài thông tin có ích
4) GNT Vietnam (Game Analytic, Game Recommendation Engine, In-App Automation marketing )
Đây là 1 cty tham vọng, với những ý tưởng dùng phân tích học (Analytics) để cạnh tranh thông minh hơn trong 1 thị trường khó tính Mobile Game ở Nhật và toàn cầu.
Google 1 tí có cái slide hay:
Những cuốn sách hay để tham khảo
How does predicting human behavior combat risk, fortify healthcare, toughen crime fighting, and boost sales?

Real-time Reactive Analytics for the World

Screenshot from 2013-11-13 22:58:13
How we can model the small world phenomenon via the use of actors and events? 
Actors vistit certain events and are connected through other actors through the events. In the step/fold process, we develop a network of only actors (where before there was an affiliation network of actors and events) to see whether it is a small world network.
Real-time stream processing architecture with Reactive Actor Model

Philosophy design :
 event-driven, scalable, resilient and responsive ( )
Open Source Links:
Reference URLs:

Benchmark Test for Parallel Processing with Actor Model (with Akka framework)


  • Distributed messages through all processing phases, each phase has a event-handler pool (pre-allocated size).
  • The message, receiving at first phase, would go through all phases in defined flow (a directed graph – aka: topology ).
  • Support: Statistics (likes counting, average, sum, …) and publishing new event (when matching a specific rule)

Result Test (1 second could process 6000 messages)

“TestActor-SIZE-100000″ “TestActor processed 100000 messages, done in (milisecs):18450
“TestActor-SIZE-200000″ “TestActor processed 200000 messages, done in (milisecs):28214
“TestActor-SIZE-500000″ “TestActor processed 500000 messages, done in (milisecs):81132, average 1 milisecs could process 6″
Memory Statistics: test with 500000 messages

Memory Statistics: test with 500000 messages