Là giám đốc công nghệ (CTO) của công ty khai thác dữ liệu hàng đầu như MoMo, ông Thái Trí Hùng nhấn mạnh rằng có những tư duy về dữ liệu thoạt nghe thì rất hợp lý nhưng khi triển khai lại hoàn toàn không đúng.

1-Ông Thái Trí Hùng - CTO MoMo chia sẻ tại Diễn đàn Thúc đẩy Tiến trình Chuyển đổi số Quốc gia
Ông Thái Trí Hùng - CTO MoMo. Ảnh: Ngô Hà

Dữ liệu được dùng để giải những bài toán nào?

Ông Thái Trí Hùng vừa có bài tham luận “Tư duy dữ liệu trong xây dựng giải pháp” tại Diễn đàn Thúc đẩy tiến trình Chuyển đổi số Quốc gia 2023 sáng 5/7.

Theo ông, không khó để nhận ra tất cả các công ty tăng trưởng nhanh nhất trên thế giới đều dựa vào dữ liệu và xem dữ liệu là tài sản chính yếu.

Trong tiến trình chuyển đổi số, rất nhiều doanh nghiệp tập trung vào dữ liệu với kỳ vọng chúng sẽ giúp cho hoạt động vận hành và kinh doanh của mình hiệu quả hơn. Tuy nhiên, cũng như các công nghệ khác, những công cụ dữ liệu chỉ phù hợp với một số bài toán nhất định, ông Hùng nhận định.

Chẳng hạn, với những bài toán quá phức tạp như dùng AI để đầu tư thị trường chứng khoán thì dù có dữ liệu khổng lồ cũng không thể đưa ra được các giải pháp đủ tốt.

Theo ông, có ba tiêu chí của bài toán mà khi đó việc áp dụng dữ liệu có thể đem lại hiệu quả: Thứ nhất, bài toán áp dụng cho tập khách hàng đủ lớn và phổ dụng. Thứ hai, có số lượng điểm chạm giữa khách và thương hiệu/sản phẩm nhiều và trên từng điểm chạm đều có thể thu thập dữ liệu một cách dễ dàng và chính xác. Và thứ ba, kết quả có thể kiểm chứng được bằng dữ liệu.

Bánh xe dữ liệu “lý tưởng” và những điều chưa được tiết lộ

Mặc dù việc khai thác và sử dụng dữ liệu rất quan trọng nhưng ông Thái Trí Hùng cho rằng để sử dụng tốt dữ liệu thì phải luôn tỉnh táo, hiểu rằng dữ liệu cung cấp nhiều manh mối nhưng không phải cái nào cũng chính xác. Để thành công trong việc dùng dữ liệu, phải luôn đặt câu hỏi và nghi ngờ tất cả những dữ liệu chúng ta có.

Ông Hùng phác họa về một mô hình mà nhiều người cho là lý tưởng hay mô hình “Bánh xe dữ liệu”: Đầu tiên, người ta có dữ liệu; từ dữ liệu, họ sẽ phân tích tốt hơn, nhờ đó sẽ tạo ra sản phẩm tốt hơn và có thêm người dùng mới; và từ người dùng mới lại có thêm dữ liệu. Trên lý thuyết, bánh xe này càng quay nhanh thì công ty sẽ càng thành công.

Có rất nhiều người tin vào sức mạnh của dữ liệu. Trong cuốn sách Homo Sapiens (Lược sử loài người), tác giả Harari cũng đề cập một tôn giáo mới gọi là Dữ liệu giáo (Dataism) - hàm ý mọi hoạt động trên trái đất này đều được thúc đẩy để tạo ra càng ngày càng nhiều dữ liệu hơn.

“Tuy nhiên, mô hình “Bánh xe dữ liệu” chỉ có tác dụng khi quay và chạy liên tục. Đa số chúng ta ở đây cũng triển khai mô hình này và [chúng] quay được một lúc rồi hết động lực và không quay nữa. Tại sao lại như vậy? Mô hình thoạt nghe có vẻ rất lý tưởng, nhưng khi áp dụng vào thực tế thì chúng không còn lý tưởng nữa, và việc có nhiều dữ liệu không đồng nghĩa là kết quả sẽ đúng”, ông Hùng nói.
Những vấn đề thách thức khi phát triển dữ liệu. Nguồn: CTO/MoMo
Những vấn đề thách thức khi phát triển dữ liệu. Nguồn: CTO/MoMo

Nguyên do là, doanh nghiệp phải đối mặt với nhiều trở ngại về vận hành khi dữ liệu ngày một lớn. Đầu tiên, có phải cứ thêm dữ liệu là tốt hơn? Thực ra không phải, CTO của MoMo nói. Cách đây mười mấy năm thì SAP, Microsoft, Oracle,… bắt đầu nói về Data warehouse (Kho dữ liệu). 5 năm trở lại đây, khi nền tảng cloud nổi lên thì mọi người bắt đầu nói về chuyện Data lake (Hồ dữ liệu).

Ý tưởng chung là chúng ta càng có nhiều dữ liệu thì chúng ta cứ đổ vào đó. Và đến một lúc thì từ đống dữ liệu đó, chúng ta sẽ trích ra được một số thông tin quan trọng để đưa ra các hoạt động kinh doanh của mình. Tuy nhiên, giới CTO đùa rằng không có “Data Lake” nào cả, mà chỉ có các “Data Swamp” - một đầm lầy dữ liệu - trong đó dữ liệu tốt và dữ liệu xấu lẫn lộn vào nhau. Nước từ đầm lầy đó không có khả năng uống được.

Các công ty muốn phát triển dữ liệu thường khó hình dung trước mức độ phức tạp của dữ liệu, do vậy các dự án về “Data Lake” dễ dàng bị biến thành “Data Swamp.”

Tương tự, chúng ta nói rằng có thêm dữ liệu thì phân tích sẽ tốt hơn. Thực tế, nó phụ thuộc rất nhiều vào khả năng của con người. Không phải kết luận nào từ dữ liệu cũng đúng và có được sự đồng thuận cao. Có những kết luận chỉ thuần túy “mang ý nghĩa thống kê” và không thể xác minh được chúng có chính xác hay không.

Thường thì manh mối mà dữ liệu đưa ra nhiều khi rất mập mờ và dễ bị thiên kiến. Tức là các nhà khoa học dữ liệu có xu hướng tìm kiếm dữ liệu để chứng minh cho các giả định của họ.

Theo ông Hùng, khi đọc những báo cáo kết luận được rút ra từ việc phân tích dữ liệu, câu hỏi đầu tiên mà người lãnh đạo nên đặt ra là “Tại sao điều ngược lại không đúng”. Ông cho rằng con người cần có tư duy phản biện rất lớn để đối mặt với việc sử dụng dữ liệu để đưa ra quyết định.

Một điểm khiến “Bánh xe dữ liệu” thường chạy một lúc rồi dừng có thể nằm ở phía lãnh đạo doanh nghiệp, tổ chức. Nếu những nhà quản lý cấp cao không có niềm tin vào kết quả mà dữ liệu đưa ra thì sẽ để nó qua một bên và thấy là có dùng dữ liệu hay không thì cũng không khác biệt lắm, trong khi đầu tư vào dữ liệu lại quá tốn kém. Từ từ họ cắt nguồn năng lượng và bánh xe dừng lại.

Ngược lại, nhu cầu tăng tốc vòng quay dữ liệu sẽ đòi hỏi nhiều nhân sự hơn, trong khi số lượng nhân sự trong lĩnh vực này lại cực kì khan hiếm. Đó là chưa kể, sau khi có một chút thành công, những người xây dựng hệ thống dữ liệu dễ bị các công ty khác "săn" về, do đó doanh nghiệp lại mất đi những nhân sự quan trọng.

"Bánh xe dữ liệu" đòi hỏi phải lắp thêm người vào liên tục trong suốt cả vòng đời của doanh nghiệp, nếu chúng ta muốn tiếp tục sử dụng dữ liệu. Nếu doanh nghiệp không có những chiến lược tốt về nhân sự ngay từ đầu thì dần dần, khoảng cách giữa những người xây dựng giải pháp và những người vận hành giải pháp sẽ càng lớn. Hệ quả là hệ thống dữ liệu đó nhanh chóng bị lạc hậu so với yêu cầu từ hoạt động kinh doanh.

Cuối cùng, việc sử dụng dữ liệu để phát triển sản phẩm mất nhiều thời gian hơn thông thường. Ông Hùng chỉ ra một kinh nghiệm xương máu của MoMo khi sử dụng dữ liệu làm sản phẩm có thể mất thời gian lâu gấp 3-4 lần so với quy trình thông thường.

“Chúng tôi mất 2 tuần để xây dựng sản phẩm, mất 2 tuần nữa để thu thập dữ liệu, mất 2 tuần nữa để đúc rút được gì đó dựa trên dữ liệu. Và chúng tôi bắt đầu xem lại dữ liệu đã thu thập liệu có đúng không, liệu các bước làm từ khâu xử lý dữ liệu thô đến lúc ra quyết định có gì sai không? Vòng này cứ lặp đi lặp lại tới 3-4 lần."

"DNA của MoMo là phải nhanh, nhưng đến lúc đưa dữ liệu vào thì thấy không còn nhanh nữa, và tự nhiên làm cho cách mình suy nghĩ về dữ liệu cũng khác đi,” ông Hùng nói.

Data First, Data Last và các chiến lược dữ liệu khác

Có nhiều chiến lược để khai thác dữ liệu phục vụ doanh nghiệp.

Trong đó, theo lãnh đạo công nghệ của MoMo, tiếp cận Data First (ưu tiên dữ liệu) có thể hiểu là chúng ta sẽ thiết kế sản phẩm hướng đến việc tạo ra nhiều dữ liệu có chất lượng nhất trên từng điểm chạm, chứ không phải là sẽ tạo ra sản phẩm dựa trên dữ liệu. Điều đó có nghĩa là các kỹ sư phải nghĩ đến việc thu thập dữ liệu ngay từ đầu, còn các ứng dụng sẽ đến sau.

Ngược lại, tiếp cận Data Last (dữ liệu cuối cùng) hàm ý chỉ nên dùng dữ liệu khi các giải pháp truyền thống không cho chúng ta câu trả lời thoả đáng, nói cách khác, chỉ dùng dữ liệu như phương án cuối cùng.
Tư duy dữ liệu ở MoMo. Ảnh: CTO/MoMo
Tư duy dữ liệu ở MoMo. Ảnh: CTO/MoMo

Bên cạnh đó cũng có những chiến lược bổ sung khác như: Insight First (Ưu tiên trực giác thấu hiểu), tức khi dữ liệu thiếu về chất lượng và thừa về số lượng thì người ta sẽ cố gắng xác định chủng loại/chất lượng dữ liệu cần để tạo ra insight trước khi thu thập; Action First (Ưu tiên hành động), tức không để doanh nghiệp rơi vào tình trạng tê liệt khi không có dữ liệu hoặc chờ đợi dữ liệu, vì bất kỳ hành động nào cũng tốt hơn là đứng yên không làm gì cả; hoặc Result First (Ưu tiên kết quả), tức chỉ nên kỳ vọng vào kết quả chứ không nên đặt quá nhiều vào giải pháp hay dữ liệu, và dữ liệu chỉ là công cụ để giúp đạt được kết quả.

Ông Thái Trí Hùng tiết lộ, MoMo đang áp dụng chiến lược Data First. Tuy nhiên để tránh việc quá tập trung vào dữ liệu, họ cố gắng nhìn từ hai hướng khác nhau trong quá trình xây dựng giải pháp. Một là thu thập dữ liệu để chứng minh giả định. Hai là đưa ra giả định trước rồi tìm dữ liệu chứng minh.

“Tôi tin rằng việc dùng dữ liệu để ra quyết định là như vậy. Không phải là với dữ liệu đó thì kết luận chắc chắn chính xác, mà là với một số giả định thì nhờ vào dữ liệu, chúng ta có thể loại bớt một số giả định sai lầm. Hoặc ít nhất chúng ta đỡ mất thời gian đâm đầu vào một số con đường bế tắc”, ông Hùng chia sẻ.


Thành lập năm 2007, MoMo là một trong 4 kỳ lân công nghệ của Việt Nam và thuộc Top 100công ty Fintech toàn cầu do KPMG và H2 Ventures đánh giá. Tính đến năm 2022, ví điện tử MoMo có hơn 31 triệu người dùng hoạt động.

Đội ngũ công nghệ của MoMo tự hào là sản phẩm 100% Việt Nam, 100% phục vụ cho người Việt Nam. Mức tăng trưởng của doanh nghiệp ghi nhận ở mức 2 con số mỗi năm, và theo đó năng lực công nghệ và số lượng nhân sự công nghệ cũng tăng tương tự. Hiện nay đội ngũ Data và AI của MoMo có khoảng 200 người, chiếm gần 1/3 số nhân sự công nghệ tại công ty.

Một số công nghệ nổi bật áp dụng dữ liệu và AI vào hoạt động của MoMo bao gồm: hệ thống Định danh khách hàng trực tuyến eKYC, hệ thống tính Điểm tín dụng và Điểm tin cậy, hệ thống Khuyến nghị…