Tương lai trí tuệ nhân tạo (AI) của Đông Nam Á ít phụ thuộc vào thuật toán mà nhiều hơn vào việc xây dựng được các bộ dữ liệu sạch, đáng tin cậy.

Đông Nam Á đang trong quá trình số hóa nhanh chóng, tạo ra lượng dữ liệu khổng lồ. Ảnh: Shutterstock
Đông Nam Á đang trong quá trình số hóa nhanh chóng, tạo ra lượng dữ liệu khổng lồ. Ảnh: Shutterstock

Không thể đếm được số lượng các hội nghị, tít báo, bài thuyết trình và những chính sách công nghệ về AI. Chúng ta thấy lời hứa chói sáng về hiệu quả, sự tăng trưởng chưa từng có, và tầm nhìn về một nền kinh tế-xã hội thông minh hơn nhờ các thuật toán AI. Nhưng đâu đó trong sự vội vã này, chúng ta đang bỏ lỡ câu hỏi cơ bản nhất: “Đông Nam Á đang thực sự xây dựng tương lai này bằng gì?”

Hãy nghĩ về một bậc thầy đầu bếp với căn bếp hiện đại, máy nấu nướng, cánh tay robot để hỗ trợ thái thịt thà, rau củ và những công thức nấu ăn bí truyền. Nhưng nếu ta đưa cho người đầu bếp đó nguyên liệu bị ôi thiu, chưa rửa sạch và không rõ nguồn gốc, thì món ăn cuối cùng sẽ có vị như thế nào? Cho dù đầu bếp ấy có tài giỏi hay công cụ nấu nướng có tinh vi đến đâu, thì chất lượng đầu ra vẫn sẽ luôn bị giới hạn bởi chất lượng đầu vào.

Trong thế giới AI cũng vậy. Dữ liệu - nguồn nguyên liệu mà chúng ta nạp vào các cỗ máy AI - sẽ quyết định cỗ máy đó có thể tạo ra những câu trả lời, dự đoán hay quyết định tốt đến đâu. Thực tế là rất nhiều dữ liệu được đưa vào các mô hình AI hiện nay không được làm sạch, không có cấu trúc rõ ràng và đầy những khoảng trống, dẫn đến chúng đưa ra thông tin nghe có vẻ hợp lý nhưng thực tế lại sai. Nguyên nhân không phải vì AI “dốt”, mà là do dữ liệu mà nó học có vấn đề.

Tình hình sẽ càng trở nên trầm trọng nếu các mô hình AI này liên tục học từ dữ liệu mới không được kiểm soát. Có thể thấy ví dụ rõ nhất ở SimSimi, một ứng dụng trò chuyện trí tuệ nhân tạo từng rất hot ở châu Á hồi thập niên 2010. Ứng dụng này hỗ trợ tới hơn 80 ngôn ngữ khác nhau, từ tiếng Anh, tiếng Hàn, tiếng Trung, tiếng Tây Ban Nha và tất nhiên là có cả tiếng Việt.

Khác với ChatGPT, vốn nổi bật với kiến thức sâu rộng và tính học thuật, SimSimi lại thường trả lời người dùng bằng những câu vui nhộn, hài hước. Vì vậy, nhiều người dùng Internet thời đó cảm thấy SimSimi giống như một người bạn thân hơn là một công cụ hỗ trợ học tập hay công việc. Vấn đề là SimSimi liên tục học từ những câu trả lời mà nó nhận được và cộng đồng mạng đã quyết định ... “dạy hư” chatbot này. Chỉ sau vài tháng, SimSimi bắt đầu đưa ra những câu trả lời chứa từ ngữ thô tục, tình dục hóa, bắt nạt, hay thậm chí là đe dọa. Ứng dụng này gây ra những tranh luận xã hội gay gắt tại Thái Lan và Brazil. Bản thân nhà phát triển cũng thừa nhận rằng SimSimi đã có tác động xã hội tiêu cực đáng kể tại Brazil.

Chính vì có khả năng học hỏi từ các tin nhắn không kiểm duyệt của người dùng mà SimSimi đã gần như phát triển được một “tính cách” riêng. Tuy nhiên, việc học hỏi, thiếu sự giám sát từ một đội ngũ đủ lớn và chuyên nghiệp, cùng với hành vi cố tình phá hoại của một số người dùng, đã khiến chatbot bị lệch đường. Hệ quả là SimSimi nhanh chóng mất đi uy tín và tiềm năng ứng dụng bị mai một.

Tương tự, ngày nay, khi một mô hình AI, dù là AI tạo sinh hay AI phân tích, liên tục được “nuôi” bằng dữ liệu thiên lệch, không liên quan hoặc không chính xác, nó bắt đầu kết nối những tham số sai. Các câu trả lời mà AI đưa ra có thể thay đổi, đôi khi nhẹ nhàng, đôi khi rõ rệt, và độ tin cậy của mô hình sẽ giảm dần theo thời gian. Chính khả năng hấp thụ thông tin mới liên tục – yếu tố làm cho các mô hình AI trở nên mạnh mẽ – cũng đồng thời là điểm yếu lớn nhất của chúng.

Vì các thuật toán tối ưu đã được những quốc gia dẫn đầu phát triển gần như hoàn thiện, nên các nước đi sau ở Đông Nam Á chủ yếu chỉ có thể áp dụng chúng trên cơ sở dữ liệu của riêng mình, nhằm khai thác và triển khai hiệu quả hơn. Chính vì thế, điều then chốt nằm ở dữ liệu. Các quốc gia đang số hóa nhanh chóng như Việt Nam, Thái Lan hay Indonesia cần tập hợp được những bộ dữ liệu thật phong phú và đa dạng, đủ sức phản ánh những đặc trưng phức tạp của mình - từ sự đa ngôn ngữ, đa văn hóa, khác biệt về hạ tầng, cho đến các điều kiện khí hậu, địa lý và mô hình kinh tế – xã hội đặc thù.

Chẳng hạn, một thuật toán có thể phân tích xu hướng tìm kiếm để cho biết người dùng Shopee ở Đông Nam Á đang mua gì, nhưng nó không thể giải thích chính xác tại sao họ lại mua. Nếu may mắn, điều này có thể được phản ánh phần nào qua dữ liệu của tập khách hàng mỗi nước. Song, để hữu ích thực sự, dữ liệu phải cho thấy sự khác biệt tinh tế.

Chẳng hạn, trong khi người tiêu dùng Việt Nam có xu hướng ưu tiên mua sắm trực tuyến qua các kênh hiện đại, chú trọng các mặt hàng phi thực phẩm như thời trang, mỹ phẩm, phụ kiện và tìm kiếm sự tiện lợi cùng giá cả hợp lý, thì người Malaysia lại ưu tiên sự kết hợp giữa mua sắm trực tuyến cho những mặt hàng giá trị cao như điện tử, thời trang và lựa chọn kênh truyền thống cho thực phẩm và đồ gia dụng.

Hoặc, người Malaysia có thói quen thanh toán số hiện đại với nhiều phương thức như ví điện tử và chuyển khoản ngân hàng, trong khi người Việt vẫn còn khá phổ biến phương thức thanh toán thu tiền khi nhận hàng (COD), thể hiện phần nào sự chuyển đổi về lòng tin và thói quen tiêu dùng.

Cuối cùng, tất cả những điều kể trên có hàm ý gì? Nó không phải là lời khuyên rằng Đông Nam Á hãy ngừng sử dụng hay phủ nhận AI, mà là lời kêu gọi khu vực này cần thay đổi căn bản trọng tâm của mình. Các cuộc thảo luận về AI cần vượt ra khỏi vấn đề tốc độ và quy mô của công nghệ để hướng tới chất lượng của cơ sở hạ tầng dữ liệu địa phương.

Nói cách khác, Đông Nam Á cần trở nên quyết liệt trong việc thu thập, làm sạch và phân tích dữ liệu. Chúng ta không thể chỉ nói suông, mà phải có những quy định, tiêu chuẩn và hướng dẫn chi tiết nhằm đảm bảo dữ liệu thu được đạt tiêu chí “đúng, đủ, sạch, sống” và đặc biệt “có thể chia sẻ được”. Đây không phải là công việc hào nhoáng và được tán dương như AI. Đây là những nhiệm vụ vô cùng cực nhọc, tỉ mỉ và chỉ diễn ra âm thầm phía sau hậu trường.

Đối với các doanh nhân khởi nghiệp, điều này có nghĩa là xây dựng doanh nghiệp với tư duy “dữ liệu là trên hết”. Đừng chỉ thu thập dữ liệu, hãy chọn lọc và quản lý nó một cách cẩn thận.

Đối với các nhà đầu tư mạo hiểm, điều này có nghĩa là hãy nhìn vượt ra ngoài những bản demo AI bóng bẩy và đào sâu vào quy trình dữ liệu. Hãy đặt ra những câu hỏi khó cho người được nhận vốn: Dữ liệu của anh chị đến từ đâu? Chúng được xác thực ra sao? Những biện pháp bảo vệ nào đang được áp dụng để tránh thiên lệch?

Còn đối với chính phủ các nước Đông Nam Á, điều này có nghĩa là đầu tư mạnh hơn vào cơ sở hạ tầng số nền tảng và nâng cao năng lực về dữ liệu cho mọi công dân. Cần trao quyền cho mọi người để họ hiểu và tạo ra dữ liệu tốt hơn. Đồng thời, cũng cần thiết lập các khuôn khổ pháp lý rõ ràng để đảm bảo dữ liệu được thu thập, lưu trữ và sử dụng một cách minh bạch, an toàn và có trách nhiệm. Việc này bao gồm cả bảo vệ quyền riêng tư cá nhân, ngăn ngừa việc dữ liệu bị lạm dụng và đảm bảo công bằng trong các quyết định dựa trên AI.

Hơn nữa, các nước Đông Nam Á có nhiều hoạt động đi lại, giao thương và hợp tác kinh tế-xã hội. Việc cho phép dữ liệu lưu chuyển tự do qua biên giới sẽ giúp thương mại diễn ra liền mạch. Ở một góc độ nào đó, các quốc gia Đông Nam Á nên cân nhắc việc thống nhất các quy định bảo vệ dữ liệu và xây dựng một khung pháp lý chung về kinh tế số, tại đó vừa cho phép dữ liệu lưu chuyển tự do, vừa đảm bảo quyền riêng tư và an ninh của mình.

Bài đăng KH&PT số 1364 (số 40/2025)