Những rủi ro khi lan truyền thông tin trên mạng xã hội có thể được kiểm soát nhờ hệ thống dự báo và giám sát thông tin lan truyền trên mạng xã hội, một kết quả nghiên cứu của TS. Nguyễn Việt Anh, Trưởng phòng Khoa học dữ liệu và Ứng dụng, Viện Công nghệ thông tin (Viện Hàn lâm KH&CN Việt Nam) và các cộng sự.
Với đặc tính lan truyền thông tin nhanh chóng, mạng xã hội trực tuyến đã trở thành một kênh kinh doanh và quảng cáo hiệu quả. Tuy nhiên, cũng chính đặc điểm này đã biến nó trở thành con dao hai lưỡi. Thống kê 7 tháng đầu năm 2019 của Younet Media, một công ty cung cấp các giải pháp truyền thông ở Việt Nam cho thấy, 61% nguyên nhân của các cuộc khủng hoảng truyền thông ở Việt Nam bắt nguồn từ Facebook, mạng xã hội nhiều người dùng nhất thế giới hiện nay. Bởi vậy, việc kiểm soát lan truyền thông tin trên mạng xã hội là yếu tố quan trọng để xử lý hiệu quả khủng hoảng truyền thông.
Nhận thấy đây là vấn đề “khá mới ở Việt Nam và còn nhiều đất để nghiên cứu”, TS. Nguyễn Việt Anh đã cùng các đồng nghiệp thực hiện đề tài cấp Viện Hàn lâm “Xây dựng hệ thống giám sát và dự báo thông tin lan truyền trên mạng xã hội tại Việt Nam” (2016-2018) nhằm thiết kế một hệ thống có khả năng dự báo tốc độ lan truyền thông tin và xác định được đặc tính của các đối tượng chia sẻ thông tin đó. “Một hệ thống như vậy sẽ giúp cho các cơ quan chức năng đưa ra được các đối sách kịp thời, hiệu quả để đối phó với những sự kiện thông tin ngay từ khi nó mới bắt đầu manh nha. Đối với các doanh nghiệp, hệ thống đó có thể giúp họ có được những chiến lược tiếp thị hiệu quả, tập trung vào những nhóm khách hàng tiềm năng và giúp tiết kiệm chi phí”, TS. Nguyễn Việt Anh nhận xét về khả năng ứng dụng của hệ thống.
Tìm lời giải cho một “bài toán khó”
Nghiên cứu về hệ thống dự báo lan truyền thông tin trên mạng xã hội không phải là vấn đề mới trên thế giới. “Trong vòng 5-10 năm trở lại đây, số lượng công bố quốc tế về chủ đề này tăng rất nhanh, nhiều người nghiên cứu vì tiềm năng ứng dụng của nó rất lớn”, TS. Nguyễn Việt Anh cho biết.
Về cơ bản, hệ thống này bao gồm phần cứng và mô hình phần mềm có chức năng thu thập dữ liệu, hiển thị thông tin và dự báo tốc độ lan truyền trên mạng xã hội dưới dạng đồ thị (mô hình dự báo). Quy trình hoạt động của một hệ thống dự báo lan truyền thông tin trên mạng xã hội nói chung gồm các bước: thu thập dữ liệu từ người dùng (hành động thích, bình luận, chia sẻ) trong một khoảng thời gian nhất định (1 giờ hoặc 1 ngày); xử lý và phân tích các thông tin trên để làm nguồn dữ liệu đầu vào cho mô hình dự báo; chạy mô hình và đưa ra kết quả về xu hướng lan truyền thông tin (tăng hoặc giảm). Các mô hình dự báo lan truyền thông tin trên mạng xã hội trên thế giới đều không nằm ngoài quy trình này.
Phần lớn mô hình trên thế giới hiện nay đều được xây dựng dựa trên hai nguồn dữ liệu đầu vào: ảnh hưởng giữa các người dùng với nhau (thông tin về lịch sử tương tác) và ảnh hưởng từ sở thích của người dùng. “Thông tin về hai yếu tố này sẽ được thu thập và lượng hóa thành một phương trình toán học, sau khi đưa dữ liệu đầu vào chạy trên các phương trình đó sẽ cho ra xác suất một người có khả năng tiếp nhận thông tin đấy và truyền tiếp cho người khác như thế nào”, TS. Nguyễn Việt Anh giải thích.
Tuy nhiên, nếu chỉ dựa trên hai nguồn này thì vẫn chưa thể đảm bảo tính chính xác của mô hình dự báo. Điều này bắt nguồn từ bản chất của mô hình dự báo là được xây dựng dựa trên lý thuyết về đồ thị hàm số. Về mặt toán học, mạng xã hội có thể được coi là một dạng đồ thị hàm số phức hợp, trong đó mỗi cá nhân hoặc nhóm sẽ được coi là các đỉnh (node) và mối quan hệ tương tác giữa họ sẽ được coi là một cạnh hoặc cung. “Khác với các đồ thị hàm số thông thường, các ‘đỉnh’ và ‘cạnh’ trong mạng xã hội đều là quá trình ngẫu nhiên và mang tính cá nhân, chẳng hạn một người chọn đọc hay không đọc bài viết này, chia sẻ hoặc không chia sẻ thông tin kia... sẽ bị nhiều yếu tố tác động, trong đó ảnh hưởng từ ngoài mạng xã hội chiếm phần không nhỏ”, TS. Nguyễn Việt Anh nói về cách thức vì sao anh chọn đồ thị hàm số biểu thị mạng xã hội.
Đây là lý do giải thích vì sao TS. Nguyễn Việt Anh và các cộng sự xây dựng mô hình dự báo dựa từ các yếu tố trên, cả ảnh hưởng từ bên ngoài mạng xã hội. Điều này đòi hỏi nhà nghiên cứu phải nắm vững các kỹ thuật phân tích về kiến trúc mạng, phân tích nội dung văn bản, kỹ thuật đo lường và lượng hóa thông tin. Với kinh nghiệm nhiều năm nghiên cứu về cấu trúc đồ thị ở Đại học Ritsumeikan và Đại học Kyoto là một trong những trường đại học hàng đầu thế giới về lĩnh vực công nghệ thông tin, TS. Nguyễn Việt Anh cho biết anh và các cộng sự không gặp quá nhiều khó khăn.
Do đó, thách thức lớn nhất mà anh gặp phải không phải là vấn đề kỹ thuật mà là “việc thu thập và xử lý dữ liệu, vấn đề chung của những người làm nghiên cứu về lan truyền thông tin trên mạng xã hội ở Việt Nam, bởi hiện nay Facebook đã có những chính sách hạn chế tiếp cận thông tin”, TS. Nguyễn Việt Anh cho biết. “Để hệ thống dự báo hoạt động tốt, yêu cầu phải thu thập được một lượng dữ liệu lớn theo thời gian, bao trùm nhiều lĩnh vực. Ngoài ra, loại hình dữ liệu đầu vào rất đa dạng, bao gồm cả dữ liệu phi cấu trúc và bán cấu trúc như cấu trúc mạng, cấu trúc cộng đồng, cấu trúc chia sẻ (dạng cây và đồ thị), nội dung bài viết (dạng văn bản), thống kê (dạng số) nên việc xử lý, phân tích tốn nhiều thời gian”, anh nói.
Để khắc phục vấn đề này, TS. Nguyễn Việt Anh và nhóm nghiên cứu đã mày mò tìm kiếm từ nhiều nguồn khác nhau, gồm cả dữ liệu thực tế và dữ liệu tổng hợp. Sau gần hai năm nghiên cứu, anh và các cộng sự đã xây dựng thành công phương pháp dự báo xác suất lan truyền thông tin trên mạng xã hội dựa trên mô hình thác độc lập với thời gian rời rạc có khả năng tích hợp ba dạng thông tin trên. “Kết quả thực nghiệm cho thấy mô hình đề xuất có độ chính xác cao tương đương các phương pháp tốt nhất hiện nay đồng thời giảm được đáng kể thời gian huấn luyện và dự báo”, anh chia sẻ. Kết quả này đã được công bố trong bài báo “A Method for Determining Information Diffusion Cascades On Social Networks”, tạp chí Eastern European Journal of Enterprise Technology (thuộc danh mục Scopus).
Vì sao chưa thành sản phẩm thương mại?
Với 2 bài báo đăng trên các tạp chí thuộc danh mục Scopus và 1 đơn đăng ký bảo hộ độc quyền giải pháp hữu ích cho quy trình công nghệ dự báo và giám sát lan truyền thông tin trên mạng xã hội ở Cục Sở hữu trí tuệ (Bộ KH&CN) đã được chấp nhận đơn hợp lệ, đề tài của TS. Nguyễn Việt Anh được nghiệm thu với kết quả xuất sắc và đánh giá có tiềm năng thương mại hóa cao.
Tuy nhiên, con đường của một kết quả nghiên cứu đến một sản phẩm được thị trường chấp nhận còn rất dài. Mục tiêu thương mại hóa chỉ có thể trở thành hiện thực nếu doanh nghiệp thực sự quan tâm đầu tư phát triển thêm. Hiện tại kinh phí của đề tài nghiên cứu chỉ đủ để thực hiện một hệ thống ở quy mô phòng thí nghiệm. “Hệ thống dự báo lan truyền thông tin cực kì tiềm năng nhưng để đầu tư thành sản phẩm hoàn chỉnh cần rất nhiều nguồn lực bên ngoài”, TS. Nguyễn Việt Anh nói.
Vậy tại sao một sản phẩm đã được bảo hộ độc quyền chưa thể trở thành sản phẩm thương mại? “Để ứng dụng trong thực tế, hệ thống này cần được hoàn thiện ở nhiều khía cạnh: Thứ nhất là về hạ tầng phần cứng, hiện mới chỉ đáp ứng ở quy mô thử nghiệm; tiếp theo là các quy trình thu thập dữ liệu và dự báo cần phải được tự động hóa hoàn toàn để đáp ứng vấn đề dữ liệu thay đổi liên tục theo thời gian, cũng như việc thay đổi chính sách truy cập của nhà cung cấp dịch vụ; hệ thống cũng phải đảm bảo các tính năng như an toàn bảo mật và sao lưu, khôi phục dữ liệu”, anh giải thích vì sao mình vẫn cần sự hỗ trợ của doanh nghiệp để tối ưu sản phẩm.
Mặc dù còn cả một chặng đường dài nữa thì hệ thống mà nhóm nghiên cứu của TS. Nguyễn Việt Anh mới trở thành sản phẩm thương mại nhưng cơ hội “gặt hái” được từ nó rất lớn. Họ đã nhìn thấy hiệu quả từ một sản phẩm tương tự là “hệ thống phân tích ngữ nghĩa và quản trị tương tác mạng xã hội SMCC”, sản phẩm của công ty InfoRe do chuyên gia về trí tuệ nhân tạo Lê Công Thành thực hiện được trao giải nhất cuộc thi Nhân tài Đất Việt năm 2016. Với chức năng thu thập thông tin trên internet (chủ yếu là Facebook), SMCC có khả năng phân tích các nguồn tin đề cập tới các đối tượng với sắc thái tình cảm riêng biệt để ứng dụng trong quản trị truyền thông và chăm sóc khách hàng và sau hai năm gọi vốn đã nhận được 200.000 USD đầu tư, có nhiều khách hàng như FLC, Ngân hàng BIDV, Tổng Cục du lịch Việt Nam… Nếu may mắn, hẳn họ sẽ còn làm được hơn thế.