Phân tích và dự báo kinh tế dựa trên việc sử dụng dữ liệu lớn có thể mang lại tính chính xác và khả năng cập nhật nhanh chóng so với các phương pháp truyền thống. Tuy nhiên, thách thức đặt ra là khả năng xử lý dữ liệu phức tạp này.


Dùng dữ liệu lớn xây dựng hệ thống giá lương thực-thực phẩm để dự báo tác động kinh tế. Ảnh minh họa: TTXVN.

Cải thiện đáng kể việc tính toán

Từ lâu, chỉ số giá tiêu dùng (CPI) thường được coi là thước đo lạm phát quan trọng trong nền kinh tế, được tính bằng phần trăm phản ánh mức thay đổi tương đối của giá hàng tiêu dùng (dựa vào một giỏ hàng hóa đại diện) theo thời gian. Mặc dù có nhiều lợi ích nhưng việc xây dựng chỉ số CPI đòi hỏi nguồn chi phí và nhân lực lớn để thu thập, trong khi đó tính chính xác và khả năng cập nhật lại hạn chế, dẫn đến tình trạng đôi khi quyết định chính sách ngắn hạn không thể sử dụng chúng. Một số nhà nghiên cứu đang tìm cách trả lời vấn đề này bằng việc ứng dụng Dữ liệu lớn vào phân tích và dự báo kinh tế.

Vào cuối tháng 11/2018, tại Hà Nội, Viện Nghiên cứu Kinh tế và Chính sách (VEPR) ĐHQG HN đã giới thiệu một chỉ số giá cả trực tuyến (tạm gọi: Online Price Index - OPI) tại Việt Nam. VEPR cho biết, thông qua quá trình tự động thu thập thông tin trên các website bán hàng từ tháng 4/2018, họ đã có hàng triệu lượt quan sát mỗi ngày để theo dõi biến động của giá cả niêm yết và phân tích thống kê, tính toán ra chỉ số OPI tương tự như cách tính chỉ số CPI.

Nhóm nghiên cứu từ VEPR nhận định, sử dụng dữ liệu lớn thông qua nguồn trực tuyến có tính ưu việt và đem lại thông tin nhanh hơn, tiết kiệm chi phí hơn rất nhiều so với điều tra trực tiếp. Tuy nhiên, theo PGS. Nguyễn Đức Thành, Viện trưởng VEPR, phương pháp này không thay thế hoàn toàn cho chỉ số CPI mà sẽ là “công cụ bổ trợ tích cực” bởi sử dụng dữ liệu lớn từ trực tuyến vẫn còn hạn chế do một vài nhóm hàng hóa cơ bản chưa được số hóa hoặc giá một số mặt hàng online không phản ánh đặc tính biến động thực tế. Chỉ một số nhóm hàng hóa như lương thực-thực phẩm có xu hướng biến đổi OPi tương tự với chỉ số CPI, mới có ý nghĩa về mặt tư vấn chính sách.

Bên cạnh đó, sử dụng dữ liệu lớn cũng giúp nhóm nghiên cứu kiểm nghiệm vấn đề kinh tế nổi bật trong ngắn hạn. Ví dụ, chỉ trong vòng 3 ngày, nhóm đã tổng hợp được báo cáo từ hơn 1 triệu quan sát thu thập trên 25 website lớn trên toàn quốc và đưa ra kết luận về ngày Black Friday Việt Nam (23/11) – rằng các hãng bán hàng online không hề thực sự giảm giá mạnh như quảng cáo –trung bình mức giảm chỉ vào khoảng 0,5% - 1%. PGS. Nguyễn Đức Thành hào hứng chia sẻ: “Bản thân tôi cảm thấy kinh ngạc. Trước đây, không có bất kỳ một cuộc khảo sát hay công cụ nào cho phép nhà quan sát hoặc người lãnh đạo chính sách có thể ra được những kết luận đó. Chỉ bây giờ, trong thời đại [số] này, chúng ta mới có được những công cụ mạnh mẽ như vậy.”

Ví dụ trên chỉ ra tiềm năng sử dụng dữ liệu lớn có trong phân tích và dự báo kinh tế.

Hiện nay, dữ liệu lớn có thể cải thiện đáng kể việc tính toán các mô hình kinh tế vĩ mô bằng cách cung cấp thông tin chi tiết và cụ thể hơn. Các nhà phân tích có thể tích hợp dữ liệu ở cấp độ cá nhân và mô tả hành vi chi tiêu theo giới tính, thế hệ, khu vực, thu nhập … từ dữ liệu chi tiêu thực của hàng trăm triệu người tiêu dùng. Bên cạnh đó, dựa trên các dạng chi tiêu, họ có thể xác định những người tiêu dùng có cùng sở thích hoặc cách ứng xử để xây dựng mô hình hành vi tương ứng. Vì tiêu thụ là cấu phần lớn nhất trong tổng thể nền kinh tế nên việc hiểu biết người tiêu dùng ở mức độ vi mô không chỉ giúp các nhà hoạch định thiết kế các công cụ chính sách phù hợp mà còn hỗ trợ họ ra quyết định dựa trên bằng chứng thay vì phải giả định hoặc kinh nghiệm như truyền thống. Hơn nữa, theo báo cáo của Elshendy & Colladon (2017) về gợi ý dự báo các chỉ số kinh tế vĩ mô, các nghiên cứu trước đây chủ yếu sử dụng các dự đoán kinh tế khác - như tổng sản phẩm quốc nội (GDP), lạm phát hoặc lãi suất - trong khi bỏ qua các thông tin về sự tác động liên đới trong mạng lưới kinh tế-xã hội. Ngày nay, những dữ liệu về sự tương tác là điều mà dữ liệu lớn có thể sẵn sàng cung cấp.

Trong dự án của VEPR, PGS. Nguyễn Đức Thành đặc biệt nhấn mạnh đến khả năng ứng báo (nowcasting) khi sử dụng dữ liệu lớn – những thứ đang xảy ra ngay trong hiện tại để có những phản ứng tình thế, so với việc dự báo (forecasting)- những thứ có thể xảy ra trong vài tháng, vài năm tới. Những thông tin chỉ báo ngay, sẽ giúp đẩy nhanh quá trình ra quyết định, đôi khi mang tính bước ngoặt.

Thách thức khả năng xử lý

Tuy nhiên, để gặt hái được những lợi ích từ dữ liệu lớn, chúng ta phải đối mặt với những thách thức không nhỏ. Các công cụ kinh tế lượng, thống kê và dự đoán truyền thống không hoàn toàn có khả năng xử lý các biến động liên quan đến dữ liệu lớn. Các phương pháp thống kê giúp các nhà phân tích kinh tế rút ra suy luận trước đây khó có thể được áp dụng cho dữ liệu lớn bởi các tập dữ liệu mới này có khoảng thời gian quan sát ngắn hơn, độ phức tạp cao hơn và số lượng khổng lồ. Thêm vào đó, với sự thay đổi của tính chất dữ liệu, ngành dự báo kinh tế đang đòi hỏi các thuật toán có cấu trúc xử lý được cả dữ liệu lịch sử và thời gian thực – điều mà hầu như các công cụ truyền thống khó có thể đáp ứng được. Nguy cơ tạo ra các “khám phá giả” từ dữ liệu lớn cũng rất đáng chú ý, bởi do kích cỡ dữ liệu quá lớn khiến việc phân biệt giữa các kết quả ngẫu nhiên và có ý nghĩa thống kê trở nên khó khăn hơn. Có nhiều khả năng, chúng ta báo cáo ra một kết quả được coi là “có ý nghĩa thống kê” gây hậu quả hiểu lầm cho các bên quan tâm. Trong báo cáo đặc biệt năm 2010 mang tên “Dữ liệu khắp mọi nơi” của tạp chí The Economist, Kenneth Cukier tin rằng trong cuộc khủng hoảng tài chính gần đây (2007-2008), các mô hình tài chính được dùng không thể xử lý nổi lượng dữ liệu đồ sộ nhập vào hệ thống do đó dẫn đến các dự báo không chính xác.

Mặt khác, “Dữ liệu lớn liên quan tới sự phức tạp nhiều hơn tới kích thước lớn”, như GS. TS Hồ Tú Bảo - Viện trưởng Viện John von Neumann nói, bởi có những tập dữ liệu có dung lượng chỉ 2-3 GB như cảm biến máy bay hay lò hạt nhân nhưng đòi hỏi khả năng phân tích cao. Trong dữ liệu lớn, việc trích xuất các tín hiệu có ý nghĩa (signal) ra khỏi các thông tin nhiễu (noise) được thực hiện phức tạp hơn. Phần lớn các kỹ thuật dự báo truyền thống sẽ dự phóng cả tín hiệu và nhiễu, và mặc dù cách này vẫn hoạt động tương đối tốt trong các tập dữ liệu truyền thống, với tập dữ liệu lớn nó có nhiều khả năng làm sai lệch tính chính xác của dự báo.

Một trở ngại khác là do các nhà nghiên cứu đã có vài chục năm kinh nghiệm sử dụng các kỹ thuật thống kê truyền thống, nên việc phát triển các kỹ năng mới và nhân lực chuyên môn để phân tích và dự báo với dữ liệu lớn là một trong những thách thức quan trọng nhất trong ngành. Để khắc phục vấn đề này, các cơ sở đào tạo bậc cao (CĐ, ĐH…) phải nâng cấp giáo trình nhằm tích hợp các kỹ năng cần thiết giúp cho việc hiểu, phân tích, đánh giá và dự báo với dữ liệu lớn. Hiện nay ở Việt Nam có rất ít các chương trình đào tạo chuyên sâu về dữ liệu lớn nói riêng và Khoa học Dữ liệu nói chung, có thể kể đến một vài cơ sở đi đầu khai phá như trường ĐH Công nghệ Thông tin (ĐHQG TP.HCM), trường ĐH Khoa học Tự nhiên (ĐHQGHN),…

Ở một cấp độ cơ bản hơn, rào cản lớn khi ứng dụng dữ liệu lớn trong phân tích và dự báo kinh tế tại Việt Nam là việc chúng ta chưa hoàn thiện quá trình số hóa, dẫn đến việc dữ liệu có thể nhiều nhưng chưa đủ. Dữ liệu lớn có thể đến từ nhiều nguồn: giao dịch kinh doanh, quy trình làm việc, thiết bị cảm biến, mạng xã hội… do đó, theo TS. Lê Đăng Trung, Giám đốc công ty RT Analytics, để bắt đầu khai thác dữ liệu lớn, “trước tiên hãy ngừng làm việc với giấy, phần còn lại là số hóa.”. Chính phủ hiện đang nỗ lực làm điều đó, và các khu vực khác như kinh tế tư nhân cũng đang không ngừng số hóa để đuổi kịp nhu cầu này. Anh Trung cho biết thêm, “làm việc với dữ liệu lớn là đắt đỏ” bởi Việt Nam không chỉ cần đầu tư cho hạ tầng lưu trữ hay hệ thống máy tính mạnh mẽ hơn để xử lý dữ liệu mà còn cần những công nghệ và hệ kỹ năng hoàn toàn mới đi kèm.¨