Nguyễn Quốc Anh, sinh viên Kinh tế và Tài chính tại Đại học RMIT, đã giải bài toán dự đoán giá cổ phiếu dài hạn bằng cách sử dụng mô hình học sâu NODE, cho thấy độ dự đoán chính xác hơn so với mô hình học máy LSTM thông thường.

Nguyễn Quốc Anh thuyết trình tại hội thảo Digital3 năm 2023. Ảnh: RMIT
Nguyễn Quốc Anh thuyết trình tại hội thảo Digital3 năm 2023. Ảnh: RMIT

Thị trường chứng khoán bị ảnh hưởng bởi nhiều yếu tố, chẳng hạn như tâm lý tiêu dùng, kinh tế vĩ mô và vi mô, cũng như chính sách tiền tệ. Tất cả khiến ngách tài chính này trở nên khó đoán đối với những nhà giao dịch tìm kiếm lợi nhuận ổn định với mức rủi ro thấp.

Câu hỏi “liệu có chỉ báo nào giúp giảm rủi ro trong giao dịch tài chính?” đã khơi gợi Nguyễn Quốc Anh, sinh viên năm ba ngành Kinh tế và Tài chính tại Đại học RMIT hứng thú nghiên cứu giao dịch bằng thuật toán. Đây là khía cạnh chưa được khai phá nhiều ở thị trường Đông Nam Á bởi môi trường giao dịch thiếu linh động và độ thanh khoản thấp so với các thị trường Bắc Mỹ hoặc châu Âu.

“Trong tài chính dù dữ liệu chuỗi giá trị theo thời gian khá phong phú nhưng phương thức tiếp cận vẫn theo hướng truyền thống”, Nguyễn Quốc Anh giải thích. Có nghĩa là, các nhà phân tích, dự báo vẫn dựa nhiều vào kinh nghiệm, trực giác và các mô hình đơn giản hơn là tận dụng hết tiềm năng của dữ liệu lớn và các công cụ phân tích hiện đại.

Dưới sự hướng dẫn của TS. Hà Xuân Sơn và TS. Thái Trung Hiếu, hai giảng viên chuyên ngành kinh doanh trên ứng dụng Blockchain tại Đại học RMIT Việt Nam, Nguyễn Quốc Anh đã hoàn thành nghiên cứu với tiêu đề: “Mô hình phương trình vi phân cùng Thuyết tái tạo không gian pha trong dự báo giá cổ phiếu”.

Nghiên cứu được công bố trên thư viện điện tử của Hiệp hội Hệ thống thông tin (AIS) và được trình bày tại Hội thảo quốc tế về phổ cập kiến thức hệ thống thông tin Thái Bình Dương (PACIS 2024) của hiệp hội AIS vào đầu tháng 7/2024 ở TP.HCM.

Nghiên cứu đã kiểm tra khả năng dự báo của mô hình NODE dựa trên giá cổ phiếu hằng ngày của sáu công ty Mỹ trong các lĩnh vực công nghệ (Alibaba, Intel), tài chính (Bank of America, Citigroup) và dược phẩm (Pfizer, Novartis) trong vòng 10 năm, từ năm 2003 đến năm 2023.

Dữ liệu cho mô hình được phân bố theo tỷ lệ: 70% dùng cho việc huấn luyện, 20% dùng để tinh chỉnh/xác nhận mô hình, và 10% còn lại dùng để kiểm tra độ chính xác của mô hình, tức so sánh giữa giá trị cổ phiếu thực và giá trị dự báo.

Mô hình NODE

Nghiên cứu đã sử dụng mô hình NODE, tức một mô hình học sâu dạng thần kinh (Neural) có khả năng xử lý các phương trình vi phân (Ordinary Differential Equations) theo thời gian liên tục.

Nói một cách đơn giản, hãy tưởng tượng những thăng trầm về giá cổ phiếu hàng ngày như một đoàn tàu lượn siêu tốc. Việc dự đoán tàu lượn sẽ đi tiếp đến đâu không dễ dàng, nhưng đó là những gì mọi người cố gắng làm khi họ đầu tư vào cổ phiếu. Các mô hình thuật toán có thể học hỏi từ những thăng trầm trong quá khứ của tàu lượn. Nhưng thay vì chỉ nhìn vào các điểm riêng biệt trên tàu lượn siêu tốc (như giá của một cổ phiếu vào những ngày khác nhau, các đỉnh cổ phiếu v.v), mô hình NODE nhìn toàn bộ chuyến đi như một dòng chảy trơn tru theo thời gian.

Để tận dụng khả năng dự báo của mô hình, tác giả đã kết hợp một kỹ thuật tiền xử lý dữ liệu gọi là ‘tái tạo không gian pha’ (Phase Space Reconstruction - PSR) từ lý thuyết hỗn loạn để chuyển đổi dữ liệu cổ phiếu ban đầu, gồm giá mở cửa, giá cao, giá thấp, giá đóng cửa, khối lượng giao dịch thành một không gian đa chiều.

Bằng cách đưa dữ liệu vào một không gian đa chiều, PSR cung cấp cho mô hình NODE một cái nhìn toàn diện hơn về thị trường, giúp nó có thể phát hiện ra những quy luật ẩn chứa trong dữ liệu mà người ta khó có thể tìm thấy nếu chỉ dùng phương pháp thống kê truyền thống để nhìn vào từng chỉ số riêng lẻ.

Tác giả đã tinh chỉnh NODE trên mười tham số khác nhau, thử nghiệm hơn 40 giá trị để tìm ra cài đặt tối ưu.

Dự báo dài hạn

Để kiểm tra khả năng của mô hình NODE, Nguyễn Quốc Anh đã so sánh mô hình của mình với sáu mô hình học sâu hiện đại khác, gồm RNN, Transformer, SVR, LSTM, CNN và CNN-LSTM. Tất cả các mô hình đều được lấy trực tiếp hoặc lấy cảm hứng và sửa đổi từ các nghiên cứu hàng đầu đã công bố.

Khi so sánh giữa các mô hình trên qua ba loại cổ phiếu khác nhau, mô hình NODE cho thấy khả năng dự báo giá cổ phiếu chính xác hơn, đặc biệt trong dài hạn (từ 800-1000 bước đơn vị thời gian trở lên - ví dụ: ngày, giờ, phút - trong chuỗi dữ liệu).

NODE đã giảm đáng kể sai số dự báo, đo bằng giá trị sai số trung bình tuyệt đối MAE và độ lệch chuẩn của sai số RMSE, lên tới hơn 77% cho các cổ phiếu tài chính và dược phẩm, và thậm chí còn cao hơn, tới 83%, đối với cổ phiếu công nghệ.

Mô hình LSTM giữ được độ đánh giá chính xác ở vị trí thứ hai và tốt hơn các mô hình dựa trên học sâu khác như RNN, CNN và CNN-LSTM. Đáng chú ý, Transformer và SVR liên tục thể hiện lỗi cao nhất khi dự đoán các cổ phiếu được chọn.

Nhìn chung, có sự khác nhau giữa các ngành cổ phiếu, Nguyễn Quốc Anh nhận xét trong báo cáo PACIS 2024 của mình. Cổ phiếu công nghệ được thúc đẩy bởi sự đổi mới sáng tạo, thường tăng trưởng nhanh và biến động cao, hấp dẫn các nhà đầu tư có khả năng chịu rủi ro. Cổ phiếu tài chính ổn định hơn, hưởng lợi từ biến động lãi suất và chu kỳ kinh tế, khiến chúng phù hợp với các nhà đầu tư bảo thủ tìm kiếm cổ tức ổn định. Cổ phiếu dược phẩm, phụ thuộc vào mức độ R&D của công ty sẽ mang lại những rủi ro riêng biệt liên quan đến quá trình phê duyệt theo quy định và hết hạn bằng sáng chế, nhưng có thể mang lại lợi nhuận đáng kể nếu có các lần ra mắt sản phẩm thành công. Những đặc điểm riêng biệt của từng lĩnh vực tạo ra những thách thức khác nhau đối với mô hình dựa trên học sâu trong việc dự đoán.

TS. Hà Xuân Sơn, cố vấn nghiên cứu, nhận xét, mô hình NODE có khả năng giải quyết những hạn chế của các phương pháp học sâu truyền thống trong việc nắm bắt các động lực thị trường chứng khoán phức tạp và phi tuyến.

“Mô hình này thể hiện độ chính xác dự báo dài hạn vượt trội và nắm bắt hiệu quả các biến động đột ngột của thị trường như các cú sập giá”, ông chỉ ra. Điều này trái ngược hẳn với các mô hình cơ sở làm mịn quá mức hoặc không dự đoán được các thay đổi tức thời như LSTM.

“Không chỉ dự đoán giá cổ phiếu, mô hình còn có triển vọng trong việc dự đoán các hệ thống hỗn mang khác, như được chứng minh qua những bài kiểm tra trên các tập dữ liệu Lorenz và Mackey-Glass”, TS. Hà Xuân Sơn nhận xét thêm.

Điều này có nghĩa là mô hình NODE có khả năng giải các bài toán khác nhau liên quan đến dự đoán chuỗi thời gian hỗn loạn, chẳng hạn như một hệ thống đơn giản hóa của các dòng đối lưu trong khí quyển hoặc sự thay đổi nồng độ một chất trong máu.

Nguyễn Quốc Anh tiết lộ, sau khi hoàn thiện với mô hình chứng khoán, cậu có thể khám phá các ứng dụng mới trong khoa học dữ liệu, từ nhận dạng mẫu đến phát hiện sớm ung thư.

______________________

Tài liệu tham khảo

Nguyen, Anh Quoc; Ha, Son; and Thai, Hieu, “Phase Space Reconstructed Neural Ordinary DifferentialEquations Model for Stock Price Forecasting” (2024). PACIS 2024 Proceedings. 4. https://aisel.aisnet.org/pacis2024/track01_aibussoc/track01_aibussoc/4