Tất cả các hệ thống dữ liệu (dataset) đều có thể được biểu diễn bằng một cấu trúc hữu hình, dù có thể khá phức tạp.
Mỗi dataset trong vũ trụ quan sát được đều có dạng hình học căn bản hoặc tạo hình ứng với nó, nhưng cấu trúc đó có thể rất phức tạp. Để việc hình dung về các dataset phức tạp dễ dàng hơn, một nhóm nghiên cứu tại Đại học Dartmouth đã sáng tạo ra HyperTools - gói phần mềm nguồn mở khai thác một bộ các kỹ thuật toán học để thu được hình ảnh trực quan về các dataset đa chiều thông qua các cấu trúc hình học nền tảng mà chúng phản ánh. Kết quả trên đã được công bố trên Tạp chí Machine Learning Research.
HyperTools là công cụ có khả năng dựng được các hình ảnh động từ các dataset rất phức tạp. Các ứng dụng bao gồm: so sánh các dataset khác nhau, quan sát được các xu hướng ngầm bằng trực giác, tổng quát hóa các dataset và phát triển, thử nghiệm các lý thuyết liên quan đến Dữ liệu lớn (Big Data)
Tác giả nghiên cứu chính, Jeremy R. Manning, trợ lý giáo sư môn tâm lý học và khoa học não bộ kiêm giám đốc phòng thí nghiệm Contextual Dynamics Lab tại Đại học Darthmouth cho biết: “Các dataset mà chúng tôi, các nhà khoa học hiện đại, phải xử lý rất phức tạp, thường phản ánh nhiều thành phần tương tác lẫn nhau.”
Các dữ liệu phức tạp sẽ được HyperTools chuyển hóa thành các hình ảnh 3D để các nhà nghiên cứu có thể phân tích và so sánh bằng quan sát và trực giác. Hiện tại, các nhà khoa học đang tận dụng khả năng tuyệt với của nó để phát hiện các hình thái trong thế giới quanh ta, cũng như trong các dữ liệu khoa học.
Có thể ứng dụng HyperTools hình ảnh hóa nhiều loại dữ liệu. Trong bài báo, nhóm nghiên cứu trình bày việc hình ảnh hóa dữ liệu hoạt động não bộ, các cảnh phim và phản hồi của não bộ khi xem chúng, sự biến động nhiệt độ trên bề mặt Trái đất từ năm 1875 đến 2013, và các chủ đề được đề cập trên Twitter của Hillary Clinton và Donald Trump trong suốt cuộc bầu cử Tổng thống Mỹ năm 2016.
Bên cạnh việc sử dụng HyperTools để trực tiếp tìm hiểu cấu trúc hình học của dữ liệu, có thể sử dụng những hiểu biết có được nhờ công cụ này để định hướng phát triển các thuật toán machine learning. Ví dụ, việc hình ảnh hóa dữ liệu có thể tiết lộ các dạng quan sát khác nhau tạo ra những nhóm có cấu trúc đặc thù như thế nào (thí dụ, nội dung các tweet của Clinton và Trump) và có thể sử dụng thông tin này để hiểu các điểm giống và khác nhau giữa các nhóm.
Nhật Phạm (Theo TechXplore)