Tất cả các hệ thống dữ liệu (dataset) đều có thể được biểu diễn bằng một cấu trúc hữu hình, dù có thể khá phức tạp.

Mỗi dataset trong vũ trụ quan sát được đều có dạng hình học căn bản hoặc tạo hình ứng với nó, nhưng cấu trúc đó có thể rất phức tạp. Để việc hình dung về các dataset phức tạp dễ dàng hơn, một nhóm nghiên cứu tại Đại học Dartmouth đã sáng tạo ra HyperTools - gói phần mềm nguồn mở khai thác một bộ các kỹ thuật toán học để thu được hình ảnh trực quan về các dataset đa chiều thông qua các cấu trúc hình học nền tảng mà chúng phản ánh. Kết quả trên đã được công bố trên Tạp chí Machine Learning Research.

HyperTools là công cụ có khả năng dựng được các hình ảnh động từ các dataset rất phức tạp. Các ứng dụng bao gồm: so sánh các dataset khác nhau, quan sát được các xu hướng ngầm bằng trực giác, tổng quát hóa các dataset và phát triển, thử nghiệm các lý thuyết liên quan đến Dữ liệu lớn (Big Data)
Hình ảnh mô phỏng các chủ đề trên Wikipedia. Mỗi chấm đại diện cho 1 trong 3000 bài viết được chọn ngẫu nhiên trên trang web. Vị trí các đốm phản ánh chủ đề (càng gần nhau thì chủ đề càng liên quan) và màu sắc thể hiện các nhóm bài viết có chủ đề tương tự. Ảnh: Hình ảnh thống kê từ phòng thí nghiệm Contextual Dynamics Laboratory, Đại học Dartmouth.

Hình ảnh mô phỏng nội dung của các bài viết trên Wikipedia. Mỗi chấm đại diện cho 1 trong 3000 bài viết được chọn ngẫu nhiên trên trang web. Vị trí các chấm phản ánh chủ đề (càng gần nhau thì chủ đề càng liên quan) và màu sắc thể hiện các nhóm bài viết có chủ đề tương tự. Nguồn: Hình ảnh tĩnh do Contextual Dynamics Laboratory, Đại học Dartmouth cung cấp.

Tác giả nghiên cứu chính, Jeremy R. Manning, trợ lý giáo sư môn tâm lý học và khoa học não bộ kiêm giám đốc phòng thí nghiệm Contextual Dynamics Lab tại Đại học Darthmouth cho biết: “Các dataset mà chúng tôi, các nhà khoa học hiện đại, phải xử lý rất phức tạp, thường phản ánh nhiều thành phần tương tác lẫn nhau.”

Các dữ liệu phức tạp sẽ được HyperTools chuyển hóa thành các hình ảnh 3D để các nhà nghiên cứu có thể phân tích và so sánh bằng quan sát và trực giác. Hiện tại, các nhà khoa học đang tận dụng khả năng tuyệt với của nó để phát hiện các hình thái trong thế giới quanh ta, cũng như trong các dữ liệu khoa học.

Có thể ứng dụng HyperTools hình ảnh hóa nhiều loại dữ liệu. Trong bài báo, nhóm nghiên cứu trình bày việc hình ảnh hóa dữ liệu hoạt động não bộ, các cảnh phim và phản hồi của não bộ khi xem chúng, sự biến động nhiệt độ trên bề mặt Trái đất từ năm 1875 đến 2013, và các chủ đề được đề cập trên Twitter của Hillary Clinton và Donald Trump trong suốt cuộc bầu cử Tổng thống Mỹ năm 2016.

Hình ảnh thể hiện sự thay đổi nhiệt độ bề mặt Trái đất từ 1875-2013, đánh dấu nhiệt độ toàn cầu tự nhiên theo mùa, bên cạnh sự gia tăng nhiệt độ qua thời gian. Ảnh: Hình ảnh thống kê từ phòng thí nghiệm Contextual Dynamics Laboratory, Đại học Dartmouth.

HyperTools tạo ra hình ảnh thể hiện sự thay đổi nhiệt độ bề mặt Trái đất từ năm 1875-2013. Dữ liệu được hình ảnh hóa này cho thấy bản chất tuần hoàn theo chu kỳ (theo mùa) của nhiệt độ toàn cầu, diễn ra bên cạnh sự gia tăng nhiệt độ toàn cầu theo thời gian. Nguồn: Hình ảnh tĩnh do Contextual Dynamics Laboratory, Đại học Dartmouth cung cấp.

Bên cạnh việc sử dụng HyperTools để trực tiếp tìm hiểu cấu trúc hình học của dữ liệu, có thể sử dụng những hiểu biết có được nhờ công cụ này để định hướng phát triển các thuật toán machine learning. Ví dụ, việc hình ảnh hóa dữ liệu có thể tiết lộ các dạng quan sát khác nhau tạo ra những nhóm có cấu trúc đặc thù như thế nào (thí dụ, nội dung các tweet của Clinton và Trump) và có thể sử dụng thông tin này để hiểu các điểm giống và khác nhau giữa các nhóm.