Bất chấp sự khác biệt về không gian, thời gian ra đời hay nền văn hóa mà chúng thuộc về, những tác phẩm nghệ thuật đã bất ngờ xích lại gần nhau hơn khi MosAIc, một thuật toán về truy vấn hình ảnh, phát hiện ra những điểm tương đồng giữa chúng.

Hai bức tranh khiến các nhà nghiên cứu MIT ấn tượng là The Martyrdom of Saint Serapion (Sự tử vì đạo của Thánh Serapion) của Francisco de Zurbarán và The Threatened Swan (Con thiên nga bị đe dọa) của Jan Asselijn. Nguồn: MIT CSAIL.

Nghệ thuật vẫn được coi là một trong những chuyến du hành lớn lao nhất mà con người có thể tham gia, nơi họ có thể tận hưởng những khoảnh khắc ngưng đọng trong một không gian và thời gian cụ thể. Con người có thể thoát khỏi hiện tại bằng vẻ đẹp thoáng chốc của nghệ thuật…

Từ trước đến nay, người ta thưởng thức nghệ thuật thông qua triển lãm ở các bảo tàng, phòng trưng bày với những bộ sưu tập được các nhà giám tuyển chọn lọc theo chủ đề. Do vậy họ không có nhiều lựa chọn, hoặc vì số lượng các tác phẩm, các bộ sưu tập mà họ có thể tham khảo còn chưa nhiều, hoặc vì ý tưởng trưng bày vẫn bám vào cách tiếp cận truyền thống. Tuy nhiên, ngay cả trong trường hợp không tưởng là có thể huy động được hàng triệu tác phẩm đang tồn tại trong các viện bảo tàng với sự phong phú về phong cách nghệ thuật, chất liệu thể hiện, thời điểm ra đời thì ngay cả các nhà phê bình nghệ thuật am hiểu bậc nhất cũng không thể có đủ thời gian để tìm hiểu kỹ về từng bức tranh để phát hiện ra những điểm tương đồng mới đầy bất ngờ trong chủ đề, họa tiết, phong cách… Do đó, những mối liên hệ giữa các tác phẩm từ những thời kỳ khác nhau, của những không gian nghệ thuật khác nhau thường bị bỏ qua. Cho đến gần đây, một nhóm các nhà nghiên cứu từ Phòng thí nghiệm Khoa học máy tính và AI (CSAIL) của MIT và Microsoft đã hợp tác cùng tạo ra MosAIc, một thuật toán để khám phá những kết nối còn ẩn giấu giữa các bức họa.

Từ ý tưởng mới của các nhàgiám tuyển

Điểm khởi nguồn của việc tạo ra MosAIc là một cuộc triển lãm đặc biệt về các danh họa Hà Lan và Tây Ban Nha thế kỷ 17 mang tên “Rembrandt và Velazquez” tại bảo tàng Rijksmuseum (Hà Lan) vào năm ngoái. Rembrandt và Velazquez cách biệt nhau trong khoảng cách của cuộc chiến tranh Tám mươi năm hay còn được gọi là Chiến tranh giành độc lập của Hà Lan trước sự cai trị của Tây Ban Nha nhưng nhà giám tuyển Gregor Weber ở Rijksmuseum đã kéo lại họ gần với nhau bằng việc xếp các bức họa của họ theo từng cặp theo chủ đề. Ông cố tình đặt các phần thông tin chú thích thật xa các bức họa để khơi gợi sự kết nối thị giác của người xem với tác phẩm hơn là bị đóng khung vào giới thiệu của giám tuyển. Đôi khi sức mạnh của thị giác và cảm xúc mà nó tạo ra ở người xem còn vượt ra cả những thông tin rút trích đó.

MosAIc được tạo ra không để sáng tác ra một thứ nghệ thuật mới mà chỉ để phát hiện được những điểm mới mẻ từ nghệ thuật sẵn có.

Nghiên cứu sinh Mark Hamilton tham quan triểm lãm ở Amsterdam và ngạc nhiên thấy một số tác phẩm không hề có mối kết nối nào về thông tin đi kèm nhưng lại hoàn toàn tương đồng trên thực tế. Ví dụ một cặp tranh treo chung mà họ thấy ấn tượng là The Martyrdom of Saint Serapion (Sự tử vì đạo của Thánh Serapion) của Francisco de Zurbarán và The Threatened Swan (Con thiên nga bị đe dọa) của Jan Asselijn (một danh họa Hà Lan thế kỷ 17 khác trong triển lãm) mà anh chưa từng nghĩ đến là có thể xếp cặp với nhau chứ chưa nghĩ là giữa chúng lại có điểm tương đồng. Bức của Zurbarán miêu tả một vị thánh với đôi tay giơ cao còn bức của Asselijn miêu tả một con thiên nga bị bầm dập tả tơi vẫn giang rộng đôi cánh, một hình ảnh ẩn dụ về Johan de Witt, người anh hùng Hà Lan cố gắng bảo vệ đất nước trước kẻ thù. Cả hai đều khắc họa cảnh tượng về lòng vị tha sâu sắc với những điểm giống nhau đến lạ lùng.

Được mệnh danh là Caravaggio của Tây Ban Nha, họa sĩ Francisco de Zurbarán gắn bó với quê hương mình và chưa từng gặp gỡ họa sĩ thuộc thế hệ vàng của Hà Lan Jan Asselijn. “Trong đời họ chưa từng một lần gặp gỡ hay trao đổi với nhau nhưng trong hai bức vẽ này của họ lại ẩn chứa cùng một cấu trúc phong phú và giàu sức biểu đạt”, Mark Hamilton ngạc nhiên cho biết.

Không rõ là những khách tới xem triển lãm nhận được ấn tượng gì từ đó nhưng Mark Hamilton và các nhà nghiên cứu MIT đã được truyền cảm hứng về những ý tưởng mới để tạo ra MosAIc, một mạng lưới học sâu hiểu được ‘sự gần gụi’ của hình ảnh để có thể xếp cặp hoặc tìm “điểm tương tự” giữa những tác phẩm thuộc về nhiều nền văn hóa khác nhau, các nghệ sĩ khác nhau. Sau một năm triển khai nghiên cứu, bài báo về MosAIc của họ “Conditional Image Retrieval” (Truy vấn hình ảnh có điều kiện) đã hình thành và được đăng tải trên kho lưu trữ arxiv.

Thuật toán MosAIc

Dưới góc nhìn của nhiều người, khoa học và nghệ thuật dường như không tương đồng nhau mấy: một bên dựa trên nền tảng của tư duy logic, lý lẽ và chứng minh bằng sự thật, bên kia ngả theo cảm xúc, thẩm mỹ và cái đẹp. Nhưng thật ra hai lĩnh vực đó có nhiều nét gần gụi nhau mà gần đây, AI đã có những chứng minh rõ rệt, ví dụ như góp phần tạo dựng ra một thứ nghệ thuật mới, thậm chí có tác phẩm do AI tạo ra đã được nhà đấu giá Sotheby’s bán với giá 51.000 USD.

Tuy nhiên MosAIc được tạo ra không để sáng tác ra một thứ nghệ thuật mới mà chỉ để phát hiện được những điểm mới mẻ từ nghệ thuật sẵn có. Ở điểm này, dù có phần giống với “X Degrees of Separation”, một công cụ tương tự từng được Google phát triển để tìm ra những con đường nghệ thuật kết nối hai tác phẩm nhưng MosAIc không lặp lại tính năng đó. MosAIc khác biệt ở điểm chỉ với một hình ảnh đơn lẻ ban đầu, thay vì tìm những con đường, nó phát hiện kết nối của hình ảnh đó với những tác phẩm trong bất kỳ nền văn hóa nào hoặc trên nền tảng nào mà người dùng quan tâm, ví dụ như sếu lam do nhà thám hiểm Hà Lan thế kỷ 18 Robert Jacob Gordon tạo ra với một đồ trang trí bằng thủy tinh màu xanh lam từ Thổ Nhĩ Kỳ với cái vòi dài và mỏng mảnh.

Hệ học máy liên kết với một minh họa con sếu lam với những đồ thủy tinh và tác phẩm thế kỷ thứ 5 trước công nghệ vẽ thần Seth giết rắn trong đền thờ Amun tại Hibis. Nguồn: MIT CSAIL

Việc xây dựng thuật toán này không dễ bởi điều Hamilton và đồng nghiệp muốn là nó có thể tìm kiếm được những hình ảnh không chỉ tương đồng về màu sắc và phong cách mà còn ở ý nghĩa và chủ đề. Để đạt được điều đó, họ thăm dò bằng một mạng lưới học sâu có những “kích hoạt” bên trong với mỗi hình ảnh của những bộ sưu tập mở của cả Met và Rijksmuseum. Khoảng thời gian giữa những lần "kích hoạt” của mạng lưới học sâu này là cách chúng đánh giá sự tương đồng của hình ảnh để tìm thấy những đặc điểm chung nhất.

Để tìm được những hình ảnh tương tự giữa những tác phẩm thuộc về các nền văn hóa khác biệt, nhóm nghiên cứu đã dùng một cấu trúc dữ liệu tìm kiếm hình ảnh mới là “cây KNN có điều kiện” – một phương pháp phi tham số do giáo sư Thomas Cover (trường đại học Stanford) phát triển để phân loại và phân tích hồi quy. Thuật toán này đã nhóm các hình ảnh tương tự lại với nhau trong một cấu trúc hình cây. Để tìm ra điểm trùng hợp, họ bắt đầu ở “thân cây” và theo sát những “nhánh” hứa hẹn nhất cho đến khi tìm được hình ảnh gần gũi nhất. Cấu trúc dữ liệu được cải thiện về độ nhạy hơn so với những cấu trúc trước đây bởi nó cho phép cây nhanh chóng tự “cắt tỉa” để tìm được mô típ phù hợp với hình ảnh tìm thấy trong dữ liệu về một nền văn hóa, một nghệ sĩ, hoặc một bộ sưu tập cụ thể, qua đó nhanh chóng gặt hái được các câu trả lời về những dạng mới của các truy vấn.

Sau khi có sản phẩm, nhóm nghiên cứu quyết định kiểm tra tốc độ tìm kiếm của MosAIc và cách nó phù hợp một cách gần nhất với trực giác của con người về những điểm tương tự trong thị giác. Với các kiểm tra tốc độ tìm kiếm, họ muốn đảm bảo cấu trúc dữ liệu có thể “quét” qua toàn bộ bộ sưu tập một cách nhanh chóng. Còn với yêu cầu thứ hai, để hiểu cách hệ này phù hợp với trực giác con người, họ tạo hai bộ dữ liệu, một bộ thách thức các thuật toán tìm kiếm hình ảnh với cùng bối cảnh sau khi được cách điệu hóa với một phương pháp chuyển hóa cách điệu trung tâm, bộ còn lại thách thức các thuật toán phục hồi các chữ cái tiếng Anh qua nhiều loại phông chữ khác nhau. Chưa đầy hai phần ba thời gian quy định, MosAIc đã phục hồi lại hình ảnh chính xác bằng một dự đoán duy nhất với 5.000 hình ảnh “đống cỏ khô”.

“Mỗi lần sử dụng thuật toán này, tôi đều tìm thấy những điều vô cùng ngạc nhiên”, Hamilton trả lời Artnet News qua email. Ví dụ, anh đã sốc khi đề nghị MosAIc phản hồi một truy vấn về “một nhạc cụ gần gũi nhất với một chiếc Banyan họa tiết trắng và xanh lam” – một dạng trang phục xuất hiện tại Hà Lan từ thế kỷ 17 dựa trên cảm hứng từ bộ kimono Nhật Bản. Thuật toán mang về một hình ảnh của một cây violin Hà Lan bằng sứ pha trộn giữa hai màu trắng và xanh “nhưng ẩn chứa rất nhiều kết nối cơ bản. Đặc biệt hơn, các tác phẩm này là bằng chứng cho thấy trao đổi thương mại Hà Lan – Trung Quốc từ thế kỷ 16 đến thế kỷ 18, đã dẫn đến một sự trao đổi văn hóa rộng hơn, ví dụ ta có thể thấy được sự yêu thích các đồ sứ tráng men lam và trắng từ Cảnh Đức Trấn, Giang Tây của thị trường châu Âu”, anh cho biết.


MosAIc liên kết với bộ trang phục Banyan với những tác phẩm nghệ thuật khác dựa trên diểm chung về màu sắc và phong cách. Nguồn: MIT CSAIL

“Các hệ truy vấn hình ảnh đem đến cho người dùng những hình ảnh tương tự về mặt ngữ nghĩa cho một hình ảnh được đề nghị, nó đóng vai trò xương sống cho các công cụ tìm kiếm ngược hình ảnh cũng như các công cụ giới thiệu hình ảnh”, Hamilton nêu trong trang web của MIT. “Việc tập trung phạm vi tìm kiếm của một hệ truy vấn hình ảnh vào những tập dữ liệu con cụ thể có thể đem lại những hiểu biết mới về các mối quan hệ trong thế giới hình ảnh thị giác. Với nghiên cứu này, chúng tôi hướng tới việc khuyến khích một mức mới về sự kết hợp giữa AI và các tác phẩm nghệ thuật đầy sáng tạo”.

Những cơ hội mới

Việc thiết kế và huấn luyện MosAIc sẽ vô cùng khó khăn nếu như các nhà nghiên cứu MIT không có được cơ hội sử dụng các tệp dữ liệu mở từ bảo tàng Rijksmuseum và Bảo tàng nghệ thuật Metropolitan (Mỹ), đặc biệt là Rijksmuseum. Từ vài năm nay, cả hai nơi đã xây dựng được các bộ dữ liệu số những tác phẩm mà mình quản lý và trao cho công chúng quyền sử dụng nó một cách sáng tạo.

“Phương pháp của chúng tôi sẽ là công cụ tốt để thiết kế một dạng cụ thể của triển lãm: xếp các cặp tác phẩm còn chưa được nghĩ đến bằng việc vượt qua các rào cản ý tưởng và chia sẻ cấu trúc chung. Do đó chúng tôi hi vọng cách tiếp cận này có thể trở thành công cụ giúp các nhà lịch sử nghệ thuật tìm kiếm những mẫu hình mới trong lịch sử và tập hợp các bằng chứng để ủng hộ giả thiết của họ” (Mark Hamilton).

Xuất phát từ nghệ thuật, MosAIc được các nhà nghiên cứu hi vọng sẽ trở lại đóng góp cho nghệ thuật. “Phần mềm này có thể giúp tuyển chọn tác phẩm cho một triển lãm chứ không nhằm thay thế các nhà giám tuyển”, Hamilton giải thích. “Phương pháp của chúng tôi sẽ là công cụ tốt để thiết kế một dạng cụ thể của triển lãm: xếp các cặp tác phẩm còn chưa được nghĩ đến bằng việc vượt qua các rào cản ý tưởng và chia sẻ cấu trúc chung. Do đó chúng tôi hi vọng cách tiếp cận này có thể trở thành công cụ giúp các nhà lịch sử nghệ thuật tìm kiếm những mẫu hình mới trong lịch sử và tập hợp các bằng chứng để ủng hộ giả thiết của họ”.

Phạm vi ứng dụng của MosAIc không chỉ có thế, nó còn có thể mở ra những điểm mới khác trong nhiều lĩnh vực của đời sống. “Chúng tôi cho rằng công trình này sẽ gợi ý cho nhiều người khác nghĩ về cách các công cụ rút trích thông tin truy vấn có thể hữu dụng trong nhiều lĩnh vực như nghệ thuật , khoa học xã hội nhân văn, dược phẩm. Những lĩnh vực rất giàu thông tin mà chưa từng được xử lý với những kỹ thuật như thế này sẽ là một nguồn tài nguyên vô tận cho các nhà khoa học máy tính và chuyên gia miền. Công trình này có thể mở rộng các bộ sưu tập dữ liệu, các dạng mới của truy vấn và cả những cách mới để hiểu về sự kết nối bên trong các dữ liệu”, Hamilton nói với Artnet News.

Trước khi những mong đợi đó được thực hiện thì những gì mà Hamilton và đồng nghiệp tìm thấy đã trở thành một phần thưởng xứng đáng cho họ bởi cách tiếp cận này có thể được ứng dụng để giúp tìm ra những điểm của các hệ học sâu hiện có, liên quan đến việc lạm dụng “deepfakes” trong thời gian gần đây, một kỹ thuật tổng hợp và đặt chồng hình ảnh con người bằng cách sử dụng kỹ thuật mạng đối nghịch chung (GANs) để tung tin giả hoặc trả thù độc hại. Cấu trúc dữ liệu này đã giúp họ tìm ra các khu mà những mô hình xác suất mà GANs dùng để tạo ra các lỗi giả mạo “deepfakes”. Những “điểm mù” trong các tập dữ liệu như vậy chỉ có thể đánh lừa con người chứ không thể khiến MosAIc bó tay.