Buổi biểu diễn âm nhạc Sight machine khiến người nghe tái khám phá mối quan hệ giữa con người và công nghệ.


Tứ tấu Kronos trong buổi biểu diễn Sight Machine. Trên màn hình, các thuật toán đang nhận diện cử động và khuôn mặt của các nghệ sĩ. Nguồn: smithsonianmag.com

Năm ngoái, Facebook đã tạo ra hai chatbot và yêu cầu chúng nói chuyện với nhau và thực hành kỹ năng đàm phán của chúng. Kết quả là chúng tỏ ra khá giỏi trong việc đàm phán - nhưng lại thực hiện điều đó bằng ngôn ngữ mà chúng tự nghĩ ra, và con người không thể hiểu được. Đây chính là tương lai đang chờ đón con người: Máy tính đang tạo ra nội dung (content) cho nhau chứ không phải cho chúng ta. Các hình ảnh được chụp bởi máy tính, và để cho các máy tính khác nhìn và xử lý chúng. Tất cả đều diễn ra một cách lặng lẽ mà không cần chúng ta biết đến hoặc đồng ý.

Vào ngày 25 tháng 10 năm 2018, Tứ tấu Kronos — David Harrington, John Sherba, Hank Dutt và Sunny Yang đã biểu diễn một buổi hòa nhạc tại Bảo tàng Mỹ thuật Smithsonian. Họ đã được theo dõi bởi 400 con người và hàng chục thuật toán thông minh nhân tạo được thực hiện bởi Trevor Paglen. Khi các nhạc công đang chơi, một màn hình đặt phía trên họ cho chúng ta thấy cách thức mà máy tính đang quan sát buổi biểu diễn.

Đây là buổi biểu diễn đầu tiên có tên gọi là “Góc nhìn của máy” (Sight machine) ở phía bờ Tây của nước Mỹ, cũng giống như các tác phẩm khác của Paglen, đòi hỏi người xem và người nghe phải học cách nhìn của máy tính, và tái khám phá mối quan hệ giữa con người và công nghệ - từ chiếc điện thoại trong túi của chúng ta đến những con mắt trên bầu trời (vệ tinh) và tất cả mọi thứ ở giữa chúng.

Đó là năm 2018 khi mà ý tưởng cho rằng những chiếc điện thoại đang theo dõi chúng ta không còn là một thuyết âm mưu do một blogger nào đó bịa ra. Google đầu năm nay bị tố là theo dõi địa điểm chủ sở hữu các điện thoại hệ điều hành Android, ngay cả khi họ đã tắt chức năng đó. Chúng ta đều đã bị thuyết phục rằng chiếc điện thoại đang nghe lén mình để gợi ý những quảng cáo trúng đích hơn – Facebook và nhiều công ty khác phủ nhận điều này, mặc dù điều đó hoàn toàn khả thi với họ cả về mặt kĩ thuật lẫn luật pháp. Nhà báo chuyên viết về công nghệ Alex Goldman và PJ Vogt đã điều tra và nhất trí rằng: Chẳng có lý do gì mà chiếc điện thoại lại không nghe lén chúng ta, và chẳng có lí do gì những nhà quảng cáo không thu thập những thông tin riêng tư của chúng ta qua cách này.

Đó là bối cảnh mà “Góc nhìn của máy” ra đời. Khoảng 12 máy quay quan sát Tứ tấu Kronos và gửi video trực tiếp về buổi biểu diễn tới một dàn máy tính hoàn toàn sử dụng những thuật toán trí tuệ nhân tạo phổ biến trên thị trường để tạo ra những hiệu ứng thị giác ảo diệu. Những thuật toán này chính là những gì vẫn được áp dụng trên những chiếc điện thoại của chúng ta để giúp chúng ta chụp ảnh tự sướng đẹp hơn, giúp chiếc xe tự lái để tránh chướng ngại vật, hỗ trợ cơ quan hành pháp, điều khiển vũ khí để đối phó với tội phạm. Bởi vậy mặc dù những kết quả hiện lên màn có lúc đẹp đẽ, thậm chí là hài hước, những người chứng kiến không thể tránh khỏi một cảm giác sợ hãi ngầm xâm chiếm mình.

Sau đó, những thuật toán phức tạp nhận diện khuôn mặt đưa ra những nhận xét về các thành viên của Tứ tấu Kronos và hiển thị kết quả lên trên màn hình “Đây là John (Sherba). John chắc khoảng 24 – 40 tuổi”, Máy tính nói. “Sunny (Yang) trông 94.4% là phụ nữ. Sunny đang 80% giận dữ và 10% bình thường”

“Một trong những điều mà tôi kì vọng buổi biểu diễn này thể hiện là một vài cách nhận thức của máy tính không hề trung lập. Nó đầy thiên kiến…với những mặc định về văn hóa và chính trị không hề khách quan”. Nếu hệ thống phân loại giới tính nói rằng Sunny Yang là 94.4% nữ thì nó ngụ ý rằng có ai đó là 100% nữ. “Và 100% nữ là ai? Búp bê Barbie chăng? Và tại sao giới chỉ gồm nam và nữ?” Paglen đặt câu hỏi. “Nhìn thấy điều đó diễn ra ở thời điểm mà chính phủ liên bang cố gắng, theo nghĩa đen không thừa nhận những người giới tính thứ ba, một mặt nó thật khôi hài nhưng với tôi nó cũng thật đáng sợ”

Một thuật toán về sau đó chuyển sang việc nhận dạng các vật trong cảnh quay một cách giản đơn: “Micro. Đàn Violin. Người. Sứa. Tóc giả” (Hai nhận dạng sau hoàn toàn là sai, thuật toán có vẻ tưởng Hank Dutt là con sứa và mái tóc thật của Harrington với mẩu tóc giả.) Tiếp đó việc phân loại trở nên phức tạp hơn. “Sunny đang cầm một cái kéo”, máy nói khi ánh sáng khiến dây đàn cello của cô lóe lên. “John đang cầm một con dao”. Điều gì xảy ra nếu như kẻ phân loại này đưa thông tin – sai lệch – cho cơ quan an ninh nhỉ, chúng ta sẽ chẳng thể nào tưởng tượng được.


Máy tính vẽ các thành viên trong Tứ tấu. Nguồn ảnh: Barbican.org.uk

Những người dùng cuối của các nền tảng AI, những ai không phải là các nghệ sĩ, có thể tranh luận rằng những hệ thống này có những định kiến của riêng nó nhưng rồi con người mới là kẻ quyết định cuối cùng. Một thuật toán do Amazon tạo ra, Rekognition, được bán cho các cơ quan hành pháp và có thể là ICE, khá nổi tiếng với việc nhận dạng 28 thành viên của Quốc hội là những người từng phạm tội bằng cách so sánh gương mặt của họ với những ảnh công vụ trong một cơ sở dữ liệu công khai. Vào thời điểm đó, Amazon lập luận rằng Hiệp đoàn Luật sư Mỹ ACLU, cơ quan sử dụng hệ thống này để nhận dạng đã sử dụng Rekognition sai cách. Công ty này nói rằng cài đặt mặc định của hệ thống cho việc nhận dạng này, có “khoảng chính xác” chỉ là 80% (nói cách khác, thuật toán chỉ dám chắc 80% John Lewis, thành viên Đảng Cộng hòa là tội phạm). Một đại diện của Amazon nói rằng họ gợi ý cơ quan an ninh sử dụng “khoảng chính xác” 95% và “Amazon Rekognition hầu hết mới được dùng để thu hẹp đối tượng tình nghi và cho phép con người kiểm tra và xem xét các khả năng dựa trên suy luận của họ nhanh chóng hơn”. Máy tính có thể giao tiếp với nhau, nhưng – bây giờ - chúng vẫn phải cần đến con người đưa ra quyết định.

Âm nhạc trong buổi biểu diễn, được lựa chọn bởi Paglen dựa trên những đề xuất của Kronos, cũng nói lên vài điều về công nghệ. Một tác phẩm “Nhà máy phát điện” (Powerhouse) có lẽ là “nổi tiếng nhất vì được sử dụng trong những cảnh nhà máy của các bộ phim hoạt hình”, Paglen nói. “Nếu bạn từng thấy một nhà máy đang sản xuất quá công suất và đang phát điên, đây chính là âm nhạc để diễn tả điều đó. Với tôi đó là một cách để nghĩ về công nghiệp hóa một cách biếm họa và đặt nó trong bối cảnh công nghệ hiện nay”. Một tác phẩm khác “Những đoàn tàu khác nhau” (Different Trains) bởi Steve Reich, khép lại buổi biểu diễn. Kronos chỉ biểu diễn chương đầu tiên, nói về tuổi thơ của Reich vào những năm 1930 và 1940; Paglen nói ông nghĩ về tác phẩm này như một cách tung hô “cảm giác phấn khởi và sự tiến bộ mà những đoàn tàu mang lại”

Tác phẩm “Những đoàn tàu khác nhau” này còn đi kèm với những hình ảnh từ một cơ sở dữ liệu công khai gọi là ImageNet, thường dùng để dạy máy. Màn hình chuyển những hình ảnh với tốc độ nhanh không tưởng, trình chiếu những ví dụ về hoa quả, hoa, chim, mũ, mọi người đang đứng, mọi người đang bước đi, mọi người đang nhảy và những cá nhân như diễn viên Arnold Schwarzenegger. Nếu bạn muốn dạy máy tính làm thế nào để nhận ra một người, như Schwarzenegger, hoặc một ngôi nhà, hoặc khái niệm “bữa tối”, bạn phải bắt đầu bằng cách cho máy tính xem hàng ngàn bức ảnh này.

Cũng xuất hiện trên màn hình cả những video clip ngắn về mọi người đang hôn nhau, ôm nhau, cười phá lên, cười mỉm. Có lẽ một trí tuệ nhân tạo được đào tạo bởi những bức ảnh này sẽ rất nhân từ và thân thiện.

Nhưng “Những đoàn tàu khác nhau” không chỉ toàn sự lạc quan, những chương sau, Kronos không chơi bản thứ năm nhưng như đã ngụ ý bởi chương thứ nhất, về những hứa hẹn mà đoàn tàu mang đến về sau lại trở thành công cụ của Đức Quốc xã. Những đoàn tàu, cũng giống như sự tiến bộ của công nghệ, trở thành những phương tiện chở hàng chục nghìn người Do Thái đến những trại chết chóc. Những gì có vẻ như một công nghệ nhân từ lại ẩn chứa ác quỷ.

“Nó giống như, “Có điều gì đó sai ở đây?” Paglen nói. “Chúng ta đã thu thập tất cả thông tin về tất cả mọi người trên thế giới”.

Và thực tế, như bản nhạc kết thúc, ống kính đột ngột thay đổi. Màn hình không còn chiếu những bức ảnh của Kronos hay những dữ liệu cho học máy từ ImageNet, thay vào đó, nó chiếu những video quay khan giả và những thuật toán nhận diện khuôn mặt chỉ ra đặc điểm của từng người. Thực sự, ngay cả khi chúng ta nghĩ rằng chúng ta không ngờ đến, thì chúng ta vẫn bị.

Âm nhạc, theo như Paglen nói, “là một cái gì đó thực sự không thể định lượng ... khi bạn xem một hệ thống máy tính lấy dữ liệu từ người biểu diễn, tôi cảm thấy cần phải chỉ ra sự khác biệt to lớn giữa cách chúng ta nhìn nhận văn hóa, cảm xúc và ý nghĩa... và cách những hệ thống tự động nhận định.”.

Hay như Harrington chỉ ra, bạn có thể tạo ra âm nhạc với một chiếc đàn violin làm từ gỗ hay từ chiếc máy in 3D. Bạn có thể dùng cây vĩ làm từ sợi carbon hay làm từ gỗ pernambuco (lấy từ phần lõi cây, có màu đậm hơn). Nhưng ông nói, dù thế nào cây vĩ phải lướt qua những dây đàn.

Âm nhạc “trở nên quý giá hơn bởi vì nó là thủ công”.

Đến bây giờ, đó vẫn là thứ duy nhất mà chỉ chúng ta làm được. Máy móc có thể không cần chúng ta nữa. Nhưng khi cần đến những âm thanh sang trọng của tiếng vĩ chạm vào dây đàn violin, và những cảm xúc mà những nốt nhạc khơi lên, chúng ta không cần máy móc.¨