Theo MIT Technology Review, bốn xu hướng trí tuệ nhân tạo (AI) cần theo dõi trong năm nay là AI tùy chỉnh, AI tạo video, AI can thiệp vào bầu cử và robot đa nhiệm.

Dự đoán AI cho năm 2024. Ảnh: IStock
Dự đoán AI cho năm 2024. Ảnh: IStock

Thời điểm này năm ngoái, các nhà quan sát của MIT Technology Review đã dự đoán những xu hướng AI sẽ phát triển mạnh trong năm 2023. Họ đặt cược vào bốn xu hướng lớn: (1) chatbot sẽ trở nên đa phương thức (thực tế, các mô hình ngôn ngữ lớn mạnh nhất hiện nay như GPT-4 của OpenAI và Gemini của Google DeepMind đang hoạt động với cả văn bản, hình ảnh và âm thanh); (2) các nhà hoạch định chính sách sẽ soạn thảo những quy định cứng rắn mới về AI (thực tế, phác thảoTuyên ngôn nhân quyềntrong thời đạiAI của Mỹ hồi tháng 10 và Đạo luật AI của Liên minh châu Âu thông qua hồi tháng 12 đã đem đến hy vọng cho việc kiểm soát AI toàn cầu); (3) các công ty công nghệ lớn sẽ cảm thấy áp lực từ các startup nguồn mở (đúng một nửa, nguồn mở vẫn tiếp tục bùng nổ nhưng các ông lớn như OpenAI và Google vẫn chiếm sân khấu); và (4) AI sẽ thay đổi hẳn ngành dược phẩm (còn quá sớm để khẳng định điều này, AI vẫn đang tạo ra cuộc cách mạng trong lĩnh vực khám phá thuốc nhưng các loại thuốc đầu tiên do AI phát triển vẫn phải mất vài năm nữa mới có mặt trên thị trường).

Năm nay, các nhà công nghệ lại một lần nữa dự đoán ‘Điều gì sẽ xảy ra với bối cảnh AI của năm?’. Họ quyết định bỏ qua những điều hiển nhiên mà ai cũng thấy, rằng các mô hình ngôn ngữ lớn sẽ tiếp tục thống trị, rằng các cơ quan quản lý sẽ ngày càng táo bạo hơn.

Những vấn đề chung của AI - từ thiên kiến dữ liệu, bản quyền trí tuệ, đến chủ nghĩa bi quan doomerism AI (tức niềm tin rằngtrí tuệ nhân tạo sẽ dẫn đến sự kết thúc của nhân loại hoặc ít nhất là dẫn đến một số sự kiện thảm khốc quan trọng) - sẽ tiếp tục định hình các chương trình nghị sự của giới nghiên cứu, quản lý và công chúng không chỉ trong năm 2024 mà còn trong nhiều năm tới.

Vì vậy, năm 2024, các nhà quan sát của MIT Technology Review chọn ra bốn xu hướng cụ thể hơn để theo dõi, bao gồm:

1. Chatbot tùy chỉnh

Chatbot tùy chỉnh

Các công ty công nghệ đầu tư mạnh vào AI đang phải chịu áp lực chứng minh rằng họ có thể kiếm tiền từ sản phẩm của mình. Những gã khổng lồ như OpenAI và Google đặt cược vào công việc nhỏ của số đông: họ phát triển các nền tảng thân thiện, cho phép mọi người tùy chỉnh mô hình ngôn ngữ lớn (LLM) sẵn có để tự tạo ra các chatbot mini phục vụ nhu cầu riêng mà không cần phải biết lập trình.

Trong vài tháng tới, chúng ta sẽ thấy hàng triệu người mày mò với hàng triệu mô hình AI nhỏ. Vì những mô hình tiên tiến nhất như GPT-4 của OpenAI và Gemini của Google không chỉ xử lý được văn bản mà cả hình ảnh và video nên chúng sẽ mở khóa cho một loạt ứng dụng tùy chỉnh mới. Chẳng hạn, một người môi giới bất động sản sẽ đưa dữ liệu của mình vào để tạo ra chatbot tự mô tả về những căn nhà sắp được rao bán, hay một gia sư tạo ra chatbot dạy học toán cho trẻ em lớp sáu dựa trên những hướng dẫn kinh nghiệm tích lũy nhiều năm.

Tất nhiên, sự thành công của kế hoạch này phụ thuộc vào việc liệu các mô hình AI nhỏ có hoạt động đáng tin cậy hay không. Nhìn chung, các mô hình ngôn ngữ thường bịa ra mọi thứ và chứa nhiều thiên kiến. Chúng cũng dễ bị hack, đặc biệt nếu được phép duyệt web. Các công ty công nghệ chưa giải quyết được bất kỳ vấn đề nào trong số đó. Khi sự mới lạ về AI tùy chỉnh biến mất, họ sẽ phải cho khách hàng cách để đối phó với những vướng mắc trên.

2. Tạo video từ văn bản

Text-to-video generator của Nvidia. Ảnh: DC

Làn sóng AI tạo hình ảnh (text-to-image) đã bùng nổ vào năm 2022 và nhanh chóng trở nên phổ biến. Các công cụ như DALL-E, Stable Diffusion, Midjourney và Adobe Firefly đang khiến Internet tràn ngập những hình ảnh ‘ảo’ đáng kinh ngạc về mọi thứ mà con người có thể tưởng tượng. Năm 2024 này, làn sóng mới có thể là AI tạo video (text-to-video). Người ta sẽ sử dụng những văn bản mô tả ngắn ngủn, chỉ vài trăm chữ để điều khiển AI tạo ra các video theo kịch bản của mình.

Năm ngoái, chúng ta đã có cái nhìn đầu tiên về những video được tạo ra khi AI ghép nhiều ảnh tĩnh với nhau thành một clip ngắn vài giây. Chúng hơi giật giật và bị bóp méo. Nhưng công nghệ đã nhanh chóng cải thiện.

Vài tháng một lần, Runway, công ty khởi nghiệp chuyên sản xuất các mô hình video tạo sinh và là nhà đồng sáng tạo Stable Diffusion, đang tung ra các phiên bản công cụ mới. Mô hình mới nhất Gen-2 của họ vẫn tạo ra video chỉ dài vài giây nhưng chất lượng đã cực kỳ nổi bật, không thua kém mấy so với các sản phẩm của hãng hoạt hình Pixar. Runway thậm chí đã thành lập một liên hoan phim AI thường niên để giới thiệu các bộ phim thử nghiệm được tạo bởi công cụ AI. Giải thưởng năm nay trị giá 60.000 USD và mười bộ phim hay nhất sẽ được trình chiếu tại New York và Los Angeles.

Không có gì ngạc nhiên khi các hãng phim lớn cũng chú ý đến công nghệ này. Paramount và Disney đang tìm cách sử dụng AI tạo sinh trong suốt quy trình sản xuất của mình, chẳng hạn như nhép môi diễn viên thành các bản lồng tiếng nước ngoài hoặc dùng hiệu ứng đặc biệt để tạo hình ảnh trẻ hóa của các diễn viên gạo cội.

Bên ngoài màn ảnh rộng, công nghệ video deepfake này cũng đang được dùng cho mục đích tiếp thị hoặc đào tạo. Synthesia có trụ ở UK tạo ra các công cụ biến màn ghi hình một lần của người dẫn chương trình thành các dòng deepfake vô tận, có thể đọc bất kỳ kịch bản nào chỉ bằng một cú nhấp chuột. Theo Synthesia, 44% các doanh nghiệp trong danh sách Fortune 100 của Mỹ đang sử dụng công nghệ của họ.

Việc tạo ra video bằng AI với một chi phí quá rẻ đặt ra câu hỏi nghiêm túc về tương lai của các diễn viên. Giữa năm ngoái, giới diễn viên và biên kịch Mỹ đã bùng lên cuộc đình công hàng chục nghìn người để bày tỏ nỗi lo ngại khi các studio sử dụng và lạm dụng AI, cướp đi quyền lợi của người lao động nghệ thuật. Nói chung, tác động thực sự của công nghệ tạo video chỉ mới bắt đầu, nhưng nó được dự đoán sẽ làm thay đổi cơ bản nghề làm phim.

3. Thông tin sai lệch về bầu cử xuất hiện ở khắp nơi

Tin giả

Năm 2024 là năm bầu cử của hơn 60 quốc gia và vùng lãnh thổ. Nếu những cuộc bầu cử gần đây cho chúng ta thấy điều gì thì đó là các thông tin sai lệch về bầu cử do AI tạo ra và các video deepfake sẽ là một vấn nạn lớn trên không gian mạng.

Các chính trị gia đã từng vũ khí hóa công cụ này. Tại Argentina, hai ứng cử viên tổng thống đã tạo ra hình ảnh và video từ AI để tấn công đối thủ. Tại Slovakia, video deepfake của một nhà lãnh đạo đảng tự do về dọa tăng giá bia và pha trò khiêu dâm đã lan như đám cháy trong cuộc bầu cử. Và ở Mỹ, Donald Trump đã cổ vũ chomột nhóm sử dụng AI để tạo ra các meme với những câu chuyện phân biệt chủng tộc và phân biệt giới tính.

Mặc dù khó để nói những ví dụ này ảnh hưởng đến kết quả của các cuộc bầu cử như thế nào nhưng sự phổ biến của chúng là một xu hướng đáng lo ngại. Nó sẽ khiến người ta khó phân biệt thật giả hơn. Và trong một bầu không khí chính trị vốn đã bị kích động và phân cực, điều này có thể gây ra hậu quả nghiêm trọng.

Chỉ vài năm trước, việc tạo ra một video deepfake sẽ đòi hỏi người dùng phải có kỹ năng công nghệ tiên tiến. Nhưng AI tạo sinh đã làm cho công việc này trở nên dễ dàng và dễ tiếp cận đến nực cười. Kết quả là bây giờ chúng ta có những hình ảnh và video ngày càng giống thật tới nỗi những nguồn uy tín cũng có thể bị đánh lừa. Các hình ảnh do người dùng AI tạo ra để mô tả cuộc khủng hoảng tại dải Gaza đã tràn ngập kho ảnh của Adobe năm ngoái.

2024 sẽ là năm then chốt cho việc đấu tranh chống lại sự tràn lan của những nội dung giả. Người ta đã bắt đầu phát triển các kỹ thuật để theo dõi và giảm thiểu nội dung độc hại, mặc dù chúng vẫn còn sơ khởi. Google đã đính các watermark công nghệ định danh lên ảnh, nhưng việc dùng nó vẫn là tự nguyện và không hoàn hảo. Trong khi đó, các mạng xã hội nổi tiếng là chậm chạp trong việc gỡ bỏ thông tin sai lệch. Vì vậy, chúng ta sẽ có một năm để chứng thực xem mọi người có thể phá vỡ tin tức giả do AI tạo ra như thế nào.

4. Robot đa nhiệm

Robotcat

Vài năm gần đây, trong mảng AI đã chứng kiến sự thay đổi từ việc sử dụng nhiều mô hình nhỏ - mỗi mô hình được đào tạo để thực hiện một nhiệm vụ khác nhau, ví dụ xác định hình ảnh, vẽ hình, chú thích - sang các mô hình đơn lẻ, nguyên khối, được đào tạo để làm tất cả những nhiệm vụ này hoặc hơn thế.

Các nhà nghiên cứu tin rằng cách tiếp cận tương tự cũng có thể hiệu quả với robot. Vì vậy, họ không chỉ đào tạo một robot riêng để lật bánh và một robot khác để mở cửa mà đang nỗ lực tạo ra một mô hình có kích thước phù hợp với tất cả, cung cấp cho robot khả năng đa nhiệm. Một số đã xuất hiện vào năm 2023.

Vào tháng sáu, DeepMind đã cho ra mắt Robotcat có thể điều khiển nhiều dạng cánh tay robot khác nhau thay vì một dạng cánh tay cụ thể, điển hình. Vào tháng 10, công ty đã phối hợp với 33 phòng thí nghiệm đại học để đưa ra một mô hình đa năng gọi là RT-X và một bộ dữ liệu đào tạo thu thập kinh nghiệm từ 22 loại robot khác nhau, cung cấp 500 kỹ năng và 150.000 nhiệm vụ cho robot học hỏi. Chúng sẽ cho phép robot thích ứng để xử lý nhiều nhiệm vụ. Các nhóm nghiên cứu hàng đầu khác trên thế giới cũng đang xem xét cách làm tương tự.

Hướng tiếp cận đa nhiệm này đã cho thấy nhiều hứa hẹn trong mảng xe tự lái. Các công ty khởi nghiệp như Wayve và Ghost đang đi tiên phong trong mộtlàn sóng AI tự lái mới, sử dụng một mô hình lớn duy nhất để điều khiển xe ô tô thay vì nhiều mô hình nhỏ hơn để kiểm soát các nhiệm vụ lái xe cụ thể. Cách làm này cho phép các công ty nhỏ bắt kịp với những gã khổng lồ như Cruise và Waymo.

Nguồn: technologyreview.com