Giải thưởng chính trị giá 3 triệu USD năm nay vinh danh 5 nhà khoa học nghiên cứu về các kiến trúc mạng nơ-ron và thuật toán thúc đẩy sự tiến bộ của Học sâu (Deep Learning)

Thủ tướng Phạm Minh Chính (thứ hai từ trái qua) trao giải Giải thưởng chính VinFuture 2024 cho các nhà khoa học Yoshua Bengio, Jensen Huang và Yann LeCun. Ảnh: BTC
Thủ tướng Phạm Minh Chính (thứ hai từ trái qua) trao giải Giải thưởng chính VinFuture 2024 cho các nhà khoa học (từ trái qua) Yoshua Bengio, Jensen Huang và Yann LeCun. Ảnh: BTC

Tại lễ trao giải VinFuture 2024 diễn ra vào tối 6/12 tại Hà Nội, Giải thưởng chính VinFuture 2024 đã được trao cho năm nhà khoa học: Giáo sư Geoffrey Hinton, Giáo sư Yoshua Bengio (Canada); Giáo sư Yann LeCun, Giáo sư Fei-Fei Li và ông Jen-Hsun Huang (Mỹ) vì “những đóng góp đột phá để thúc đẩy sự tiến bộ của học sâu”.

Giải thưởng chính trị giá 3 triệu USD (~76 tỷ đồng).

Ba trong số đó đã có mặt tại Việt Nam để chia sẻ các hiểu biết và quan điểm của mình về trí tuệ nhân tạo (AI). Hai nhà nghiên cứu còn lại - Geoffrey Hinton và Fei-Fei Li - vì lý do cá nhân - đã vắng mặt.

Thủ tướng Phạm Minh Chính đã có bài phát biểu và trực tiếp trao giải thưởng chính VinFuture cho các nhà khoa học tại buổi lễ.

Học sâu không phải là khái niệm quá mới mẻ và thường được nhắc đến rất nhiều trong thời gian gần đây, nhất là khi cuộc đua phát triển trí tuệ nhân tạo (AI) trở nên sôi động. Tầm quan trọng của nó cũng ngày càng được nâng cao bởi không có lĩnh vực nào mà học sâu không thể tham gia.

Khi kết hợp với dữ liệu lớn, học sâu có thể tạo ra những ứng dụng mạnh mẽ. Chẳng hạn, phát triển các dạng vật liệu mới; dự đoán cấu trúc protein; phát triển thuốc; phân tích dữ liệu gen và lịch sử y tế để chẩn đoán sớm bệnh di truyền; đào tạo các mô hình dự báo bão với độ chính xác cao nhằm ứng phó với biến đổi khí hậu; ứng dụng trong trang trại thông minh để tối ưu hóa thời gian gieo trồng và dự đoán sâu bệnh; ứng dụng trong thành phố thông minh để phân tích dữ liệu từ camera giao thông, cảm biến và GPS làm giảm ùn tắc; tích hợp vào hệ thống điện để phân tích nhu cầu dùng điện theo thời gian thực và kết hợp nguồn điện tái tạo lên lưới v.v

"Học sâu" là gì?

Học sâu (Deep Learning) là một nhánh của trí tuệ nhân tạo (AI). Nó được thiết kế để mô phỏng cách mà bộ não con người xử lý thông tin, cho phép máy tính học hỏi và cải thiện từ dữ liệu mà không cần sự can thiệp của con người.

Về cơ bản, học sâu sử dụng các mạng nơ-ron (neural networks) nhiều lớp, cho phép máy tính tự động nhận diện và phân tích các mẫu trong dữ liệu. Mạng nơ-ron của học sâu mô phỏng gần giống tế bào thần kinh của não người: Mỗi lớp nút sẽ xử lý thông tin từ lớp trước đó và truyền đạt kết quả cho lớp tiếp theo (sẽ được kích hoạt khi đáp ứng một điều kiện ngưỡng nào đó), tạo thành một chuỗi xử lý phức tạp. Điều này giúp hệ thống học được những đặc điểm tinh vi hơn từ dữ liệu, tương tự như cách mà con người nhận thức và hiểu biết về thế giới xung quanh.

Để hình dung một cách đơn giản, “học sâu” giống như việc dạy một đứa trẻ nhận biết thế giới xung quanh. Khi ta đưa cho đứa trẻ hình ảnh của táo, chuối, và cam, đứa trẻ sẽ nhìn vào những đặc điểm như màu sắc, hình dáng và kích thước để phân biệt chúng.

Mạng nơ-ron học sâu cũng hoạt động tương tự như vậy: Lớp đầu vào (input layer) nhận dữ liệu đã dán nhãn, ví dụ hàng chục nghìn bức ảnh trái cây đã được ghi rõ nhãn là “táo” hoặc “không phải táo”. Các lớp ẩn (hidden layers) sau đó sẽ phân tích hình ảnh khác nhau và xây dựng được mối liên kết cụ thể giữa “táo” và các đặc điểm của táo, ví dụ: màu đỏ của táo, hình tròn của táo, lá cây xung quanh có phải lá táo không v.v. Nếu đặc điểm được đáp ứng, thông tin mới được truyền đến lớp ẩn tiếp theo. (Vì đi qua nhiều lớp nên được gọi là “học sâu” - ám chỉ độ sâu từ các lớp).

Cuối cùng, lớp đầu ra (input layer) sẽ đưa ra kết quả - có thể là phân loại hoặc dự đoán - dựa trên những dữ liệu mà nó học được, ví dụ: "Đây là một quả táo" hoặc “Đây không phải là một quả táo”. Sau khi học xong, mạng học sâu sẽ dùng những đặc điểm mà chúng học được từ dữ liệu để nhận dạng những bức ảnh mới.

Quá trình này thường được gọi là truyền xuôi (forward propagation), trong đó thông tin được truyền từ đầu vào đến đầu ra. Sau khi có dự đoán, hệ thống sẽ so sánh kết quả với thực tế để điều chỉnh trọng số của các nơ-ron thông qua một quá trình gọi là truyền ngược (backpropagation).

Điểm khác biệt chính của học sâu so với các phương pháp trước đây là thay vì con người phải chỉ ra từng đặc điểm cụ thể (chẳng hạn như nhập câu lệnh "hãy tìm quả có màu đỏ, có hình tròn") máy tính sẽ tự do khám phá và lọc ra những đặc điểm nào mà chúng cho là quan trọng. Điều này giúp máy tính có thể xử lý được những tác vụ phức tạp mà con người khó có thể mô tả bằng các quy tắc cụ thể. Nhưng ngược lại, nó cũng tạo ra một hộp đen với các lớp ẩn mà con người không thể lý giải được tại sao chúng lại cho ra kết luận như thế.

Cống hiến của các nhà nghiên cứu đoạt giải
  • Geoffrey Hinton
Geoffrey Hinton là giáo sư danh dự của Đại học Toronto. Trước đó, ông đã đồng thời làm việc tại Đại học Toronto và Google (Google Brain) gần một thập kỷ trước khi công khai tuyên bố rời khỏi Google vào tháng 5/2023, với lý do lo ngại về nhiều rủi ro của công nghệ trí tuệ nhân tạo (AI).

Những mô hình nơ-ron toán học đầu tiên đã được xây dựng từ những năm 1940 nhưng phải đến những năm 1980, với sự ra đời của thuật toán "lan truyền ngược" (backpropagation) do nhà khoa học máy tính Geoffrey Hinton phát minh, mạng nơ-ron toán học nhiều lớp mới thực sự trở nên khả thi và hiệu quả. Ông cũng chính là người nhận giải Nobel Vật lý 2024 hồi tháng 10, cùng John J. Hopfield vì đã "đặt nền móng cho học máy ngày nay".

Bài báo xuất bản năm 1986 của ông cùng với David Rumelhart và Ronald Williams mang tên “Learning representations by back-propagating errors” cho thấy các biểu diễn phân tán trong mạng nơ-ron được huấn luyện bởi thuật toán lan truyền ngược. Phương pháp này đã trở thành công cụ tiêu chuẩn trong lĩnh vực trí tuệ nhân tạo và tạo ra các tiến bộ trong nhận diện hình ảnh và giọng nói.

Bên cạnh thuật toán lan truyền ngược, Hinton cũng cống hiến các bước tiến dài cho lĩnh vực thị giác máy tính và nhận diện giọng nói nhờ các nghiên cứu về máy Boltzmann (một dạng mô hình tạo sinh ngẫu nhiên của mạng thần kinh nhân tạo), cải tiến mô hình mạng nơ-ron tích chập (CNNs) và đặc biệt là với thành công của ông cùng các cộng sự tại cuộc thi nhậ diện hình ảnh ImageNet.
  • Yann LeCun
Yann LeCun là giáo sư của Viện Khoa học Toán học Courant tại Đại học New York và hiện là Phó Chủ tịch, Giám đốc Khoa học AI tại Meta.

Giáo sư Yann LeCun được VinFuture ghi nhận bởi công trình tiên phong của ông trong việc phát triển các mạng nơ-ron tích chập (CNNs), một mô hình học sâu đã cách mạng hóa công nghệ nhận dạng hình ảnh và thị giác máy tính. (Tích chập là một phép toán để kết hợp hai hàm số, cho ra kết quả là một hàm số thứ ba.)

Mạng CNN được thiết kế để bắt chước hệ thống thị giác của con người, xử lý hình ảnh theo cách phân cấp. Chúng gồm nhiều lớp, trong đó các lớp tích chập sẽ trích xuất các đặc trưng từ hình ảnh đầu vào, sử dụng bộ lọc và phép tính toán tích chập để tạo ra một bản đồ đặc trưng. Sau đó, các lớp tiếp theo sử dụng thông tin từ bản đồ đặc trưng này để xây dựng một phân cấp nhỏ hơn của hình ảnh, từ đó giúp nhận diện và phân loại đối tượng trong hình ảnh tốt hơn.

Một trong những kiến trúc CNN sớm nhất và có ảnh hưởng nhất mà LeCun tạo ra là LeNet-5. Mô hình này đã chứng minh sức mạnh của học sâu trong việc nhận dạng các chữ số viết tay với độ chính xác đáng kể. Thành tựu này đã đặt nền móng cho việc áp dụng rộng rãi CNN trong các nhiệm vụ liên quan đến hình ảnh khác nhau, như phát hiện đối tượng và nhận diện mặt.

Ông còn có nhưng đóng góp quan trọng trong phương pháp học không giám sát, các mô hình năng lượng và các kỹ thuật lan truyền ngược hiệu quả.
  • Yoshua Bengio
Yoshua Bengio hiện là giáo sư tại Khoa Khoa học Máy tính và Nghiên cứu Tác nghiệp tại Đại học Montréal (Canada) và giám đốc khoa học của Viện Thuật toán học máy Montreal (Viện MILA).

Ông có những đóng góp to lớn về mạng nơ-ron trong học biểu diễn (representation learning) và các mô hình tạo sinh (generative models), đóng góp lớn cho việc máy tính có được khả năng xử lý ngôn ngữ tự nhiên (NLP) của con người.

Trong bài báo nghiên cứu công bố vào năm 2000 với tiêu đề "A Neural Probabilistic Language Model”, Bengio đã mô tả cách mô hình hóa các từ ngữ trong không gian đa chiều bằng vectơ. Các vectơ này giúp nhận diện và nắm bắt các mối quan hệ ngữ nghĩa, cú pháp giữa các từ với nhau. Hơn nữa, nghiên cứu của Bengio cũng khám phá các cơ chế chú ý (attention mechanisms), cho phép các mô hình tập trung vào các phần liên quan của chuỗi ký tự đầu vào, cải thiện khả năng hiểu ngữ cảnh và tạo văn bản mạch lạc. Cơ chế chú ý này đã trở thành một thành phần quan trọng của tất cả các mô hình ngôn ngữ hiện đại.

Các cống hiến của Bengio tác động sâu sắc đến những tác vụ xử lý ngôn ngữ tự nhiên khác nhau, ví dụ như dịch máy, trả lời câu hỏi và tạo sinh văn bản. Chúng mở đường cho sự phát triển của các mô hình ngôn ngữ mạnh mẽ như GPT-3 (mô hình đằng sau ChatGPT của OpenAI) và LaMDA (mô hình đằng sau tất cả các chatbot đàm thoại của Google), giúp chúng có khả năng tạo ra các đoạn văn giao tiếp chất lượng, mượt mà, đúng nghĩa.

Ông cũng có đóng góp nền tảng đối với việc phát triển Mạng đối nghịch tạo sinh (GANs) dẫn tới sự cách mạng hóa trong lĩnh vực AI tạo sinh.

Điều đáng chú ý là cả Yoshua Bengio, Geoffrey Hinton và Yann Lecun đều từng nhận giải thưởng Turing năm 2018 - giải thưởng được ví như "Nobel trong lĩnh vực khoa học máy tính”, nhờ các nghiên cứu liên quan tới mạng nơ-ron sâu, tạo nên những tiến bộ lớn nhất cho ngành khoa học máy tính hiện đại và có ảnh hưởng mạnh mẽ đến việc phát triển AI.
  • Fei-Fei Li
Fei-Fei Li là giáo sư Khoa học Máy tính tại Đại học Stanford và từng nằm trong ban giám đốc của Twitter. Bà hiện giữ chức đồng giám đốc của Viện Trí tuệ nhân tạo lấy con người làm Trung tâm (Stanford HAI) và đồng giám đốc Phòng thí nghiệm Thị giác và Học tập Stanford (SVL).

Giáo sư Fei-Fei Li là một nhà khoa học máy tính nổi tiếng được biết đến với đóng góp tiên phong trong lĩnh vực nhận diện hình ảnh. Năm 2010, bà đã sáng lập và dẫn dắt dự án ImageNet, một trong những cơ sở dữ liệu hình ảnh khổng lồ được dán nhãn tốt nhất, đầy đủ nhất, cho phép máy móc nhận diện và phân loại đối tượng một cách chính xác hơn.

ImageNet đã đặt nền tảng cho việc huấn luyện một loạt mô hình học sâu và thúc đẩy sự phát triển các tác vụ AI như phát hiện vật thể, nhận diện khuôn mặt, và phân loại hình ảnh. Nhờ đó, AI ngày nay có thể được ứng dụng trong nhiều lĩnh vực thực tiễn như xe tự lái, chẩn đoán y tế bằng hình ảnh, camera an ninh thông minh có thể nhận diện biển số xe v.v
  • Jensen Huang
Jensen Huang là người sáng lập, chủ tịch và giám đốc điều hành của Nvidia, một trong những công ty đang dẫn đầu thế giới trong việc cung cấp phần cứng cho AI.

Jensen Huang được VinFuture vinh danh nhờ "những đóng góp vượt bậc trong kiến trúc thuật toán và điện toán tăng tốc". Tại Nvidia, Huang đã dẫn dắt việc phát triển CUDA (Compute Unified Device Architecture), một kiến trúc giúp lập trình các bộ xử lý đồ họa (GPU), biến chúng thành những cỗ máy mạnh mẽ có thể xử lý tốt khối lượng tính toán khổng lồ của học sâu.

Trong học sâu, các mô hình AI cần xử lý lượng dữ liệu lớn và thực hiện hàng triệu phép tính lặp đi lặp lại để "học" từ dữ liệu. GPU, với kiến trúc song song hóa cao, đóng gói hàng nghìn lõi xử lý tương đối đơn giản trên một chip duy nhất, có thể xử lý các tác vụ này nhanh hơn nhiều so với các bộ xử lý trung tâm (CPU) thông thường. Điều này giúp tăng tốc quá trình huấn luyện mô hình AI, từ đó thúc đẩy sự phát triển và ứng dụng của học sâu trong hàng loạt lĩnh vực.

Ngày nay, GPU là công cụ không thể thiếu trong tất cả các viện nghiên cứu và tổ chức phát triển AI trên toàn thế giới. Bằng cách giúp mọi người dễ dàng tiếp cận hơn với công nghệ điện toán tăng tốc, Huang đã định hình lại bối cảnh nghiên cứu học sâu và các ứng dụng của nó trong nhiều ngành công nghiệp, cho phép tất cả mở rộng giới hạn của trí tuệ nhân tạo.


Bên cạnh giải thưởng chính, VinFuture 2024 còn trao ba giải đặc biệt, mỗi giải trị giá 500 nghìn USD (gần 13 tỷ đồng), gồm:

* Giải "Nhà khoa học nữ" được trao cho GS.Kristi S. Anseth (Mỹ) vì những tiến bộ trong thiết kế vật liệu polymer và các phương pháp cho ứng dụng y sinh.

* Giải "Nhà khoa học đến từ các nước đang phát triển" được trao cho TS Firdausi Qadri (Bangladesh) vì sự đổi mới cải tiến vaccine dạng uống ngừa bệnh tả ở các nước đang phát triển.

* Giải "Nhà khoa học nghiên cứu các lĩnh vực mới" được trao cho GS Zelig Eshhar (Israel), GS Carl H. June (Mỹ) và GS Michel Sadelain (Mỹ) vì sự phát triển liệu pháp tế bào CAR-T để điều trị ung thư và các bệnh khác.


Bài đăng KH&PT số 1322 (số 50/2024)