Suốt 30 năm trời, người ta không biết làm sao để dạy cho máy tính biết phân biệt được một con mèo cho dễ dàng. Và chính thời điểm ấy, tiến sĩ Lê Viết Quốc, nhà nghiên cứu của Google Brain, bắt đầu bước những bước đầu tiên trên hành trình vạn dặm về trí tuệ nhân tạo của mình, từ chuyện nhận diện một con mèo như vậy.

TS. Lê Viết Quốc (thứ hai, từ trái sang) trao đổi với các sinh viên Đại học Fulbright.
TS. Lê Viết Quốc (thứ hai, từ trái sang) trao đổi với các sinh viên Đại học Fulbright.

Từ “con mèo” của thuật toán về Máy học

Lúc ấy là thời điểm chàng trai trẻ Lê Viết Quốc đã tốt nghiệp THPT tại Trường Quốc học Huế và nhận được học bổng tại trường ĐH Quốc gia Úc (The Australian National University). Trường này được xếp hạng rất cao, nghiên cứu rất tốt nhưng việc giảng dạy không có gì quá đặc biệt. Năm học đầu tiên, anh thấy mình rảnh rỗi quá. Rồi đến năm thứ 2, anh cảm thấy chán quá. Vậy là anh bắt đầu đi nghiên cứu để mình... không chán nữa.

Tiến sĩ Quốc kể lại: “Thời điểm này, có một thầy trong trường nghiên cứu về trí tuệ nhân tạo, thứ đang rất mới mẻ lúc bấy giờ. Nhưng tôi thấy nó đầy hấp dẫn và thu hút bản thân mình. Một lý do quan trọng là trí tuệ nhân tạo làm tôi quay về những suy nghĩ của mình ở thuở ấu thơ. Tôi sinh năm 1982 tại Thủy Dương (TX.Hương Thủy, Thừa Thiên Huế). Cấp 1, tôi chỉ học trường làng. Cuộc sống lúc ấy rất êm đềm và bình thường. Đến khi tôi được 13 – 14 tuổi, tình cờ tôi có đọc một cuốn sách trong thư viện của một người bác. Đó là cuốn sách nói về lịch sử các phát kiến vĩ đại của loài người. Trong đó có một bức hình về người đầu tiên đặt chân lên Mặt trăng. Khi nhìn bức hình này, tôi rất ngạc nhiên là loài người không mạnh như voi, không biết bay như chim nhưng là loài đầu tiên đặt chân lên Mặt trăng. Tôi suy nghĩ mãi và nghĩ rằng lý do nằm ở chỗ chúng ta là loài động vật thông minh nhất trên Trái đất. Từ đó, tôi có rất nhiều đam mê về khoa học kỹ thuật. và suy nghĩ từ ấu thơ ấy thôi thúc tôi lựa chọn nghiên cứu ngành trí tuệ nhân tạo nên đã liên hệ để xin phép thầy”.

Ban đầu, thầy giảng giải cho tôi rằng nghiên cứu trí tuệ nhân tạo quy chung về một vấn đề rất đơn giản là phân loại. Ví dụ, có vài hình ảnh về những con chó, vài hình ảnh về những con mèo. Người ta phân biệt chúng bởi những đặc điểm đặc trưng về mũi, mắt... Để dạy cho máy tính phân biệt được là chó hay mèo thì con người cũng sẽ dạy về những đặc điểm như vậy. Nhưng suốt 30 năm trời, người ta vẫn không phát hiện được làm sao phân biệt chó với mèo cho được dễ dàng.


Chúng ta thấy một con vật và nhận diện ra đó là một con mèo. Điều này có dễ không? Dĩ nhiên là dễ. Bởi chúng ta phân biệt được con mèo gồm những bộ phận khác biệt nào mà chỉ một con mèo mới có mà một con chó, con gà... không có được. Nhưng dạy cho máy tính phân biệt thì có dễ không? Không dễ tí nào.

Khi Quốc bắt đầu nghiên cứu về ngành này, thế giới xuất hiện một ý tưởng để giải quyết nan đề này thành công nhất . Đó là đưa các bức hình gồm những điểm đặc trưng này vào mạng nơ-ron, sau đó đưa qua các lớp xử lý, lấy dữ liệu phần hình ảnh, nhân với ma trận, đưa kết quả phần tiếp theo (nhiều lần), rồi sẽ phân tích được đó là chó hay mèo. Máy tính sẽ thay đổi ma trận để làm sao cuối cùng thì bức hình đưa vào nếu là chó thì máy nhận diện là chó, mèo thì nhận diện là mèo.

Thuật toán ấy càng về sau này càng là một trong những thuật toán thành công nhất trong ngành Máy học. Từ việc giải quyết vấn đề về con mèo ấy, thuật toán này được áp dụng ở khắp nơi. Chẳng hạn, nếu muốn có một chiếc xe tự lái thì camera sẽ chụp bức hình phía trước xe. Máy sẽ phải phân biệt được đâu là xe, đâu là đèn đường, đâu là cây, đâu là người đi xe máy, đi bộ, đâu là nhà... Vậy là chiếc xe sẽ được lập trình để đi đến nơi đã định.

Đến “con mèo” của Lê Viết Quốc

Những điều trên đây là một trong những buổi chia sẻ hiếm hoi của tiến sĩ Lê Viết Quốc, nhà nghiên cứu hàng đầu về trí tuệ nhân tạo tại dự án Google Brain của Google qua buổi nói chuyện qua mạng (live chat) với sinh viên trường ĐH Fulbright Việt Nam và những người quan tâm mới đây.

Anh kể tiếp: “Năm 2007, tôi đến ĐH Stanford làm nghiên cứu sinh về Khoa học máy tính. Trong 5 năm, phần nghiên cứu chính của tôi là về Deep Learning (Học sâu). Lúc bấy giờ, ngành này không được đánh giá cao vì trước đó không có nhiều thành công. Nhưng trong suy nghĩ của tôi lúc ấy, tương lai của ngành này có tiềm năng rất lớn. Cũng như vậy, việc nghiên cứu của tôi thời điểm này cũng không có nhiều thành công”.

Nhưng đến năm 2011, anh phát hiện ra bí quyết để thực hành ngành này thành công. Đó là... cần rất nhiều máy tính. Anh đến Google xin làm thực tập sinh và một trong những nghiên cứu chính của anh ở Google thời điểm này chính là kết nối thật nhiều máy tính để nhận diện hình ảnh.

Khoảng năm 2012, nghiên cứu thành công nhất của anh xuất hiện trên The New York Times. Bài nghiên cứu có hình ảnh trên trang chính với câu hỏi “How Many Computers to Identify a Cat?” (Bao nhiêu máy tính để nhận diện được một con mèo?). Câu trả lời của anh là 16.000 máy tính. Nghiên cứu này ở năm 2012 trở thành một trong những nghiên cứu gây tiếng vang rất lớn và thay đổi diện mạo ngành Máy học. Trước đây mọi người cho rằng phải thay đổi thuật toán của ngành này. Nhưng qua nghiên cứu của anh, mọi người lại biết rằng cần nhiều máy tính để thực hiện thành công.

“Kể từ đó, tôi làm rất nhiều thứ về nhận diện hình ảnh, nhận diện giọng nói... Nhưng nghiên cứu thành công nhất của tôi, sau đó xuất hiện một lần nữa trên The New York Times là nghiên cứu về dịch thuật. Cái hay ở chỗ là trước đây người ta thường dịch thuật từng chữ một. Chẳng hạn “Tôi thích đá bóng” thì sẽ được dịch ra từng chữ “I” + “Like” + “Football”, sau đó ráp lại thành câu. Nhưng nghiên cứu của tôi đặt luôn một câu tiếng Việt, sau đó chuyển thành một vector (khái niệm véc-tơ trong toán học), sau đó diễn giải từng chữ một trong tiếng Việt. Những người làm về Máy dịch thuật lúc đó rất hoài nghi là ý tưởng này không thành công. Nhưng bây giờ thì tất cả trang dịch thuật đều dùng. Bạn dùng Facebook, Google Translate, Microsoft, Twitter... đều dùng cách dịch thuật mà tôi và đồng nghiệp đã từng nghiên cứu” – tiến sĩ Quốc kể lại.

Theo anh, cái hay là dù anh chỉ biết 2 ngôn ngữ là tiếng Việt và tiếng Anh nhưng chương trình mà anh và đồng nghiệp sáng tạo ra lại có thể sử dụng với hơn 200 ngôn ngữ. Đó là điều đặc biệt của Máy học (Machine Learning).