Từ giữa năm 2004, Lê Viết Quốc làm việc về machine learning (một chuyên ngành của bộ môn trí tuệ nhân tạo) với GS Alex Smola. Năm 2007, Quốc sang Đức làm nghiên cứu với viện Max Planck Biological Cybernetics. Cùng thời gian đó, Quốc nộp hồ sơ làm tiến sĩ ở Stanford và được chấp nhận. Quốc đến Stanford làm việc về machine learning dưới sự hướng dẫn của GS Andrew Ng.
Trong thời gian nghiên cứu ở Stanfrod, từ hai năm nay, Google có lời mời cộng tác, nên Quốc đến làm việc ở đây cùng nhóm với GS Andrew Ng. Sau khi bảo vệ thành công luận án tiến sĩ vào đầu năm 2013, Quốc bắt đầu làm việc tại Google từ năm 2013 chuyên nghiên cứu về trí tuệ nhân tạo và ngôn ngữ. Những sản phẩm như Google Translate (công cụ dịch của Google) và Google Search (công cụ tìm kiếm của Google) đều có các đóng góp của Quốc.
Viết Quốc nhìn thế giới như một chuỗi số
Một bức ảnh kỹ thuật số không gì hơn là các con số, anh nói, và nếu bạn tách được các từ nói thành các âm vị (phonemes), bạn cũng có thể biến chúng thành các con số. Sau đó, bạn có thể đưa số liệu đó vào máy, và điều đó có nghĩa là máy sau cùng có thể hiểu được các nội dung của hình ảnh và ý nghĩa của các từ. Facebook có thể nhận ra khuôn mặt của bạn, và Google có thể hành động theo những từ cụ thể bạn nói.
Nhưng Quốc muốn đi xa hơn. Anh muốn tạo ra các công nghệ có thể lấy toàn bộ các câu (sentences), toàn bộ các đoạn văn (paragraphs) , và các loại ngôn ngữ tự nhiên khác và biến chúng thành các con số − hoặc các véc tơ, các cấu trúc toán mà các nhà khoa học máy tính sử dụng, để dịch những điều chúng ta nhìn thấy và nghe thấy thành thông tin mà máy có thể hiểu. Anh ta thậm chí còn thăm dò, khám phá những khả năng máy có thể hiểu những thứ như ý kiến và cảm xúc.
Đối với một số công nghệ này, việc thực hiện chúng còn là một chặng đường dài. Nhưng Viết Quốc có nhiều nguồn lực để sử dụng hơn là phần lớn những người khác. Anh làm việc tại trung tâm Google Brain, nơi người khổng lồ Google đi sâu vào ngành “học sâu” (Deep Learning), một hình thức trí tuệ nhân tạo, loại công nghệ xử lý dữ liệu theo những cách thức bắt chước bộ não con người, ít ra về vài phương diện nào đó.
Quốc là một trong những lập trình viên chính của công trình đầu tiên của Google Brain, một hệ thống tự học cách nhận dạng mèo qua các hình ảnh trên YouTube, và kể từ đó, người Việt 32 tuổi này đã giúp đỡ xây dựng các hệ thống Google nhận dạng các từ nói trên điện thoại Android, và tự động đánh dấu (tag) ảnh của bạn trên web, cả hai kỹ thuật đều được hỗ trợ từ công nghệ học sâu.
Học sâu đang thúc đẩy phát triển các công cụ tương tự tại các công ty internet khổng lồ khác, bao gồm Facebook và Microsoft. Khả năng của nó tăng tốc nhận dạng hình ảnh và giọng nói, đã được ghi nhận rõ rệt, và công ty khổng lồ Trung Quốc Baidu đã nói công khai về công nghệ này có thể tăng doanh thu như thế nào, bằng cách cung cấp một cách tốt hơn cho khách hàng, để nhắm mục tiêu quảng cáo. Nhưng Quốc là một trong những người mong muốn đẩy công nghệ vào nhiều lĩnh vực hơn nữa, bao gồm mọi thứ từ sự hiểu biết về ngôn ngữ tự nhiên đến người máy, đến các công cụ tìm kiếm hiện giờ.
Tại Google, anh đã giúp phát triển một hệ thống chuyển hoá từ vựng thành véc tơ toán học. Và theo Google, công trình này sau đó sẽ đưa vào hệ thống được phát triển chủ yếu bởi một nhà nghiên cứu có tên là Tomas Mikolov (2). Được gọi là Word2Vec, hệ thống xác định những từ khác nhau trên mạng được liên quan như thế nào, và Google hiện đang sử dụng nó như một phương tiện để tăng cường “đồ thị kiến thức” (knowledge graph) − đó là một tập hợp lớn các kết nối giữa các khái niệm liên quan làm cho cỗ máy tìm kiếm của Google hoạt động rất tốt. Đó là một cách để kiểm tra các sự kiện một cách nhanh chóng hơn − và ở quy mô lớn hơn. Và còn nhiều thứ hơn nữa đang trên đường thực hiện.
“Thực là bực bội”
Khi Quốc lần đầu tiên bắt đầu nghiên cứu AI, vào những năm 1990, nó “thực sự làm phiền” anh. Anh không thích các hệ thống máy-học dựa quá nhiều vào đầu vào (input) từ các kỹ sư con người. Máy có thể học − ít nhất đến một mức độ nhất định − nhưng chúng cần đến hàng lố hướng dẫn để làm được như vậy. Chúng không thể học cách nhận ra những bức ảnh, trừ khi những bức ảnh đó được dán nhãn chỉ dẫn từng cái (ví dụ: ảnh này là con mèo, ảnh kia là con cá…). Để đạt được sự thông minh thực sự, Quốc nói, máy phải tự học, không cần nhãn hiệu chỉ dẫn, giống như con người.
“Chúng ta (con người) học được từ rất nhiều dữ liệu thô không cần nhãn gì cả”, Quốc nói, người đã nghiên cứu về trí thông minh nhân tạo tại Stanford, cùng với Andrew Ng, hiện là giám đốc nghiên cứu của Baidu, và là một trong những người sáng lập ra dự án Google Brain. “Thật là tuyệt vời nếu chúng ta có thể có một thuật toán có thể học như vậy – học giống như người – vì đó là một cách học thực tế hơn, chúng ta có nhiều dữ liệu không dán nhãn hơn là những dữ liệu được dán nhãn”. Thật ra, hầu hết những thứ chúng tôi gửi đến những nơi như Facebook và Twitter và Google, đều không được gắn nhãn.
Đây là những gì mà học sâu tìm cách đạt được. Sử dụng hàng trăm máy để vận hành “các mạng thần kinh” phức tạp – các kiến trúc (construct) phần mềm có nhiệm vụ bắt chước các mạng nơ ron trong não – nó cho phép các máy học hỏi. Trong một số trường hợp, việc học đó xảy ra một mình mà không có ai dán nhãn tất cả các dữ liệu.
Máy tìm mèo của Google là một ví dụ quan trọng. Thật không may, ba năm sau, loại học không giám sát này đã không thực sự được ưa chuộng, và hầu hết các hệ thống học sâu thương mại vẫn dựa vào việc học có giám sát. “Mặc dù chuyện mèo không hữu ích, nhưng trong đầu tôi, một dấu hiệu sáng ra đang thúc đẩy quá trình học sâu, để dành nhiều thời gian hơn cho việc học không giám sát, như một hứa hẹn cho tương lai”, Ng nói.
Điều đó có thể hữu ích cho việc xử lý ngôn ngữ tự nhiên, hay NLP (Natural Language Processing), một ngành AI nhằm tìm kiếm để hiểu ý nghĩa đằng sau ngôn ngữ − một nhiệm vụ khó khăn hơn việc làm sao để cho máy móc hiểu hình ảnh và các lệnh tiếng nói đơn giản.
(Xem tiếp kỳ sau)
(1) Bản gốc: https://www.wired.com/2014/12/googlers-quest-teach-machines-understand-emotions/
(2) Mikolov bây giờ đang làm việc tại Facebook