Công ty khởi nghiệp Diffbot ở ĐH Stanford đang xây dựng một AI có thể đọc mọi trang web trên internet, bằng nhiều ngôn ngữ, và trích xuất càng nhiều dữ kiện từ các trang đó càng tốt.

Hồi tháng 7, GPT-3, mô hình ngôn ngữ mới nhất của OpenAI, đã làm cả thế giới ấn tượng với khả năng đưa ra thông tin "như thật", theo cách rất giống với con người.

Chẳng hạn, trong một bảng tính Excel, cột dọc đầu tiên là tên bốn bang của Hoa Kỳ (Illinois, California, Ohio và Alaska), cột thứ hai là dân số và cột cuối cùng là năm thành lập bang. Các ô dân số và năm thành lập của ba bang đầu tiên đã được điền sẵn đáp án, và từ đó GPT-3 phải tự điền vào các ô còn trống về dân số và năm thành lập của bang cuối cùng, Alaska. Mô hình này đã điền 603.000 vào ô dân số và 1906 vào năm thành lập.

Câu trả lời có vẻ rất đúng định dạng, nhưng sự thực là GPT-3 đã trả lời nhảm nhí. Alaska có dân số hơn 730.000 và trở thành một bang vào năm 1959.

Các mô hình ngôn ngữ như GPT-3 có khả năng bắt chước đáng kinh ngạc, nhưng chúng hiểu rất ít về ý nghĩa của câu nói. “Chúng rất giỏi bịa chuyện," Mike Tung, Giám đốc điều hành Diffbot, cho biết. "Nhưng không được đào tạo để đưa ra thông tin thực tế."

Đó là lý do tại sao Diffbot có một cách tiếp cận khác. Họ đang xây dựng một AI có thể đọc mọi trang trên toàn bộ web công cộng, bằng nhiều ngôn ngữ và trích xuất càng nhiều dữ kiện từ các trang đó càng tốt.

Giống như GPT-3, hệ thống của Diffbot học bằng cách thu thập lượng lớn văn bản trực tuyến. Nhưng thay vì sử dụng dữ liệu đó để đào tạo mô hình ngôn ngữ, Diffbot biến những gì nó đọc thành một chuỗi dữ liệu ba phần liên quan với nhau: chủ từ, động từ, vị từ.

Ví dụ, nhìn vào tiểu sử của một nhà báo ở MIT, Diffbot biết rằng đây là một nhà báo; anh ta làm việc tại MIT Technology Review; MIT Technology Review là một công ty truyền thông; và cứ thế. Mỗi dữ kiện trong số này được kết hợp với hàng tỷ dữ kiện khác trong một mạng lưới dữ kiện rộng lớn mà Diffbot đã thu thập được. Đây được gọi là biểu đồ tri thức (knowledge graph).

Hình minh họa mạng lưới dữ kiện

Biểu đồ tri thức không phải là mới. Chúng đã xuất hiện từ nhiều thập kỷ và là một khái niệm cơ bản trong nghiên cứu AI ban đầu. Nhưng việc xây dựng và duy trì các biểu đồ tri thức thường được thực hiện thủ công.

Một vài năm trước, Google cũng bắt đầu sử dụng biểu đồ tri thức. Tìm kiếm “Katy Perry” trên Google, bạn sẽ nhận được một hộp thông tin cho biết Katy Perry là một ca sĩ kiêm nhạc sĩ người Mỹ; nhạc của cô có trên YouTube, Spotify và Deezer. Một vài thông tin vắn tắt mà Google cũng sẽ trích dẫn là cô 35 tuổi, đã kết hôn với Orlando Bloom, và trị giá 125 triệu USD, v.v... Thay vì cung cấp cho bạn danh sách các trang về Katy Perry, Google cung cấp cho bạn một tập hợp các dữ kiện về cô được rút ra từ biểu đồ tri thức của nó.

Nhưng Google chỉ đưa ra thông tin dạng này cho các cụm từ tìm kiếm phổ biến nhất. Diffbot muốn đưa ra thông tin cho mọi thứ. Bằng cách tự động hóa hoàn toàn quá trình xây dựng, Diffbot muốn xây dựng một biểu đồ tri thức lớn nhất từ trước đến nay.

Cùng với Google và Microsoft, đây là một trong ba công ty Hoa Kỳ lục lọi mọi trang web công cộng. “Tự động hóa là cách duy nhất để xây dựng biểu đồ tri thức quy mô lớn," Heiko Paulheim tại Đại học Mannheim ở Đức, nói.

Đọc web như con người

Để thu thập dữ kiện, AI của Diffbot cũng đọc web như con người nhưng nhanh hơn nhiều. Sử dụng một phiên bản đặc biệt của trình duyệt Chrome, AI này xem các pixel thô của trang web và sử dụng thuật toán nhận dạng hình ảnh để phân loại trang thành một trong 20 loại khác nhau - bao gồm video, hình ảnh, bài viết, sự kiện và chuỗi thảo luận, v.v... Sau đó, nó xác định các yếu tố chính trên trang, chẳng hạn như dòng tiêu đề, tác giả, mô tả sản phẩm hoặc giá cả và trích xuất dữ kiện.

Mỗi dữ kiện khi đã đủ ba phần (chủ từ, động từ, vị từ) sẽ được thêm vào biểu đồ tri thức. Diffbot trích xuất dữ kiện từ các trang được viết bằng bất kỳ ngôn ngữ nào, có nghĩa là nó có thể trả lời các truy vấn về Katy Perry, chẳng hạn, bằng cách sử dụng dữ kiện lấy từ các bài báo bằng tiếng Trung hoặc tiếng Ả Rập, ngay cả khi chúng không chứa chính xác cụm từ “Katy Perry”.

Khả năng duyệt web như một con người cho phép AI nhìn thấy những dữ kiện giống như chúng ta thấy. Cũng có nghĩa là nó phải học cách điều hướng trên web giống như chúng ta. AI phải cuộn xuống, chuyển đổi giữa các tab và nhấp vào cửa sổ. “Nó phải lướt web như một trò chơi điện tử để trải nghiệm các trang," Tung nói.

Diffbot thu thập dữ liệu web không ngừng và xây dựng lại biểu đồ tri thức của nó sau mỗi bốn đến năm ngày. Theo Tung, AI sẽ bổ sung từ 100 triệu đến 150 triệu thực thể vào biểu đồ mỗi tháng khi có những nhân vật mới, sản phẩm mới xuất hiện. Nó sử dụng nhiều thuật toán học máy để kết hợp các dữ kiện mới với các dữ kiện cũ, tạo ra các mối liên quan mới hoặc ghi đè lên các dữ kiện lỗi thời. Để làm được điều này, Diffbot cũng phải liên tục nâng cấp trung tâm dữ liệu của mình khi biểu đồ tri thức ngày càng lớn.

Các nhà nghiên cứu có thể truy cập miễn phí biểu đồ tri thức của Diffbot. Nhưng Diffbot cũng có khoảng 400 khách hàng trả tiền. Công cụ tìm kiếm DuckDuckGo sử dụng Diffbot để tạo các hộp giống như Google. Snapchat sử dụng nó để trích xuất các tin nổi bật từ các trang tin tức. Ứng dụng tổ chức đám cưới phổ biến Zola sử dụng nó để giúp mọi người lập danh sách đám cưới, thu thập hình ảnh và giá cả. NASDAQ sử dụng nó để nghiên cứu tài chính.

Adidas và Nike thậm chí còn sử dụng Diffbot để tìm kiếm giày giả trên internet. Công cụ tìm kiếm thông thường sẽ trả về một danh sách dài các trang web nói về giày của họ, nhưng Diffbot cho phép tìm kiếm các trang web thực sự bán giày của các hãng này.

Hiện tại, các công ty nói trên đang tương tác với Diffbot bằng ngôn ngữ lập trình. Nhưng Tung dự định thêm giao diện ngôn ngữ tự nhiên cho Diffbot. Cuối cùng, anh muốn xây dựng cái mà anh gọi là “hệ thống trả lời câu hỏi dạng thực tế phổ quát”: một AI có thể trả lời hầu hết mọi thứ bạn hỏi, với các nguồn thông tin chính xác đằng sau câu trả lời của nó.

Hai nhà sáng lập của Diffbot đồng ý rằng không thể xây dựng được AI như vậy nếu chỉ dựa trên các mô hình ngôn ngữ, như GPT-3, mà cần kết hợp thêm với một mô hình có thông tin/ dữ kiện thực tế, như Diffbot. Mô hình ngôn ngữ tự nhiên như GPT-3 sẽ là giao diện giao tiếp với người dùng, và đằng sau là một AI "biết tuốt".

Tuy nhiên, một AI cung cấp thông tin chính xác không nhất thiết phải là một AI "thông minh". Tung nói: “Chúng tôi không cố định nghĩa trí thông minh là gì hay bất cứ thứ gì tương tự. Chúng tôi chỉ đang cố gắng tạo ra thứ gì đó hữu ích.”

Nguồn: