Trang chủ Công nghệ

Công nghệ

AlphaStar đánh bại những game thủ giỏi nhất

11/11/2019 07:03

Một trí thông minh nhân tạo (AI) có tên AlphaStar do công ty DeepMind thuộc Google xây dựng vừa được xếp hạng top 0,15% game thủ giỏi nhất trong tổng số 90.000 người chơi ở khu vực châu Âu.

Người chơi StarCraft II chiến đấu với nhau trong một chiến trường tương lai.

Kết quả này, được công bố vào ngày 30 tháng 10 trên tạp chí Nature, cho thấy AI có thể cạnh tranh ở cấp độ cao nhất của StarCraft II, một trò chơi chiến thuật trực tuyến phổ biến, trong đó người chơi sẽ đóng vai một trong ba phe (lực lượng Terran của con người hoặc một trong hai nhóm người ngoài hành tinh Protoss và Zerg) - chiến đấu với nhau trong một chiến trường tương lai.

Trong StarCraft II, người chơi thực hiện hơn 300 hành động mỗi phút và phải đa nhiệm các công việc: quản lý tài nguyên, thực hiện các thao tác chiến đấu phức tạp và cuối cùng là đánh bại chiến thuật của đối thủ.

Còn AI của DeepMind dựa trên các mạng thần kinh nhân tạo học cách nhận biết các hình mẫu, chiến thuật từ các tập dữ liệu lớn và sau đó tự đưa ra quyết định thay vì hoạt động dựa trên những hướng dẫn cụ thể được lập trình trước.

Trước đây DeepMind đã xây dựng các AI thống trị cờ vua, cờ vây và giờ nhắm đến việc đưa AI giành chiến thắng trong trò StarCraft II để làm cột mốc tiếp theo trong nhiệm vụ phát triển một AI toàn năng - một cỗ máy có khả năng học hoặc hiểu bất kỳ nhiệm vụ nào của con người. Starcraft được lựa chọn vì sự phức tạp chiến thuật và nhịp độ nhanh của trò chơi này.

Lần đầu DeepMind cho AlphaStar đọ sức với người chơi chuyên nghiệp cao cấp vào tháng 12 năm ngoái trong một loạt các ván chơi thử nghiệm. Lúc đó AlphaStar đã đánh bại hai người chơi chuyên nghiệp, nhưng các ý kiến phản biện cho rằng các trận đấu đó không công bằng vì AlphaStar xử lý với tốc độ và độ chính xác của máy tính vượt xa con người.

Sự phức tạp đầy thách thức

Sự phức tạp của StarCraft II đặt ra những thách thức lớn đối với AI. Không giống như cờ vua, StarCraft II có đến hàng trăm ‘quân cờ’ - những loại lính khác nhau trong các quân đội khác nhau của các phe - vận hành đồng thời theo thời gian thực, không theo kiểu trật tự lần lượt như cờ.

Tại mỗi thời điểm, một quân cờ chỉ có số bước di chuyển hợp lệ hạn chế và AlphaStar có thể chọn trong số 1026 hành động này. Và StarCraft II không giống như cờ vua, là một trò chơi với thông tin không hoàn hảo - người chơi thường không thể thấy đối thủ của mình đang làm gì. Điều này làm cho trò chơi càng khó đoán.

Trong gần một thập kỷ qua, các nhà nghiên cứu đã thử sức các chương trình máy tính chơi StarCraft và StarCraft II với nhau trong một cuộc thi hàng năm. Oriol Vinyals, cũng đang đồng chủ nhiệm dự án AlphaStar, thuộc nhóm nghiên cứu từ Đại học California, Berkeley đã giành chiến thắng trong cuộc thi đầu tiên vào năm 2010. Tuy nhiên, không giống như AlphaStar, hầu hết các chương trình này vận hành dựa vào các quy tắc được mã hóa cứng chứ không phải các mạng thần kinh có thể tự học. “Khi đó tôi đã bắt đầu nghĩ có lẽ nên sử dụng học máy, nhưng còn quá sớm”, Vinyals nói.

Năm 2016, Vinyals đã tham gia DeepMind và bắt đầu phát triển các AI có thể tự dạy mình cách chơi StarCraft II. AlphaStar bắt đầu tự học bằng cách bắt chước từ một bộ dữ liệu gần một triệu ván chơi của con người. Để cải thiện AlphaStar hơn nữa, DeepMind đã tạo ra một giải đấu cho các phiên bản khác nhau của AI này cạnh tranh với nhau. “Phương pháp này có ý nghĩa đối với một trò chơi như StarCraft II, nơi đó không có một chiến lược nào là tốt nhất, cũng như cho nhiều ứng dụng thực tế khác của AI”, Kai Arulkumaran, nhà nghiên cứu AI tại Imperial College London, nói.

DeepMind cũng đặt ra giới hạn với AlphaStar để đảm bảo AI thực sự vượt qua con người về suy nghĩ và chiến thuật chứ không chỉ phản xạ nhanh hơn. Bởi vì Starcraft là trò chơi đòi hỏi thao tác nhanh, một máy tính phản xạ với tốc độ siêu phàm có thể đánh bại con người mà không cần thông minh hơn hoặc đưa ra quyết định tốt hơn. DeepMind đã giới hạn tốc độ phản xạ của AlphaStar xuống mức bằng những người chơi có kinh nghiệm. Và cuối cùng, với những điều kiện này và sau 27 ngày học, AlphaStar nằm trong top 0,5% những người chơi giỏi nhất trong số tất cả người chơi trên máy chủ châu Âu.

Đến nay, phiên bản cuối cùng của AI AlphaStar được học trong 44 ngày và thường xuyên chơi với các người chơi chuyên nghiệp. Tuy AI AlphaStar chưa thể đánh bại những người chơi giỏi nhất thế giới trong tất cả các trận như trước đây đã từng chiến thắng con người trong cờ vua và cờ vây, nhưng DeepMind cho rằng thử nghiệm đã thành công, và nói rằng AI của họ họ đã chinh phục được game StarCraft II (AlphaStar thắng 61/90 trận trước các game thủ xếp hạng cao).

Tuy nhiên, các nhà khoa học AI khác không cho rằng thử nghiệm là một chiến thắng hoàn toàn vì AlphaStar vẫn còn một số điểm yếu. Dave Churchill, một nhà nghiên cứu AI tại Memorial University of Newfoundland (MUN), Canada, cho rằng AlphaStar vẫn dễ bị tổn thương trước các chiến thuật mà nó chưa từng được thấy và học từ trước. “Đây là một hệ thống AI rất ấn tượng và chắc chắn là hệ thống AI mạnh nhất đối với trò chơi StarCraft cho đến nay”, ông nói. “Tuy nhiên không thể coi AI đã chinh phục hoàn toàn Starcraft, và AlphaStar thậm chí còn chưa thể chơi ở cấp độ vô địch thế giới”.

Trước Alphastar, Deepmind cũng tạo ra AI đánh cờ AlphaZero và AI này chỉ mất bốn giờ tự học để trở thành chương trình cờ vua mạnh nhất trong lịch sử vào năm 2017.

“Với tư cách là một kỳ thủ sắc sảo và chủ động tấn công, tôi thấy rất vui khi xem AlphaZero thi đấu. Bởi vì, thông thường máy chơi cờ theo cách rất chắc chắn và chậm nhưng AlphaZero lại làm điều ngược lại. Thật đáng ngạc nhiên khi thấy một cỗ máy chơi một cách xông xáo như vậy, và AlphaZero cũng cho thấy rất nhiều sự sáng tạo. Đó là một bước đột phá thực sự - và tôi tin rằng thành tựu này có thể cực kỳ hữu ích cho nhiều nghiên cứu khác trong lĩnh vực khoa học máy tính”. Garry Kasparov, cựu vô địch thế giới và là một trong những đại kiện tướng cờ vua mạnh nhất trong lịch sử nhận xét.

Trong một bài báo xuất bản trên tạp chí Science, các nhà nghiên cứu tại Deepmind đã giải thích cách AlphaZero học cách chơi cờ vua, cờ vây và Shogi bằng cách tự chơi hàng triệu ván thông qua quá trình thử và sai gọi là học tăng cường. Trong hơn 1.000 trận đấu với Stockfish, chương trình mạnh hơn bất kỳ đại kiện tướng nào và thường xuyên giành vô địch thế giới cờ vua máy tính Alphazero đã thắng 155 trận, hòa 839 trận và chỉ thua 6 trận.

Khả năng tự học là một bước quan trọng đối với giấc mơ tạo ra một AI có thể giải quyết mọi nhiệm vụ. Trong tương lai gần, AI của DeepMind có thể cho phép các chương trình máy tính thực hiện các thách thức khoa học như cuộn gập protein hoặc nghiên cứu vật liệu, phát hiện thuốc mới, giám đốc điều hành DeepMind Demis Hassabis cho biết trong một cuộc họp báo cuối năm 2017. “Chúng tôi rất vui mừng vì chúng tôi nghĩ rằng cách làm này bây giờ đã đủ tốt để tạo ra tiến bộ trong những vấn đề thực tế”.

Hoàng Nam (Theo Nature)

TIN TIÊU ĐIỂM

CHUYÊN MỤC