Tại sự kiện Google I/O hôm 15/5 vừa qua, Google đã giới thiệu loạt sản phẩm trí tuệ nhân tạo mới, có thể tích hợp vào website hoặc chạy cục bộ trên thiết bị cho người dùng cuối.

1/ Gemini sẽ có mặt trên hầu hết dịch vụ của Google

Mô hình ngôn ngữ lớn Gemini là con át chủ bài hiện nay của Google. Ngày 15/5, Google đã giới thiệu phiên bản nâng cấp Gemini 1.5 với hàng loạt tính năng mới, và việc tích hợp các phiên bản Geminicó kích thước nhỏ gọn và yêu cầu tính toán ít hơnvào các dòng sản phẩm để phục vụ cho nhiều mục đích khác nhau. Cụ thể:

Gemini trong Gmail: Người dùng Gmail sẽ có thể tìm kiếm, tóm tắt và soạn thảo email của họ bằng Gemini. Nó cũng sẽ có khả năng thực hiện những tác vụ phức tạp hơn, như xử lý trả hàng mua bán online bằng cách tìm kiếm thông tin trong hộp thư đến, xác định các hóa đơn đã chi trả và điền vào biểu mẫu trả hàng trực tuyến.

Gemini 1.5 Pro: Mô hình này được cung cấp cho các nhà phát triển và khách hàng doanh nghiệp thông qua nền tảng AI Studio và Vertex AI. Gemini 1.5 Pro có thể xử lý tối đa 2 triệu token, lớn hơn bất kỳ mô hình thương mại nào hiện nay. Số lượng token đại diện cho số ký tự đầu vào mà AI có thể xử lý trong một lần nhận lệnh. Con số này càng lớn cho thấymô hình có thể tiếp nhận đầu vào càng dài và phức tạp, chứa nhiều thông tin hơn và hiểu được ngữ cảnh tốt hơn.

Theo giới thiệu, Gemini 1.5 Pro có thể phân tích các văn bản, video và bản ghi âm dài hơn trước..., với dung lượng 1 giờ video, 11 giờ âm thanh, 30.000 dòng mã hoặc hơn 700.000 từ. Con số này có thể cao hơn với các khách hàng trả thêm phí.

Gemini Live: là tính năng giúp người dùng tương tác với smartphone bằng giọng nói tự nhiên. Người dùng có thể ngắt lời AI trong khi nó đang trả lời câu hỏi, và nó sẽ thích ứng với những thay đổi này theo thời gian thực. AI này cũng có thể quan sát và phản hồi môi trường quanh người dùng, thông qua ảnh hoặc video từ camera của điện thoại thông minh của họ.

Mô hình Gemini 1.5 Pro được giới thiệu có thể xử lý tối đa 2 triệu token. Ảnh: Google
Mô hình Gemini 1.5 Pro được giới thiệu có thể xử lý tối đa 2 triệu token. Ảnh: Google

Gemini Nano: là mô hình AI nhỏ nhất của Google, được tích hợp vào trình duyệt Chrome. Việc tích hợp sẽ cho phép người dùng thực hiện những việc như tạo đánh giá sản phẩm, bài đăng trên mạng xã hội và các lời giới thiệu khác trực tiếp trong Chrome.

Microsoft đã thêm trợ lý AI Copilot tương tự vào trình duyệt Edge hồi năm ngoái, cho phép người dùng đặt câu hỏi và tóm tắt thông tin trên màn hình. Không giống như Gemini Nano trong Chrome, Copilot trong Edge không chạy cục bộ trên thiết bị của bạn.

Gemini trên Android: Đây là sản phẩm AI thay thế cho Google Assistant. Nó sẽ sớm tận dụng khả năng tích hợp sâu với hệ điều hành di động của Android và các ứng dụng của Google trên CH Play. Người dùng điện thoại có thể trực tiếp kéo và thả hình ảnh do AI tạo ra vào Gmail, Google Messages và các ứng dụng khác. Nếu xem YouTube trên điện thoại, bạn có thể nhấn vào nút “Ask this video” để hỏi AI về những thông tin cụ thể có trong video đó. Gemini trên Android còn làm những việc khác như đặt câu hỏi về các bài viết bạn đang đọc, hỏi về các chi tiết trong bức ảnh đang xem, và thực hiện các tác vụ AI khác.

Gemini trên Google Maps: Tính năng này dành cho các nhà phát triển, và có thể truy cập thông qua Places API. Places API là một giao diện cho phép xử lý dữ liệu về các địa điểm từ Google Maps như tìm kiếm địa điểm, lấy chi tiết địa điểm, tìm kiếm địa điểm lân cận, phân tích dữ liệu địa điểm v.v Ví dụ như Airbnb sử dụng Places API để giúp khách du lịch tìm kiếm chỗ nghỉ phù hợp với nhu cầu của họ.

Khi tích hợp với Gemini, các Place API có thể tạo ra những bản phân tích tóm tắt về địa điểm dựa trên dữ liệu phân tích AI có được từ cộng đồng hơn 300 triệu người đang đóng góp cho Google Maps. Các nhà phát triển sẽ không còn phải viết mô tả tùy chỉnh về các địa điểm của họ. Trong khi người dùng cũng có nhiều lựa chọn tìm kiếm ngoài luồng hơn, ví dụ như hỏi xem “những nhà hàng nào thân thiện với chó và có đồ ăn cho chó".

2/ AI Overview cho Google Search

Google đang bổ sung AI vào công cụ tìm kiếm Google Search của mình để đối phó với sự cạnh tranh ngày càng gay gắt từ ChatGPT và Perplexity.

Kể từ khi những chatbot thông minh như ChatGPT xuất hiện, đã có suy đoán rằng việc hỏi đáp thông tin với chatbot sẽ thay thế hoạt động tìm kiếm truyền thống qua các website, khiến những công cụ tìm kiếm như Google bị mất thị phần.

Trên thanh tìm kiếm của mình, Google đang tung ra các tính năng tóm tắt tổng quan được hỗ trợ bởi AI gọi là AI Overviews. Tính năng này sẽ được mở cho “hàng trăm triệu người dùng ở Mỹ” trong tuần này.

Các tóm tắt sẽ xuất hiện ở đầu trang kết quả tìm kiếm, cùng với danh sách các liên kết thông thường. Bằng cách phân tích các nguồn khác nhau, AI sẽ cô đọng các điểm chính thành một cái nhìn tổng quan ngắn gọn, giúp bạn tiết kiệm thời gian sàng lọc qua nhiều trang web. Điều này có thể hữu ích, nhất là khi người dùng tìm kiếm các chủ đề phức tạp mà họ cần hiểu cơ bản trước khi đi sâu hơn.

Tính năng AI overviews thử nghiệm tại Mỹ. Ảnh: Google
Tính năng AI overviews thử nghiệm tại Mỹ. Ảnh: Google

AI Overview đã được thử nghiệm từ năm ngoái. Dĩ nhiên, cũng có những lời chỉ trích về tính năng tìm kiếm được hỗ trợ bởi AI có thể làm thay đổi cách thức hoạt động của các trang web và làm ảnh hưởng đến doanh nghiệp và báo chí. Nhiều người dùng có thể không muốn click vào website để đọc nội dung gốc mà chỉ muốn đọc một bản tóm tắt. Tuy nhiên, Google cho biết trong thời gian thử nghiệm tính năng AI Overviews, công ty quan sát thấy mọi người click vào nhiều trang web đa dạng hơn.

3/ Veo - công cụ tạo video cạnh tranh với Sora

Veo là một mô hình AI mới của Google, tương tự như mô hình Sora của OpenAI giới thiệu và gây bão hồi tháng Hai. Nó có thể tạo các video "chất lượng cao" 1080p khi dùng câu lệnh prompt bằng văn bản. Veo có thể tạo nhiều phong cách điện ảnh khác nhau, bao gồm các cảnh quay phong cảnh từ trên cao hay tua nhanh.

Theo Google, Veo được xây dựng dựa trên năm mô hình tạo video gồm Generative Query Network (GQN), DVD-GAN , Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, kết hợp với nhiều kỹ thuật khác để cải thiện chất lượng và độ phân giải đầu ra.

Một cảnh trong video do Veo tạo ra. Ảnh: Google

Các video minh họa về khả năng của Veo có thời lượng khoảng 8 giây. Tuy nhiên theo Google, người dùng có thể đưa ra yêu cầu về việc kéo dài thời lượng lên 1 phút 10 giây, cũng như tinh chỉnh bằng lời nhắc bổ sung để thay đổi kết quả. Con số này cao hơn thời lượng tối đa một phút mà OpenAI Sora công bố trước đó.

Hiện nay, Veo chưa được phát hành rộng rãi. Google dự kiến đưa một số tính năng của Veo vào YouTube Shorts và các sản phẩm khác trong tương lai.

4/ Trình tạo ảnh Imagen 3

Google cũng giới thiệu Imagen 3, phiên bản mới nhất trong gia đình mô hình AI tạo hình ảnh của mình. DeepMind, bộ phận nghiên cứu AI của Google, nói rằng Imagen 3 hiểu chính xác hơn các prompt so với mô hình tiền nhiệm Imagen 2, và cũng có “tính sáng tạo và chi tiết" hơn trong các bức ảnh mà nó tạo ra. Ngoài ra, mô hình Imagen 3 cũng tạo ra ít chi thiết không nhất quán trong ảnh hơn và ít lỗi hơn.

Để xoa dịu những lo ngại xung quanh khả năng tạo ra các bức ảnh giả deepfake, Google nói rằng Imagen 3 sẽ sử dụng SynthID, một công cụ đánh dấu do DeepMind phát triển để xác định bức ảnh do AI tạo ra.

Người dùng có thể truy cập vào mô hình Imagen 3 thông qua công cụ ImageFX của Google. Bên cạnh đó, công ty cũng sẽ sớm đưa Imagen 3 vào nền tảng Vertex AI cho những nhà phát triển và khách hàng doanh nghiệp.

Các bức ảnh do mô hình Imagen 3 tạo ra. Ảnh: Google
Các bức ảnh do mô hình Imagen 3 tạo ra. Ảnh: Google

Google không tiết lộ nhiều về nguồn dữ liệu mà họ sử dụng để đào tạo các mô hình AI của mình. Giống như hầu hết các công ty công nghệ hiện nay, Google thu thập dữ liệu có bản quyền mà không cần sự cho phép của người sáng tạo nội dung.

Google không đưa ra công cụ “lựa chọn không tham gia” cho các nhà sáng tạo nội dung để họ lựa chọn loại trừ tác phẩm của mình khỏi các nghiên cứu và đào tạo AI. Google cũng không cam kết bồi thường cho các chủ sở hữu trong một số trường hợp nội dung của họ vô tình lọt vào bộ dữ liệu đào tạo như OpenAI.

5/ Phát hiện lừa đảo trong cuộc gọi

Google đã cho xem trước một tính năng mà họ tin rằng sẽ cảnh báo người dùng về những trò gian lận tiềm ẩn trong cuộc gọi điện thoại.

Tính năng này, sẽ được tích hợp vào phiên bản Android trong tương lai, sử dụng Gemini Nano có khả năng chạy hoàn toàn trên thiết bị. Hệ thống sẽ lắng nghe và phát hiện các mẫu hội thoại liên quan đến lừa đảo theo thời gian thực.
Tính năng AI cảnh báo cuộc gọi lừa đảo sẽ được đưa vào điện thoại Androi. Ảnh: Google.
Tính năng AI cảnh báo cuộc gọi lừa đảo sẽ được đưa vào điện thoại Android. Ảnh: Google.

Google đưa ra ví dụ về một người nào đó giả vờ là "đại diện từ ngân hàng" gọi đến. Khi gặp những từ khóa như yêu cầu mật khẩu hoặc tặng thẻ quà tặng, hệ thống AI sẽ được kích hoạt và nhảy ra một thông báo nhắc nhở người dùng rằng cuộc gọi này có thể là lừa đảo, đồng thời cho phép người dùng chọn 'tiếp tục nói chuyện' hoặc 'kết thúc cuộc gọi'.

Google hiện chưa đưa ra ngày phát hành cụ thể cho tính năng này, nhưng cho biết người dùng có thể chọn bật/tắt tính năng lắng nghe cuộc gọi của AI.


Google I/O là hội nghị thường niên thường diễn ra vào tháng Năm tại California, Mỹ.

Hội nghị cung cấp cho các nhà phát triển, lập trình viên và người đam mê công nghệ một cái nhìn cận cảnh về những thành tựu mới nhất của Google, bao gồm các bản cập nhật cho hệ điều hành Android, nền tảng web và các sản phẩm AI.

Có thể xem lại các bài thuyết trình nổi bật từ Google I/O 2024 trên YouTube.



Nguồn:

Google I/O, Google Blog, Techcrunch, The Verge.