Các nhà nghiên cứu đã tạo ra một công cụ trí tuệ nhân tạo sử dụng chuỗi các sự kiện trong cuộc sống - chẳng hạn như lịch sử sức khỏe, giáo dục, công việc và thu nhập - để dự đoán mọi thứ, từ tính cách của một người đến tỷ lệ tử vong của họ.

Được xây dựng bằng cấu trúc transformer, tương tự như cấu trúc của mô hình ngôn ngữ lớn (LLM) như ChatGPT, công cụ mới - life2vec, được đào tạo trên tập dữ liệu được lấy từ toàn bộ dân số Đan Mạch - 6 triệu người. Bộ dữ liệu được chính phủ Đan Mạch cung cấp riêng cho các nhà nghiên cứu.

Công cụ mà các nhà nghiên cứu xây dựng dựa trên bộ dữ liệu phức tạp này có khả năng dự đoán tương lai, bao gồm cả tuổi thọ của các cá nhân, với độ chính xác vượt xa các mô hình hiện tại. Nhưng bất chấp sức mạnh dự đoán của nó, nhóm nghiên cứu cho biết mô hình nên được sử dụng cho khác mục đích khác trong tương lai chứ không phải là mục đích dự đoán như hiện tại.

Hình minh họa. Nguồn: Getty Images

Tina Eliassi-Rad - giáo sư khoa học máy tính tại Đại học Northeastern, cho biết: “Mặc dù chúng tôi đang sử dụng khả năng dự đoán để đánh giá hiệu quả của những mô hình này, nhưng không nên sử dụng công cụ này để dự đoán trên người thật. Đây là một mô hình dự đoán dựa trên tập dữ liệu cụ thể của một nhóm dân số cụ thể".

Eliassi-Rad đã mang kiến thức chuyên môn về đạo đức AI của mình vào dự án. Cô nói: “Những công cụ này cho phép bạn nhìn nhận xã hội, các chính sách và quy tắc theo một cách khác".

Sune Lehmann - đồng tác giả của bài báo mô tả mô hình được xuất bản gần đây trên tạp chí Nature Computational Science, cho biết: “Mô hình này cung cấp sự phản ánh toàn diện hơn nhiều về thế giới do con người sống so với nhiều mô hình khác”.

Nền móng của life2vec là tập dữ liệu khổng lồ mà các nhà nghiên cứu đã sử dụng để huấn luyện mô hình. Dữ liệu được lưu giữ bởi Cơ quan Thống kê Đan Mạch - cơ quan trung ương về thống kê của Đan Mạch, các nhà nghiên cứu được phép truy cập bộ dữ liệu chi tiết về mọi công dân này.

Nhiều sự kiện và yếu tố tạo nên cuộc sống một người được thể hiện trong dữ liệu, từ các yếu tố sức khỏe, giáo dục đến thu nhập. Từ tập dữ liệu này, mô hình tìm ra mẫu hình các sự kiện/ yếu tố có thể lặp lại ở những người khác nhau.

Lehmann - giáo sư về mạng tại Đại học Công nghệ Đan Mạch, cho biết: “Toàn bộ câu chuyện về cuộc đời con người, theo một cách nào đó, cũng có thể được coi như một câu dài khổng lồ ghép bởi nhiều từ, trong đó mỗi từ là một sự kiện/ yếu tố”. Đây là lý do các nhà nghiên cứu sử dụng LLM, mô hình dự đoán từ tiếp theo trong một câu, dựa trên những từ và câu nó đã học được trong một bộ dữ liệu.

Mô hình sử dụng thông tin mà nó học được từ việc quan sát hàng triệu chuỗi sự kiện trong cuộc sống để bắt đầu phân loại và rút ra mối liên hệ giữa các sự kiện/ yếu tố khác nhau như thu nhập, giáo dục hoặc sức khỏe. Từ đó, nó có thể đưa ra dự đoán khi đã biết một phần đầu của chuỗi, giống như cách ChatGPT dự đoán phần còn lại của câu khi đã biết những từ đầu tiên.

Một trong những sự kiện trong đời mà các nhà nghiên cứu thử cho mô hình dự đoán là khả năng tử vong của một người. Bài báo cũng mô tả cách mô hình có khả năng dự đoán câu trả lời của từng cá nhân cho một bảng câu hỏi về tính cách.

Eliassi-Rad và Lehmann lưu ý rằng mặc dù mô hình đưa ra những dự đoán có độ chính xác cao nhưng toàn bộ dữ liệu dựa trên các mối tương quan, bối cảnh văn hóa và xã hội rất cụ thể cũng như các loại thành kiến tồn tại trong mọi tập dữ liệu.

Eliassi-Rad nói: “Loại công cụ này giống như một đài quan sát một xã hội - và không phải tất cả các xã hội. Nghiên cứu này được thực hiện ở Đan Mạch và Đan Mạch có nền văn hóa, luật pháp và quy tắc xã hội riêng. Liệu điều này có thể được thực hiện ở Mỹ hay không lại là một câu chuyện khác".

Nguồn:
https://phys.org/news/2023-12-ai-human-lifespan-good.html