Để hiểu được bối cảnh AI nguồn mở, Huyền Chip đã xem xét các kho lưu trữ mã nguồn mở trí tuệ nhân tạo (AI) phổ biến nhất trên GitHub, phân loại và nghiên cứu quỹ đạo tăng trưởng của chúng từ trước tới nay.
Huyền Chip (Nguyễn Thị Khánh Huyền) là một kỹ sư về AI và GPU. Chị từng theo học thạc sĩ và giảng dạy môn thiết kế hệ thống học máy tại Đại học Stanford (Mỹ). Huyền Chip đã có thời gian làm kỹ sư cao cấp về học sâu tại NVIDIA và hiện là Phó giám đốc Công ty khởi nghiệp dữ liệu Voltron Data.
Là một người có ảnh hưởng về lĩnh vực khoa học dữ liệu và trí thông minh nhân tạo trên nền tảng mạng xã hội LinkedIn, đây là lần thứ hai chị thực hiện khảo sát về nguồn mở AI, sau phân tích lần đầu vào
năm 2020.“Bối cảnh nguồn mở AI đã có sự thay đổi rõ rệt”, chị nói, “Trước đó tôi chỉ thu thập được khoảng 200 mã nguồn mở. Sau bốn năm, con số đã lên tới
gần 900. Tất nhiên, đó là những kho lưu trữ mà tôi thấy có ít nhất 500 lượt đánh giá sao, có nghĩa là chúng rất được cộng đồng quan tâm. Hơn 20.000 nhà phát triển đã đóng góp cho các kho lưu trữ này.”
Trong khảo sát lần này, Huyền Chip đã thay đổi cách phân loại các mã nguồn AI thành năm nhóm: cơ sở hạ tầng, phát triển mô hình, mô hình, phát triển ứng dụng và ứng dụng. Giống như một căn nhà nhiều tầng, chúng gần với các cấu trúc từ dưới lên mà lớp sau có thể dựa trên lớp trước để đứng vững.
Đầu tiên là các mã nguồn mở về cơ sở hạ tầng (Infrastructure), cung cấp các công cụ đảm bảo sức mạnh tính toán cần thiết cho quá trình phát triển AI, quản lý các mô hình đang hoạt động và hỗ trợ tìm kiếm dữ liệu hiệu quả trong không gian dữ liệu vector.
Thứ hai là mã nguồn mở về phát triển mô hình (Model Development), cung cấp các công cụ để phát triển các mô hình AI như các khung để mô hình hóa và huấn luyện AI, các kỹ thuật tối ưu hóa suy luận, xử lý tập dữ liệu, đánh giá, v.v, chúng giúp ích cho bất cứ hoạt động nào liên quan đến việc thay đổi trọng số của mô hình AI, bao gồm cả tinh chỉnh mô hình.
Thứ ba là mô hình (Model Respo), tức các mã nguồn mở của mô hình AI do các công ty công nghệ và nhà nghiên cứu chia sẻ ra, cho phép mọi người xem xét và dùng thử mô hình do họ đào tạo.
Thứ tư là các mã nguồn cho phát triển ứng dụng (Application Development), hay còn gọi là kỹ thuật AI (AI Engineering), bao gồm các công cụ cho phép mọi người phát triển ứng dụng trên nền mô hình AI đã có sẵn như công cụ thiết kế lời nhắc để điều khiển đầu ra, tìm kiếm thông tin sinh văn bản, hoặc giao diện người dùng với AI.
Cuối cùng là ứng dụng (Application), tức các ứng dụng nguồn mở hoàn chỉnh được xây dựng trên những mô hình AI đã có. Các loại ứng dụng phổ biến nhất trên GitHub là ứng dụng hỗ trợ lập trình viên trong quá trình code (tự động hoàn thành đoạn code, gợi ý hàm, tạo code tự động v.v), tự động hóa quy trình làm việc và tổng hợp thông tin.
Bùng nổ ứng dụng
Theo khảo sát của Huyền Chip, các mã nguồn mở AI đã bùng nổ vào cuối năm 2022, nhưng dần lắng xuống kể từ tháng 9/2023.
Các mã nguồn mở về “ứng dụng” và “phát triển ứng dụng” là nhóm tăng trưởng mạnh nhất trong hai năm qua và vẫn đang trên đà phát triển nhanh chóng. Phần lớn chúng xuất hiện sau sự ra mắt của hai ứng dụng nổi tiếng là Stable Diffusion (chuyển văn bản thành hình ảnh ảnh) và ChatGPT (chatbot có khả năng hiểu và trò chuyện với con người bằng ngôn ngữ tự nhiên).
Không có gì đáng ngạc nhiên khi trên GitHub có khá nhiều ứng dụng mã nguồn liên quan đến bots, lập trình và tổng hợp thông tin (ví dụ: “hãy kết nối cái này với Slack và yêu cầu nó tóm tắt tin mỗi ngày”).
Trước năm 2022, bức tranh nguồn mở AI bị chi phối bởi các mã nguồn về “phát triển mô hình”. Nhưng tỷ trọng của chúng đã giảm khi các mã nguồn mở về ứng dụng gia tăng. Nhìn chung, các mã nguồn mở về phát triển mô hình thường xoay quanh các kỹ thuật về tối ưu hóa suy luận và đánh giá, tinh chỉnh hiệu quả tham số (được nhóm lại thành nhóm công cụ ‘Mô hình hóa và huấn luyện AI’).
Tối ưu hóa suy luận luôn đóng vai trò quan trọng trong AI, nhưng do quy mô của các mô hình AI hiện nay ngày càng lớn khiến cho việc tối ưu càng trở nên quan trọng để có được độ trễ thấp với chi phí hợp lý. Nhiều kỹ thuật mới đã được phát triển đặc biệt cho kiến trúc transformer và thế hệ phần cứng mới. Ví dụ, vào năm 2020, kỹ thuật lượng tử hóa 16 bit được coi là hiện đại. Ngày nay, chúng ta đang thấylượng tử hóa 2 bitvàthậm chí thấp hơn 2 bit.
Tương tự, việc đánh giá mô hình AI luôn là điều cần thiết, nhưng với nhiều người ngày nay coi các mô hình AI là các hộp đen không thể hiểu được thì đánh giá thậm chí còn trở nên cần thiết hơn. Có nhiều tiêu chuẩn đánh giá và phương pháp đánh giá mới đã được chia sẻ, chẳng hạn như đánh giá so sánh (so sánh các mô hình AI với một thang đo) và AI-as-a-judge (sử dụng một mô hình AI này để đánh giá hiệu suất của mô hình AI khác).
Cuối cùng, nhóm mã nguồn mở về “cơ sở hạ tầng” không có sự thay đổi đáng kể qua thời gian. Điều này có thể do các sản phẩm hạ tầng thường ít khi công khai mã nguồn. Danh mục mới nhất trong nhóm này là cơ sở dữ liệu vector. Tuy nhiên,tìm kiếm vector đã có từ lâu và thay vì xây dựng cơ sở dữ liệu mới để cho tìm kiếm vector, các công ty cơ sở dữ liệu hiện tại đang đưa kỹ thuật tìm kiếm vector vào những nơi đã có sẵn dữ liệu.
Ai đang kiểm soát các nguồn mở?“Giống như nhiều thứ, phần mềm nguồn mở tuân theo phân phối đuôi dài: Một số ít tài khoản kiểm soát phần lớn các kho lưu trữ nguồn mở”, Huyền Chip nhận xét.
Trên
GitHub, một tài khoản có thể thuộc về một tổ chức hoặc một cá nhân. 19/20 tài khoản hàng đầu về AI là các tổ chức, bao gồm các công ty như OpenAI, Microsoft, Hugging Face, Google Research.
Tài khoản cá nhân duy nhất trong 20 tài khoản hàng đầu này là lucidrains (Phil Wang), người có thể triển khai các mô hình hiện đại nhất cực nhanh.
20 tài khoản này mặc dù chỉ chiếm khoảng 3% tổng số tài khoản được khảo sát, nhưng lưu trữ tới gần 200 mã nguồn mở, chiếm gần 1/4 danh sách.
“Mặc dù các công ty lớn vẫn thống trị bức tranh nhưng đang có một sự gia tăng đáng kể các phần mềm đến từ cá nhân”, chị nhận xét.
Không có gì đáng ngạc nhiên khi càng đi xuống nền móng của AI, các cá nhân càng khó xây dựng. Các mã nguồn mở ở lớp “cơ sở hạ tầng” chủ yếu thuộc về tài khoản của công ty, tuy nhiên hơn một nửa số “ứng dụng” hiện nay thuộc về các tài khoản của cá nhân.
Điều thú vị là tính trung bình, các “ứng dụng” của cá nhân có nhiều sao hơn các ứng dụng của tổ chức. Một số người đã suy đoán rằng sẽ sớm có các công ty một-người trị giá hàng tỷ đô la.
Trung Quốc vươn lên
Hệ sinh thái nguồn mở của Trung Quốc đang phát triển nhanh chóng. 6/20 kho lưu trữ AI phổ biến nhất của GitHub có nguồn gốc từ Trung Quốc, bao gồm các nhóm phát triển đến từ Đại học Thanh Hoa, Phòng thí nghiệm AI Thượng Hải, Đại học Trung Hoa Hồng Kông và Phòng thí nghiệm AI của Alibaba.
Từ lâu, người ta đã biết rằng hệ sinh thái AI của Trung Quốc đã tách ra khỏi Mỹ. GitHub có lẽ không được sử dụng phổ biến quốc gia Đông Á này vì có một lệnh cấm hồi năm 2013. Tuy nhiên, ấn tượng này không còn đúng nữa.
Có rất nhiều kho lữu trữ mã nguồn AI phổ biến trên GitHub nhắm mục tiêu đến khán giả Trung Quốc, chẳng hạn như mô tả của họ được viết bằng tiếng Trung, hoặc dành cho các mô hình AI được phát triển cho tiếng Trung và tiếng Trung-Anh.
Ngoài ra còn có các công cụ kỹ thuật AI cung cấp cách để tích hợp mô hình AI vào các sản phẩm phổ biến ở Trung Quốc như WeChat, QQ, DingTalk, v.v. Nhiều công cụ kỹ thuật prompt phổ biến cũng có phiên bản bằng tiếng Trung.
Sống nhanh, chết trẻ
Huyền Chip đã quan sát thấy một hiện tượng trong năm ngoái là nhiều kho lưu trữ nhanh chóng thu hút được sự chú ý, nhưng sau đó lại nhanh chóng chìm lắng. Ví dụ, có một kho lưu trữ đã đạt được hơn 12.000 sao chỉ trong vòng hơn một tháng. Một kho lưu trữ khác cũng đạt được mức độ tương tự sau khoảng bốn tháng, bắt đầu từ đầu năm 2023. Huyền Chip so sánh chúng với hai phần mềm bền vững hơn, thường phải mất từ 6-12 tháng để đạt mức độ quan tâm tương đương hoặc thấp hơn.
Một số người cùng ngành với chị gọi đây là “đường cong cường điệu”. Trong số gần 900 kho lưu trữ mã nguồn mở mà Huyền Chip đã khảo sát, có 158 kho lưu trữ (khoảng 18,8%) không nhận được bất kỳ ngôi sao mới nào trong 24 giờ qua, và 37 kho lưu trữ (4,5%) không đạt được bất kỳ ngôi sao mới nào trong vòng một tuần trước đó.
Mặc dù số lượng sao GitHub không phải là thước đo duy nhất về mức độ thành công của một kho lưu trữ, và người ta có thể “bỏ sao” cho một kho lưu trữ nếu họ không còn quan tâm đến nó nữa, nhưng nó cũng có thể dùng để xem xét mức độ phổ biến của các mã nguồn và dự đoán xu hướng phát triển của chúng trong tương lai. Một số kho lưu trữ có thể có số lượng ngôi sao thấp nhưng vẫn được sử dụng rộng rãi bởi cộng đồng.
Những mã nguồn “sống nhanh, chết trẻ” như kia cũng có giá trị nhất định, chị nói. Nó cho cộng đồng thấy công nghệ nào là khả thi và thật tuyệt khi khám phá xem làm sao mà họ có thể đưa ra mọi thứ nhanh đến như vậy.
Bài đăng số 1285 (số 13/2024) KH&PT