Nhóm sinh viên Trường ĐH Cần Thơ đã mày mò chế tạo máy hỗ trợ người khiếm thị đọc sách bằng công nghệ nhận dạng hình ảnh.

Sáng tạo hữu ích

Từ những kiến thức học được trong lĩnh vực công nghệ thông tin cộng thêm quá trình tìm tòi nghiên cứu, 3 sinh viên Phạm Nguyễn Hải Âu, Đào Minh Tân và Huỳnh Nhật Minh đã chế tạo chiếc máy mang tên VReader. Với các kỹ thuật như: xử lý hình ảnh, nhận dạng ký tự quang học, chuyển đổi văn bản sang giọng nói và lập trình nhúng…, VReader đã xuất sắc giành giải phát triển cộng đồng của Holcim Prize 2016.

Nhóm tác giả chiếc máy VReader
Nhóm tác giả chiếc máy VReader.Ảnh: Thanh niên

Cấu tạo gồm một camera, máy tính, loa, module nhúng và bộ điều khiển, VReader cho phép người dùng chỉ bằng 3 thao tác là có thể vận hành được chiếc máy. Đầu tiên là bấm nút khởi động và chờ trong vòng 30 giây, sau đó đặt sách vào vị trí thích hợp và cuối cùng bấm vào nút đọc để nghe nội dung.

Khi người dùng bấm nút, thiết bị sẽ sử dụng cảm biến để tính độ sáng của môi trường, từ đó mở đèn flash với độ sáng phù hợp. Đồng thời, camera chụp lại ảnh và hình ảnh sẽ được xử lý, chỉ cắt lấy phần chứa văn bản. Sau đó, ảnh được tách ra thành nhiều phần để xử lý song song đa tiến trình. Cùng lúc đó, chương trình bắt đầu nhận dạng các ký tự trên ảnh. Văn bản nhận dạng sẽ được phát ra nhờ vào chương trình chuyển đổi văn bản sang giọng nói”, Nhật Minh chia sẻ về nguyên lý hoạt động của VReader.

Không chỉ đọc được tiếng Việt, VReader còn có khả năng nhận dạng và đọc tiếng Anh bằng thư viện mã nguồn mở.

Thành quả của 2 năm tâm huyết

Để cho ra đời được chiếc máy đọc sách “đa ngôn ngữ” như vậy, nhóm đã mất 2 năm vừa học vừa mày mò nghiên cứu với những thí nghiệm kéo dài hàng tháng trời nhưng thất bại và phải làm lại từ đầu.

“Nhóm phải thực hiện việc xử lý, nhận dạng trên nhiều ảnh, nhiều lần để tính độ chính xác”, Minh Tân nói thêm. Ban đầu nhóm ưu tiên sử dụng mã nguồn mở để xây dựng bộ TTS tiếng Việt (TTS là bộ tổng hợp tiếng Việt mới, có khả năng đọc diễn cảm các câu văn, đoạn văn, thậm chí cả một quyển sách với giọng đọc tự nhiên như người thật) nhưng thất bại. Nhóm đã phải chuyển sang tự xây dựng bộ TTS. Việc xây dựng bộ TTS tốn khá nhiều thời gian, công sức do phải tổng hợp lượng bài viết cực lớn và ghi âm khá nhiều từ ngữ để làm cơ sở dữ liệu cho việc phát âm tiếng Việt.

“Nhóm đã phải tổng hợp khoảng 40.000 bài viết từ Bách khoa toàn thư. Xem từ nào xuất hiện bao nhiêu lần rồi thống kê lại, chọn ra trên 10.000 từ và bắt đầu ghi âm. Mỗi lần sẽ ghi âm một cụm 10 từ rồi phần mềm tự tách ra khi nhận được văn bản”, Tân cho biết.

Tân nói thêm, do mới thực hiện lần đầu nên nhóm chỉ mong đáp ứng đầy đủ về mặt nội dung còn về phần hình thức như giọng đọc biểu cảm thì nhóm đang cần thời gian để nghiên cứu hoàn thiện. Hiện nay chiếc máy vẫn có thể nhận dạng và đọc ngắt, nghỉ theo từng dấu câu.

Cũng theo nhóm, hiện nay một chiếc máy có chức năng tương tự ở các nước trên thế giới có giá lên đến 78 triệu đồng. Tuy nhiên, chi phí của nhóm cho chiếc máy này là 7,1 triệu đồng, nếu được sản xuất đại trà thì chi phí lại còn thấp hơn nhiều.

Đã được tiếp xúc và thử nghiệm VReader, ông Hoàng Quyết Thắng, Chủ tịch Hội Khiếm thị TP.Cần Thơ, nhìn nhận: “Chúng tôi đánh giá rất cao sáng tạo này vì đây là một thiết bị rất hữu ích. Với những người hoạt động trong hội như chúng tôi, thiết bị này giúp tiếp cận được các văn bản, chính sách mới mà không cần người khác đọc thay, cũng như tự nghiên cứu được rất nhiều tài liệu. Còn với những người khiếm thị nói chung thì rõ ràng đây là một bước tiến mới giúp họ có thể tiếp cận được thông tin sách báo hằng ngày một cách dễ dàng và nhanh gọn nhất”.