Xuyên suốt 10 thế kỷ hình thành và phát triển, chữ Nôm đã ghi dấu ấn trên khắp các tác phẩm văn thơ, các di tích lịch sử. Ngày nay chữ Nôm đã lùi vào dĩ vãng, số người đọc được loại chữ này vô cùng ít ỏi.

PGS.TS Đinh Điền, trưởng nhóm nghiên cứu, chia sẻ về hệ thống. Ông đã có kinh nghiệm phát triển rất nhiều hệ thống chuyển ngữ như phần mềm dịch tự động sang chữ nổi (Braille) cho người khiếm thị, và nổi tiếng nhất là kim từ điển - một loại từ điển điện tử được sử dụng rất phổ biến trước đây.
PGS.TS Đinh Điền, trưởng nhóm nghiên cứu, chia sẻ về hệ thống. Ông đã có kinh nghiệm phát triển rất nhiều hệ thống chuyển ngữ như phần mềm dịch tự động sang chữ nổi (Braille) cho người khiếm thị, và nổi tiếng nhất là kim từ điển - một loại từ điển điện tử được sử dụng rất phổ biến trước đây.

Với mong muốn giúp những người muốn đọc các tài liệu cổ nhưng lại bị giới hạn bởi rào cản ngôn ngữ, PGS.TS Đinh Điền và các cộng sự đã cùng nhau phát triển một hệ thống tương tự như Google Dịch, có thể chuyển tự tự động chữ Nôm sang chữ Quốc ngữ.

Chữ Nôm là loại văn tự ngữ tố - âm tiết dùng để viết tiếng Việt. Đây là bộ chữ được người Việt tạo ra dựa trên chữ Hán, các bộ thủ, âm đọc và nghĩa từ vựng trong tiếng Việt. Trong suốt mười thế kỷ hình thành và phát triển (từ thế kỷ 10 đến thế kỷ 20), đã có nhiều công trình về lịch sử, văn học, y học, nông nghiệp, địa lý được viết bằng chữ Nôm; tuy nhiên phần lớn số công trình vẫn chưa được dịch (chuyển tự) sang chữ Quốc ngữ (chữ viết hệ Latin) - nhất là các tài liệu gia đình tự lưu trữ.

Tuy nhiên, hiện tại có rất ít người có khả năng đọc được chữ Nôm để tìm hiểu, khai thác tài liệu trong quá khứ. Với mong muốn mọi người ở bất kỳ đâu cũng có thể đọc hiểu được các văn bản Hán – Nôm để khai thác các tài liệu trong quá khứ, PGS.TS Đinh Điền (Giám đốc Trung tâm Ngôn ngữ học máy tính, trường Đại học Khoa học Tự nhiên – ĐHQG TP.HCM) đã cùng các đồng nghiệp phát triển một hệ thống chuyển tự tự động văn bản chữ Nôm sang chữ Quốc ngữ hoạt động trên máy tính và điện thoại di động.

Việc chuyển tự ở đây là sự thay thế chữ viết từ dạng này sang dạng khác trong cùng một ngôn ngữ. Ví dụ: chuyển tự từ hệ chữ Cyrillic của tiếng Nga sang hệ chữ Latin, như: “Путин” thành “Putin”, hay từ hệ chữ Hangeul của tiếng Hàn sang hệ chữ Latin, như: “삼성” thành “Samsung”. Việc chuyển tự này rất đơn giản vì có sự tương ứng (gần như) 1-1 giữa một mẫu tự trong hệ chữ Cyrillic hay Hangeul với một mẫu tự tương ứng trong hệ chữ Latin. Do cả ba hệ chữ viết trên cùng thuộc loại hình chữ viết ghi âm vị (alphabet) nên việc chuyển tự hoàn toàn được thực hiện một cách tự động, nhanh chóng và chính xác bằng cách tra bảng (ánh xạ).

Tuy nhiên, việc chuyển tự từ chữ Nôm sang chữ Quốc ngữ ngược lại vô cùng phức tạp do hai hệ chữ không cùng thuộc một loại hình chữ viết. Chữ Nôm thuộc loại hình chữ viết ghi ý (ideographic) còn chữ Quốc ngữ thuộc loại hình chữ viết ghi âm vị theo cách phân chia sáu loại hình chữ viết trên thế giới trong công trình của Rogers H. Do đó, chúng ta không thể áp dụng cách tra bảng (ánh xạ) vì không có sự tương ứng 1-1 giữa một chữ Nôm với một chữ Quốc ngữ như trong ví dụ chữ tiếng Nga hay tiếng Hàn nói trên.

Một chữ Nôm thường gồm hai phần: phần ghi âm và phần ghi ý. Chẳng hạn, chữ 蹎 (“chân” trong “chân tay”): chữ này được cấu thành từ chữ “túc” 足 (ghi ý) và chữ “chân” 真 (ghi âm). Việc suy đoán này phải dùng đến nhiều tri thức cả trong và ngoài ngôn ngữ (extra-linguistic) như văn hóa, lịch sử, địa lý, tiếng Việt cổ, tiếng địa phương, từ chuyên ngành, v.v.

Hệ thống chuyển tự câu 105-108 trong Truyện Kiều từ chữ Nôm sang chữ Quốc ngữ.
Hệ thống chuyển tự câu 105-108 trong Truyện Kiều từ chữ Nôm sang chữ Quốc ngữ.

“Đây là bài toán rất khó vì chính con người chúng ta khi đọc chữ Nôm cũng phải ‘vừa đọc vừa đoán’ vì cùng một chữ Nôm có thể được “dịch” (chuyển tự) sang nhiều chữ Quốc ngữ khác nhau”, PGS. Điền giải thích.

Nhận thấy đây là một bài toán liên ngành phức tạp cần có sự phối hợp với các chuyên gia về Hán - Nôm, nhóm nghiên cứu đã hợp tác với nhóm của PGS.TS. Lê Quang Trường, trưởng Bộ môn Hán – Nôm (Khoa Văn học, trường ĐH Khoa học Xã hội & Nhân văn, ĐHQG-TP.HCM) để phát triển hệ thống.

Chia theo lĩnh vực

Vì có hai phần “ghi ý” và “ghi âm”, chuyển tự chữ Nôm là bài toán của những sự lựa chọn. Giữa ngổn ngang phương án, bản thân một người dù đã nắm chắc kiến thức chữ Nôm cũng phải loay hoay, mất nhiều thời gian để tìm được một phương án chuyển tự phù hợp nhất.

Có thể có nhiều chữ dùng để ghi cùng một âm tiết, hoặc ngược lại, một chữ có thể có nhiều cách đọc khác nhau. Chẳng hạn, trong bài thơ Cảnh ngày hè của Nguyễn Trãi có câu “Thạch lựu hiên còn phun thức đỏ / Hồng liên trì đã 羨 mùi hương”. Có bản chuyển tự 羨 là “tiễn” (đưa/tỏa), có người thì cho rằng đây là chữ “tịn” (từ cổ, có nghĩa hết/tận).

Cũng từ 羨 này, xuất hiện trong câu thơ “Cỏ non xanh 羨 chân trời / Cành lê trắng điểm một vài bông hoa” (Truyện Kiều - Nguyễn Du). Học giả Trương Vĩnh Ký là người đầu tiên phiên âm chữ 羨 này sang chữ Quốc ngữ là “tận”. Hai bản Truyện Kiều Quốc ngữ phổ biến nhất ở Việt Nam (Trần Trọng Kim, Đào Duy Anh) cũng vẫn ghi là “tận”. Thế nhưng sau đó đã có nhiều học giả cho rằng đây là “rợn”, “dợn” hoặc “tịn”1.

Rất khó để đưa ra kết luận cuối cùng rằng đâu mới là phiên bản chuyển tự chính xác. Sự phức tạp này đã khiến nhiều người phải than rằng chữ Nôm là một mê cung “vừa đọc vừa đoán”.

Thực chất nhóm nghiên cứu của PGS. Điền không phải là những người đầu tiên loay hoay giữa mê cung từ ngữ này để xây dựng hệ thống chuyển tự từ chữ Nôm sang chữ Quốc ngữ, trước đó đã có hệ thống Nôm Converter (www.chunom.org) được xây dựng. Tuy nhiên, “do hệ thống Nôm Converter đã được xây dựng từ lâu, sử dụng công nghệ cũ (SMT) và từ 2018 đến nay không được cập nhật công nghệ mới như công nghệ học sâu, mạng neural, nên chất lượng dịch còn hạn chế”, ông nhận định.

Bên cạnh đó, phần quan trọng nhất của các hệ thống sử dụng công nghệ máy học chính là dữ liệu huấn luyện. Với Nôm Converter, đội ngũ phát triển chỉ sử dụng ngữ liệu nội bộ của Nôm Converter nên thiếu nhiều chữ Hán – Nôm, nhiều thể loại khiến chất lượng dịch bị hạn chế.

Để khắc phục tình trạng thiếu chữ Nôm trong tập huấn luyện như trong hệ thống Nôm Converter, nhóm triển khai bổ sung tự điển Hán – Việt vào bảng dịch (phrase table) của hệ thống Moses. Ngoài ra, nhóm cũng bổ sung nhiều bản dịch thủ công song song Nôm – Quốc ngữ khác - mà hệ thống Nôm Converter chưa đưa vào huấn luyện - để nâng cao chất lượng dịch. “Cải tiến chính của nhóm nghiên cứu là phân chia theo lĩnh vực cho ngữ liệu huấn luyện ở đầu vào và mô hình ngôn ngữ chữ Quốc ngữ ở đầu ra”, PGS.TS Đinh Điền nhấn mạnh.

Như đã nói, cần phải lựa chọn chữ Quốc ngữ đúng trong số các chữ Quốc ngữ khả dĩ của chữ Nôm đó. Việc chọn lựa này phụ thuộc vào ngữ cảnh, thể loại, lĩnh vực và cả vào niên đại. Hệ thống hiện hữu chỉ mới chọn chữ Quốc ngữ theo ngữ cảnh có trong tập ngữ liệu huấn luyện mà tập huấn luyện này lại được huấn luyện chung (lẫn lộn thể loại, lĩnh vực, niên đại). “Vì vậy, trong mô hình đề xuất, chúng tôi phân chia tập huấn luyện, cũng như mô hình ngôn ngữ theo thể loại và lĩnh vực”, ông lý giải.

PGS.TS Đinh Điền cho biết, mục đích quan trọng nhất là tra cứu nghĩa Quốc ngữ tương ứng của các Nôm tự. Để đạt được điều này, tự điển chữ Nôm phải được xây dựng một cách có hệ thống thành các trường thuộc tính cụ thể. Đó là trường nghĩa Quốc ngữ, là trường căn bản luôn có, giải nghĩa Quốc ngữ cho mục Nôm tự; trường tần suất: cho biết mức độ phổ biến của Nôm tự; trường lĩnh vực: cho biết ngữ cảnh cụ thể của Nôm tự; và trường thể loại: cung cấp thêm thông tin về nguồn gốc Nôm tự.

Để huấn luyện máy học và xây dựng mô hình ngôn ngữ, trong công trình nghiên cứu này, PGS.TS Đinh Điền và cộng sự đã xây dựng ngữ liệu cho lĩnh vực văn học, đời sống và tôn giáo.
Nhờ sự phát triển vượt bậc của lĩnh vực AI cũng như các công nghệ học máy trong những năm gần đây, máy tính hiện có thể tự “học” được cách “suy đoán” chữ Quốc ngữ phù hợp với từng chữ Nôm thông qua ngữ cảnh trong rất nhiều các bản dịch Nôm – Quốc ngữ trước đó của con người. Bằng cách cung cấp cho máy càng nhiều bản dịch Nôm – Quốc ngữ chuẩn, máy sẽ càng “thông minh” hơn và cho kết quả dịch chính xác hơn. Ngoài ra, máy cũng có khả năng tự học để hoàn thiện hơn bằng cách rút kinh nghiệm từ các lỗi dịch sai của máy sau khi con người hiệu đính lại những chỗ dịch sai đó. Được biết, kho ngữ liệu đơn ngữ chữ Quốc ngữ được nhóm nghiên cứu “nạp dạy” cho hệ thống hiện ở mức 823.533 câu và 13.024.774 từ.

Để nâng cao chất lượng, các nhà khoa học đã tập trung dịch một chiều từ chữ Nôm sang chữ Quốc ngữ. Cụ thể, nhóm đã xây dựng Tự điển chữ Nôm – Quốc ngữ (bản chất là một tập hợp có hệ thống các Nôm tự được giải nghĩa Quốc ngữ) nhằm tập trung giải nghĩa của từng tự, cung cấp các thông tin sâu về mặt ngôn ngữ học. (“Tự” là đơn vị nhỏ nhất trong quá trình xử lý ngữ liệu để chuẩn bị cho quá trình chuyển tự. Cấp độ lớn hơn “tự” là từ và cụm từ).

Phát triển hệ thống nhận diện qua ảnh


Vào tháng tư vừa qua, trên một số diễn đàn, nhiều bạn trẻ đã chia sẻ với nhau về sự xuất hiện của hệ thống chuyển tự chữ Nôm do nhóm của PGS. Đinh Điền phát triển. Nhóm nghiên cứu đã đưa hệ thống lên website chính thức của trường ĐH Khoa học Tự nhiên ĐHQG TP.HCM (https://tools.clc.hcmus.edu.vn/) nhằm phục vụ nhu cầu tra cứu của mọi người.

Về cơ bản, phần mềm giao diện website chuyển tự tự động chữ Nôm sang chữ Quốc ngữ đi kèm bộ gõ chữ Nôm tích hợp, cho phép người dùng chọn lĩnh vực (văn học, lịch sử, tôn giáo) và thể loại (văn xuôi, văn vần) của ngữ liệu đầu vào. Các kết quả thực nghiệm bản dịch văn bản chữ Nôm sang chữ Quốc ngữ với bản dịch chữ Quốc ngữ (bản gốc) được đánh giá là chuẩn xác ở mức cao.

Dù đã cơ bản hoàn thành giải pháp dịch văn bản chữ, nhưng nhóm nghiên cứu tiết lộ rằng họ vẫ đang tiếp tục phát triển thêm khối (module) nhận dạng văn bản ảnh bằng cách chụp hình chữ Nôm thay vì phải gõ vào hay dán vào, hay còn gọi là OCR (Optical Character Recognization). Khối nhận dạng này sẽ được tích hợp vào hệ thống chuyển tự hiện nay để qua đó du khách có thể sử dụng camera của điện thoại di động để quét nội dung của các tài liệu, hình ảnh như liễn thờ, hoành phi, câu đối, bia, được viết bằng chữ Nôm thường thấy ở các khu di tích, đền đài, miếu mạo…

Xa hơn nữa, nhóm hy vọng hệ thống thay vì chỉ dịch âm (chuyển tự), thì hệ thống sẽ dịch nghĩa các từ Hán Việt để mọi người có thể hiểu được nghĩa theo các từ ngữ thông thường hiện nay. Chẳng hạn, với câu chữ Hán được cho là của Lý Thường Kiệt: “南國山河南帝居” sẽ được dịch âm là: “Nam Quốc Sơn hà Nam đế cư” và sau đó sẽ được dịch nghĩa là: “Sông núi nước Nam vua Nam ở”.

Đối với PGS.TS Đinh Điền, người đã đi cùng hệ thống ngay từ ngày đầu nó vẫn còn là ý tưởng trên giấy, điều sau rốt ông mong muốn là hệ thống chuyển tự này được kết nối tự động với các thư viện số Hán – Nôm. “Từ đó, hệ thống này có thể phục vụ cho những người muốn tìm hiểu sâu về lịch sử, văn học, y học dân tộc, nông nghiệp, địa lý (trong đó có cả Hoàng Sa, Trường Sa),...dù họ ở bất kỳ nơi nào”, ông chia sẻ.

Nguồn tham khảo:
[1] Một vài chữ Nôm và từ cổ đặc biệt trong Truyện Kiều - Đinh Văn Tuấn