Để có được những hiểu biết toàn diện về địa lý phát sinh chủng loại quần thể người Việt Nam, PGS.TS. Nông Văn Hải cùng đồng nghiệp ở Viện Nghiên cứu hệ gene đã thực hiện đề tài “Giải trình tự và xây dựng hoàn chỉnh hệ gene người Việt Nam đầu tiên làm “trình tự tham chiếu” và bước đầu phân tích nhân chủng học tiến hóa người Việt Nam”.
Việt Nam có vị trí địa lý quan trọng ở lục địa Đông Nam Á, là cửa ngõ đến các nước, các đảo và quần đảo trong khu vực. Do đó, nước ta có sự đa dạng rất cao về mặt sắc tộc. Nơi đây là địa bàn cư trú từ lâu đời của cộng đồng 54 dân tộc anh em thuộc 5 họ ngôn ngữ (hay ngữ hệ): 1) Nam Á (Austroasiatic) trong đó có dân tộc đông dân nhất là người Kinh, 2) Thái - Kadai (Tai - Kadai), 3) Mông- Dao hay H’mông - Miền (H’mong - Mien), 3) Hán - Tạng (Sino - Tibetan) và Nam Đảo (Austronesian).
Tuy nhiên, cho đến nay chưa có nghiên cứu về sự đa dạng di truyền ở mức hệ gene và địa lý phát sinh, tức phân bố địa lý của các kiểu gene và ước lượng niên đại xuất hiện của chúng trên các vùng lãnh thổ của quần thể người Việt Nam. Nghiên cứu đa dạng di truyền và địa lý phát sinh được xuất phát từ các biến đổi trong trình tự hệ gene ty thể, nhiễm sắc thể Y và toàn bộ hệ gene. Hệ gene ty thể có đặc điểm quan trọng là di truyền theo dòng mẹ (hay mẫu hệ), có khả năng sao chép cao, không tái tổ hợp và có tỷ lệ đột biến cao. Phần lớn chiều dài nhiễm sắc thể Y là vùng không trao đổi chéo được di truyền hoàn toàn theo dòng bố (hay phụ hệ). Phân tích toàn bộ hệ gene sẽ cho biết thông tin di truyền đầy đủ nhất từ cả bố và mẹ. Các trình tự hệ gene ty thể, nhiễm sắc thể Y và toàn bộ hệ gene được sử dụng độc lập hoặc kết hợp với nhau trong các nghiên cứu về nhân chủng học tiến hoá và lịch sử di truyền của các quần thể người trên các mẫu người hiện đại hoặc kết hợp với các mẫu khảo cổ học.
Để có được những hiểu biết toàn diện về địa lý phát sinh chủng loại quần thể người Việt Nam, PGS.TS. Nông Văn Hải cùng đồng nghiệp ở Viện Nghiên cứu hệ gene, Viện Hàn lâm Khoa học và Công nghệ Việt Nam (VAST) đã thực hiện đề tài: “Giải trình tự và xây dựng hoàn chỉnh hệ gene người Việt Nam đầu tiên làm “trình tự tham chiếu” và bước đầu phân tích nhân chủng học tiến hóa người Việt Nam”. Đây là Đề tài Độc lập cấp Quốc gia (2015-2018, mã số ĐTĐL.CN-05/15) do Bộ Khoa học và Công nghệ quản lý. Đề tài có sự hợp tác với nhóm nghiên cứu của GS. Mark Stoneking (người Mỹ), Viện Max Planck về Nhân chủng học tiến hóa, Leipzig, CHLB Đức và TS. Brigitte Pakendorf, Phòng thí nghiệm Động học ngôn ngữ, Đại học Lyon, Cộng hoà Pháp.
Nhằm phân tích địa lý phát sinh sử dụng hệ gene ty thể, nhóm nghiên cứu đã giải mã 609 hệ gene ty thể hoàn chỉnh từ các cá thể của 17 dân tộc thuộc 5 ngữ hệ, bao gồm ngữ hệ Nam Á: 88 mẫu; ngữ hệ Thái - Kadai: 179 mẫu, ngữ hệ Mông – Dao (H’mông – Miền): 154 mẫu, ngữ hệ Hán - Tạng: 134 mẫu và ngữ hệ Nam Đảo: 54 mẫu.
Qua phân tích so sánh các trình tự người Việt Nam với hệ gene tham chiếu Cambridge được chỉnh sửa (Revised Cambridge Reference Sequence), đã xác định được 399 kiểu (gene) đơn bội (haplotypes) thuộc 135 nhóm đơn bội (haplogroups), tất cả thuộc hai nhóm đơn bội lớn (macro-haplogroups) là M và N. Trong nhóm lớn M, hai nhóm nhỏ có tần suất cao nhất là M7 (9,36%) và M71 (6,08%). Trong nhóm lớn N, các nhóm đơn bội nhánh F và B chiếm ưu thế, cụ thể là các nhóm F1, B4 và B5 có tần suất tương ứng là 19,38%, 17,41% và 7,22%. Trong số 5 ngữ hệ, các trình tự từ các nhóm Nam Đảo có khác biệt nhiều nhất so với các nhóm khác.
Phân tích phát sinh chủng loại của tổng số 2742 trình tự, bao gồm 609 trình tự người Việt Nam cùng với 2133 trình tự khác từ các dân tộc cư trú trên lục địa Đông Nam Á (bao gồm: Thái Lan, Lào, Campuchia, Myanmar, Tây Malaysia, Nam Trung Quốc) và Đài Loan, đã phát hiện được 111 dòng nhánh (lineages) mới DNA ty thể của Việt Nam. Theo ước tính Bayesian về thời gian kết tụ (coalescence time) với 95% mật độ hậu nghiệm cao nhất (Highest Posterior Density, HPD), các nhóm đơn bội M, hai nhánh F và B là khoảng 58, 50 và 49 ngàn năm trước. Điều này cũng phù hợp với kết quả của các nghiên cứu trước đây khi ước tính sự có mặt của con người hiện đại trên lục địa Đông Nam Á từ 51-46 kya.
Ngoài ra, do có cỡ mẫu lớn hơn các nghiên cứu của các tác giả khác trước đây, nhóm nghiên cứu đề tài đã tính được thời gian xuất hiện của một số nhóm đơn bội ở lục địa Đông Nam Á sớm hơn so với các công bố trước đây, ví dụ: nhóm B5 trong nghiên cứu này cho thấy xuất hiện khoảng 42 kya (thay vì khoảng 34 kya hay 36 kya theo tính toán trước đây), các nhóm M21 và M74 trong nghiên cứu này xuất hiện khoảng 44 kya (các công bố trước đây là khoảng 26 kya hoặc 34 kya), nhóm M68 xuất hiện khoản 29 kya (trước đây đánh giá là khoảng 16 kya hay 20 kya).
Đặc biệt, các nhà khoa học đã phát hiện được đỉnh cao của sự đa dạng mtDNA khoảng 2,5-3 ngàn năm về trước, trùng với nền Văn hóa Đông Sơn, và do vậy có thể liên quan đến sự mở rộng nền văn hoá theo xu hướng nông nghiệp. Đây là bằng chứng khoa học mới, đầu tiên trên thế giới về di truyền phân tử người liên quan đến khoảng thời gian ra đời của nền văn hoá Đông Sơn.
Công trình “Các trình tự hoàn chỉnh hệ gene ty thể người từ Việt Nam và địa lý phát sinh chủng loại vùng lục địa Đông Nam Á” là sản phẩm của đề tài nghiên cứu này đã được đăng trên Tạp chí Scientific Reports của Tập đoàn xuất bản Nature (Nature Publishing Group), Vương quốc Anh.