Cộng đồng 54 dân tộc Việt Nam có mối liên hệ với nhau như thế nào? Dù được các nhà dân tộc học và lịch sử bàn thảo suốt một thời gian dài nhưng vấn đề này vẫn chưa ngã ngũ. Và những nghiên cứu đầu tiên về đa dạng di truyền hệ gene ở người Việt Nam của Viện Nghiên cứu hệ gene (Viện Hàn lâm KH&CN Việt Nam) có thể hé mở một phần câu trả lời.

Ở thời kỳ Đông Sơn và tiền Đông Sơn, tất cả khối Lạc Việt, Tây Âu, hay Tày Thái cổ… đều là ‘Yue’ (Bách Việt). Nghiên cứu hệ gene ty thể của nhóm GS Nông Văn Hải cũng đã cho thấy điều này. Trong ảnh: Trống đồng Ngọc Lũ và hoa văn trên trống đồng. Nguồn: Bảo tàng lịch sử Việt Nam.

Ký ức tộc người và "ký ức" hệ gene người

Cuộc thảo luận về nguồn gốc người Việt dường như chưa bao giờ dứt trên nhiều diễn đàn và luôn sẵn sàng được hâm nóng lên khi được xới lại. Thực ra đây không phải là chuyện “trà dư tửu hậu”, mà trong giới học thuật, tính đa dạng tộc người và nguồn gốc tộc người ở Việt Nam và Đông Nam Á lục địa đã được các nhà dân tộc học và tiền sử học đào bới cả trăm năm qua, như GS Peter Bellwood1 (ĐH Quốc gia Úc), nhà nghiên cứu tiền sử Đông Nam Á từng cùng các nhà nghiên cứu Việt Nam công bố các nghiên cứu về văn hóa Đông Sơn nhận định. Vấn đề này không dễ dàng ngã ngũ để đi đến kết luận, rất dễ gây hiểu lầm và chia rẽ, do một tình trạng phổ biến trong nghiên cứu tiền sơ sử và nguồn gốc tộc người là thiếu dữ liệu - những gì các nhà khoa học đang có hiện nay mới chỉ là những mảnh ghép khác nhau của một “bức tranh” khổng lồ đã chìm vào quá khứ.

Theo dòng hồi ức của các dư dân thời hiện đại và giả thiết của các nhà dân tộc học thì tổ tiên của 54 dân tộc (và có thể nhiều nhóm địa phương trong đó), nay được sắp xếp thuộc 5 ngữ hệ đã có vô vàn hướng dịch chuyển, cộng cư trong quá khứ. Chẳng hạn, nhiều cư dân thuộc các tộc người ở khu vực miền núi phía Bắc hoặc Tây Nguyên vẫn kể về quá trình họ đi từ phương Bắc xuống hoặc từ vùng biển phía Nam đi lên. Các nhà khảo cổ học cũng đã giải thích về sự đa dạng các nhóm người ngay trong kỷ nguyên khởi đầu lịch sử Việt Nam, như TS Nguyễn Việt, Giám đốc Trung tâm nghiên cứu tiền sử Đông Nam Á cho biết: những cư dân Đông Sơn và Tiền Đông Sơn từ thời khởi đầu dựng nước Việt Nam không tương ứng với một tộc người duy nhất là Kinh hay bất kỳ một tộc người khác trong thời hiện đại ngày nay, bởi trong nhận thức của các nhà khảo cổ học thế giới, “ở thời kỳ Đông Sơn và tiền Đông Sơn, tất cả khối Lạc Việt, Tây Âu (hay Tày-Thái cổ)… đều là ‘Yue’ (Bách Việt)”. Nhưng từ trước tới nay, các nhà dân tộc học và khảo cổ đang giữ những cứ liệu và các giả thiết đó mà chưa mang ra để đặt câu hỏi cho các nhà nghiên cứu hệ gene. Hầu như không ai hay biết gì về việc những quá trình giao lưu tiếp biến ấy đã được “ghi nhớ” như thế nào trên hệ gene của mỗi cá nhân ở các tộc người.

Trong khi đó, phân tích hệ gene người cổ sẽ chứng minh được điều đó, đem lại một trong những câu trả lời gần nhất cho những gì đã xảy ra trong quá khứ. Các kỹ thuật hiện đại giúp giải trình tự hệ gene từ di cốt người cổ có thể giúp bóc tách dần thông tin về nguồn gốc, lịch sử di truyền cũng như thấy được sự đa dạng, cộng cư của di cốt khai quật được theo mỗi mốc thời gian họ sinh sống. Tuy vậy, trước nay giới khảo cổ học và nghiên cứu hệ gene trong nước chưa có nhiều cơ hội trao đổi và thực hiện các nghiên cứu chung. Mãi tới gần đây, các nhóm nghiên cứu quốc tế, gồm các nhà di truyền ở ĐH Harvard, Hoa Kỳ, Bảo tàng thiên nhiên Copenhagen, Đan Mạch và ĐH Cambridge, Anh... đã cùng với các nhà nghiên cứu của Viện Khảo cổ học (Viện Hàn lâm KHXH Việt Nam) hợp tác phân tích được di cốt người cổ ở Đông Nam Á, trong đó có người Mán Bạc2 và người Hoà Bình3 và xu hướng di cư sớm từ thời cổ đại. Những nghiên cứu này đã đưa một số dữ liệu gene người cổ tại Việt Nam vào cơ sở dữ liệu gene của thế giới – đây là căn cứ để các nhóm nghiên cứu khác lấy làm cơ sở so sánh đối chiếu sau này.

Bên cạnh đó, phân tích hệ gene ở người hiện tại có thể giúp khẳng định tính đa dạng di truyền của các tộc người hiện nay, ví dụ có thể cho biết những đặc điểm chung giữa người Kinh, Tày, Thái... so với các tộc người cụ thể khác trong cùng một nhóm tộc người (phân loại theo ngữ hệ) của mình hoặc các dân tộc thuộc ngữ hệ khác. Nhưng chính vì thiếu chia sẻ thông tin và chưa có nghiên cứu nào chung giữa các nhà khoa học xã hội với nhà nghiên cứu hệ gene người Việt Nam nên dường như câu hỏi liệu rằng hệ gene có thể lưu lại dấu vết nào cho những lần các tộc người gặp gỡ, giao thoa trong lịch sử dường như vẫn đang còn bỏ lửng.

Cỡ mẫu đủ lớn và đa dạng

Trong bối cảnh vẫn còn nhiều tranh luận ngổn ngang đó, GS Nông Văn Hải, nguyên Viện trưởng sáng lập Viện Nghiên cứu hệ gene, Viện Hàn lâm KH&CN Việt Nam, một nhà nghiên cứu giàu kinh nghiệm về hệ gene người Việt Nam đã đi tìm câu trả lời trong quá trình thực hiện Đề tài độc lập cấp Nhà nước (2015-2019), do Bộ Khoa học và Công nghệ tài trợ - “Giải trình tự và xây dựng hoàn chỉnh hệ gene người Việt Nam đầu tiên làm ‘trình tự tham chiếu’ và bước đầu phân tích nhân chủng học tiến hóa người Việt Nam”4.

Giữa các dân tộc có lịch sử di truyền, nguồn gốc chung nào đó và có sự giao thoa về mặt di truyền chứ không có một dân tộc ‘thuần chủng’

Trước khi đi sâu vào chẻ từng phát hiện của đề tài, ông giải thích về một số nguyên tắc khi nghiên cứu hệ gene để trả lời cho các câu hỏi về nhân chủng học tiến hóa ở trên. Tức là, để tìm ra tính đa dạng hệ gene, khu vực phân bố địa lý của các kiểu gene và ước lượng thời điểm chúng bắt đầu xuất hiện trong quá khứ, phải phân tích trình tự hệ gene ty thể (di truyền theo dòng mẹ), vùng đặc hiệu giới tính nam của nhiễm sắc thể Y (di truyền theo dòng bố) hoặc toàn bộ hệ gene (lai giữa dòng bố và dòng mẹ). Đây là cách làm đã thành chuẩn mực phổ biến của các nhóm trên thế giới – họ có thể sử dụng lần lượt hoặc kết hợp đồng thời cả ba trình tự hệ gene trên trong các nghiên cứu về nhân chủng học tiến hóa và lịch sử di truyền ở người hiện đại hoặc kết hợp, đối chiếu với các mẫu khảo cổ học.

Làm sao để biết đâu là đặc trưng của mỗi nhóm hoặc từng tộc người? Cũng theo thông lệ, sẽ cần phân tích trình tự và so sánh với hệ gene tham chiếu trên cơ sở dữ liệu gene quốc tế để từ đó xác định các kiểu gene đơn bội đặc trưng của người Việt Nam (haplotypes - một nhóm cụ thể của gene mà con cháu thừa hưởng từ cha mẹ. Haplotype có thể đặc trưng cho một nhóm, hay một quần thể và thậm chí là một loài).

Để thực hiện đề tài, GS Nông Văn Hải đã hợp tác với giáo sư người Mỹ Mark Stoneking, Viện Max Planck về Nhân chủng học tiến hóa, CHLB Đức, người dày dạn kinh nghiệm hợp tác phân tích hệ gene của nhiều tộc người, từ Thái Lan, Philipines đến các dân tộc ở châu Phi. Nhóm nghiên cứu khảo sát lấy mẫu gene các tộc người trên quy mô lớn nhất từ trước tới nay ở Việt Nam - hơn 600 người thuộc 22 dân tộc ở năm ngữ hệ chính ở Việt Nam và Đông Nam Á lục địa (gồm các ngữ hệ: Nam Á, Thái - Kadai, Hmông-Miền, Nam Đảo và Hán-Tạng), đồng thời phân tích cùng với dữ liệu hệ gene của nhóm cư dân hiện đại lân cận và các tập dữ liệu gene của người ở Đông Nam Á cổ đại đã được công bố trước đây trong cơ sở dữ liệu hệ gene quốc tế.

Nhưng trong trình tự hệ gene với hơn 3 tỉ “ký tự” của mỗi người, làm sao để xác định được sự giống và khác nhau giữa các tộc người theo cách hợp lý nhất? Nhóm phân tích dữ liệu đa hình nucleotide đơn - SNP (single nucleotide polymorphisms), trong đó tập trung đi sâu phân tích hệ gene sử dụng công nghệ mới gene CHIP (gồm khoảng 600.000 điểm thể hiện sự khác biệt về mặt di truyền giữa các cá thể). Đây cũng là những công nghệ mà các nhóm nghiên cứu đa dạng di truyền các tộc người trên thế giới đang sử dụng chủ yếu, bởi vì 99,9% trình tự hệ gene là hoàn toàn giống nhau giữa các cá thể, tộc người trong toàn bộ loài người, GS Nông Văn Hải cho biết.

Kết quả phân tích, được xuất bản trên tạp chí Molecular Biology and Evolution5 (Q1, IF~15, thứ 2 về sinh học tiến hóa) cho thấy “tính đa dạng tộc người phân theo ngữ hệ đã phản ánh các nguồn gốc khác nhau về đa dạng di truyền ở Việt Nam”, nghĩa là trong 22 dân tộc được khảo sát, “dân tộc này cũng có chung các đặc điểm về gene của dân tộc khác trong cùng ngữ hệ hoặc khác ngữ hệ”, GS Nông Văn Hải giải thích. Chẳng hạn, nhìn các bảng số liệu phân tích mức độ lai hỗn hợp (Admixture) có thể thấy rõ: các dải màu sắc khác nhau quy ước cho các tộc người hay ngữ hệ khác nhau cho thấy tình trạng “lai” giữa các dân tộc là phổ biến và hiển nhiên – “giữa các dân tộc có lịch sử di truyền, nguồn gốc chung nào đó và có sự giao thoa về mặt di truyền chứ không có một dân tộc ‘thuần chủng’”.


Bảng 1: Các dải màu sắc quy ước cho các tộc người trong biểu đồ này (màu giống nhau, chạy liên tục) cho thấy tình trạng “lai” giữa các dân tộc là hiển nhiên. Ảnh: Nhóm nghiên cứu cung cấp.

Tạm lấy một số ví dụ cụ thể để hiểu rõ hơn cho các phát hiện trên là: các dân tộc thuộc ngữ hệ Nam Á có nhiều đặc điểm gần về gene so với các ngữ hệ Thái – Kadai, và cũng có những điểm chung với ngữ hệ Hmong – Miền. Đơn cử về người Kinh - tộc người phổ biến ở Việt Nam và thuộc ngữ hệ Nam Á - không chỉ có nhiều đặc điểm giống với các dân tộc thuộc ngữ hệ Thái – Kadai (như Tày, Thái, Nùng...) mà cũng có cả điểm giống với dân tộc xa xôi và tương đối biệt lập khác ở miền núi phía Bắc như Lô Lô, Si La, Phù Lá (thuộc ngữ hệ Hán - Tạng) hay với các cư dân ở Nam Trung Quốc, đảo Đài Loan ngày nay và nhiều dân tộc khác nữa. Trong phần “thảo luận”, nhóm tác giả khẳng định nghiên cứu này, với dữ liệu nhiều hơn và chính xác hơn, đã đưa ra phát hiện ngược lại so với công bố về hệ gene người Kinh vào năm 2019.

Mặt khác, nghiên cứu cũng phát hiện ra, có những tộc người tuy gần gũi hơn với tộc người khác về mặt ngôn ngữ (cùng ngữ hệ), nhưng lại xa nhau hơn về mặt di truyền. Có thể trong lịch sử tổ tiên của họ là những nhóm lai, nhưng sau này do ảnh hưởng văn hóa, điều kiện sống, chiến tranh... các thế hệ sau đã chuyển sang dùng ngôn ngữ của nhóm khác, hoặc là đã có sự giao lưu tiếp xúc giữa các tộc người thuộc các ngữ hệ khác nhau.

Công bố này được đánh giá là đầy đủ nhất cho đến nay, sử dụng các phương pháp hiện đại trong phân tích dữ liệu hệ gene, nhằm làm rõ sự đa dạng về mặt di truyền của người Việt Nam, theo đánh giá trên trang của Hiệp hội Tiến bộ Khoa học Hoa Kỳ. Điều này thực sự có ý nghĩa bởi vì trước đây, sự đa dạng di truyền của Việt Nam vẫn là một địa hạt chưa được khai phá, đặc biệt là với dữ liệu hệ gene trên quy mô lớn, bởi vì đa phần các nghiên cứu về hệ gene trước đây đều tập trung vào nhóm người Kinh. Do đó, trong trong thông cáo báo chí của Viện Max Planck về Nhân chủng học tiến hóa, GS Mark Stoneking, đồng tác giả liên hệ của nghiên cứu cũng đã lưu ý rằng: “Nhìn chung, chúng tôi nhấn mạnh tầm quan trọng của việc lấy mẫu của các nhóm dân tộc khác nhau nhằm xây dựng hoàn chỉnh dữ liệu hệ gene, từ đó cung cấp những hiểu biết mới về sự đa dạng di truyền và lịch sử của một khu vực đa sắc tộc, mà Việt Nam là ví dụ điển hình”.

Những nghiên cứu này đã góp phần thêm một cái nhìn khách quan chân thực về tính đa dạng của người Việt Nam, bác bỏ những nhận định thiếu căn cứ khoa học, chủ quan về sự khác biệt của tộc người cụ thể đối với các tộc người khác trong một cộng đồng cùng tồn tại qua suốt chiều dài lịch sử.

Giờ đây, các yếu tố đa dạng ngôn ngữ và đa dạng về ngoại hình (hình thái) của các cá thể thuộc các sắc tộc người Việt Nam mà “ai cũng có thể tự nhìn thấy” đã được khẳng định là có sự đa dạng về nguồn gốc di truyền. Điều này đã góp phần thêm một cái nhìn khách quan chân thực về tính đa dạng của người Việt Nam, bác bỏ những nhận định thiếu căn cứ khoa học, chủ quan về sự khác biệt của tộc người cụ thể đối với các tộc người khác trong một cộng đồng cùng tồn tại qua suốt chiều dài lịch sử.

Truy ngược đồng hồ tiến hóa

Dữ liệu hệ gene không chỉ cho thấy chuyện của ngày hôm nay, mà các kỹ thuật phân tích có thể giúp “truy” dấu vết di truyền từ hàng ngàn đến hàng chục nghìn năm quá khứ. Trong đó, thông thường, các nhà khoa học trên thế giới sẽ phân tích gene đồng hồ tiến hóa và so sánh với các hệ gene tham chiếu của cư dân hiện đại thuộc các tộc người khác và của các mẫu người cổ trong cơ sở dữ liệu gene quốc tế để tìm ra các điểm bắt đầu phát sinh, rẽ nhánh. Từ đó xác định mốc thời gian giao thoa trong lịch sử của từng tộc người.

Vì thế, trước đó, vào năm 2018, cũng từ nguồn gene dùng trong nghiên cứu của Đề tài này, GS Nông Văn Hải và các đồng nghiệp đã phân tích các biến đổi trong trình tự hệ gene ty thể của người Việt Nam nhằm tìm ra dấu ấn của các lần xuất hiện và tập trung dân cư trong thời cổ đại và công bố trên tạp chí Scientific Reports, thuộc Tập đoàn xuất bản Nature6. Để phân tích tìm ra các điểm phát sinh, nhóm của ông đã giải trình tự hệ gene ty thể người Việt Nam ở trên và đối chiếu cùng với 2133 trình tự khác từ các dân tộc khác đang sinh sống ở lục địa Đông Nam Á (bao gồm: Thái Lan, Lào, Campuchia, Myanmar, Tây Malaysia, Nam Trung Quốc) và Đài Loan, từ đó phát hiện được 111 dòng nhánh mới của DNA ty thể của người Việt Nam. Theo ước tính Bayesian về thời gian kết tụ (coalescence time) với 95% mật độ hậu nghiệm cao nhất (Highest Posterior Density, HPD), nhóm đã xác định được biểu hiện gene ghi dấu sự xuất hiện của người hiện đại trong hệ gene ty thể người Việt Nam vào khoảng 50 nghìn năm trước. Kết quả này đã khẳng định các giả thiết khảo cổ học về mốc xuất hiện của con người trên lục địa Đông Nam Á vào khoảng thời gian này.


GS Nông Văn Hải (trái) và GS Mark Stoneking trong Hội thảo quốc tế do Viện Nghiên cứu hệ gene tổ chức năm 2017. Ảnh: NVCC.

Đặc biệt, nhóm nghiên cứu đã phát hiện được đỉnh cao tập trung sự đa dạng DNA ty thể vào khoảng thời gian trùng với nền Văn hóa Đông Sơn, “có một sự tập trung gene cổ vào vùng đồng bằng sông Hồng khoảng 2.500-3.000 năm về trước”. Như vậy, không phải chỉ tổ tiên của người Kinh tập trung ở đồng bằng sông Hồng mà tổ tiên của các tộc người thuộc 5 nhóm ngữ hệ ngày nay đều có dấu vết tập trung dân cư đông đúc ở đây vào thời Đông Sơn. Nghĩa là nền văn hóa Đông Sơn là chung của các dân tộc này trong quá khứ. Đây là bằng chứng khoa học mới, đầu tiên trên thế giới về di truyền phân tử người cho thấy sự đa dạng di truyền liên quan đến khoảng thời gian ra đời của văn hóa Đông Sơn. Và điều này có thể đem lại một phần lời giải cho khẳng định của các nhà nghiên cứu khảo cổ học tiền sơ sử như TS Nguyễn Việt về các cư dân thời Đông Sơn và tiền Đông Sơn là một khối Bách Việt.

Nhưng trên hết, GS Nông Văn Hải nhắc đi nhắc lại rằng những gì mà ông và các đồng nghiệp trong nước và quốc tế làm mới chỉ là các nghiên cứu bước đầu. Các câu trả lời cho các giả thiết về đa dạng di truyền, nguồn gốc các tộc người hay các vấn đề cụ thể về bệnh học tộc người sẽ ngày càng đầy đủ lên khi các nhà nghiên cứu bổ sung thêm các mẫu ở các tộc người khác nhau, với cỡ mẫu lớn hơn. Đây là lý do mà nhiều nước trên thế giới đã xây dựng những bộ dữ liệu hệ gene người rất đồ sộ, thậm chí đã xuất hiện các “câu lạc bộ” các nước mà chính phủ đã đầu tư nghiên cứu giải trình tự hàng trăm ngàn đến cả triệu hệ gene người.

Tài liệu tham khảo

1 The search for ancient DNA heads east, Science, 2018: Vol. 361, Issue 6397, pp. 31-32. DOI: 10.1126/science.aat8662

2 Mark Lipson et al, Ancient genomes document multiple waves of migration in Southeast Asian prehistory, Science 06 Jul 2018: Vol. 361, Issue 6397, pp. 92-95 DOI: 10.1126/science.aat3188 link online: https://science.sciencemag.org/content/361/6397/92

3 Hugh McColl et al, The prehistoric peopling of Southeast Asia. Science 06 Jul 2018: Vol. 361, Issue 6397, pp. 88-92 DOI: 10.1126/science.aat3628 link online: https://science.sciencemag.org/content/361/6397/88.full

4 Đề tài mã số ĐTĐL.CN-05/15, do Bộ Khoa học và Công nghệ quản lý.

5 Dang Liu, Nguyen Thuy Duong, Nguyen Dang Ton, Nguyen Van Phong, Brigitte Pakendorf, Nong Van Hai, Mark Stoneking, Extensive ethnolinguistic diversity in Vietnam reflects multiple sources of genetic diversity, Molecular Biology and Evolution, msaa099, https://doi.org/10.1093/molbev/msaa099 (Nong Van Hai, Mark Stoneking là tác giả liên hệ)

6 Duong, N.T., Macholdt, E., Ton, N.D. et al. Complete human mtDNA genome sequences from Vietnam and the phylogeography of Mainland Southeast Asia. Sci Rep 8, 11651 (2018). https://doi.org/10.1038/s41598-018-29989-0 (Nong Van Hai, Mark Stoneking là tác giả liên hệ).