Trang chủ Khoa học

Khoa học

Dự án 1000 hệ gene người Việt: Bài toán về khai thác dữ liệu

30/12/2021 09:02

Mơ ước về một cơ sở dữ liệu hệ gene người Việt đã thành hình nhưng nếu không có một lộ trình hợp lý để khai thác nguồn dữ liệu quý thì mọi nỗ lực đầu tư kinh phí và nhân lực sẽ bị bỏ phí.

“Tôi đã theo đuổi việc giải mã hoàn chỉnh hệ gene người Việt Nam trong hơn một thập kỷ nay. Chúng tôi cũng đã từng ước mơ giải mã được trước tiên là một người, mười người, một trăm người, và một ngày nào đó là một ngàn người. Tuy nhiên, với điều kiện của chúng tôi thì điều đó đã không thực hiện được”, chia sẻ của GS.TS Nông Văn Hải (nguyên viện trưởng Viện nghiên cứu Hệ Gen, Viện Hàn lâm KH&CN Việt Nam) đã tóm tắt ngắn gọn những mong muốn chưa thể thành hiện thực của rất nhiều nhà khoa học trong lĩnh vực hệ gene người ở Việt Nam trong suốt nhiều năm qua.

Dù vậy, cuối cùng “một ngày nào đó” trong giấc mơ của ông hóa ra không phải là một tương lai xa xôi mà đã được hiện thực hóa thông qua dự án “Xây dựng cơ sở dữ liệu biến dị di truyền cho quần thể người Việt” của Viện Nghiên cứu dữ liệu lớn (VinBigdata). Đây quả thực là “một công việc đồ sộ và là một sự kiện lớn đối với những người làm nghiên cứu khoa học, đặc biệt trong lĩnh vực y sinh di truyền tại Việt Nam”, GS. Nông Văn Hải chia sẻ đầy hào hứng tại buổi lễ công bố hoàn tất dự án.

Hiện tại, một phần dữ liệu của dự án đã được mở để cộng đồng truy cập thông qua Hệ thống quản lý, phân tích và chia sẻ dữ liệu y sinh (MASH Portal).

Khởi động từ cuối năm 2018, dự án “Xây dựng cơ sở dữ liệu biến dị di truyền cho quần thể người Việt” khi ấy đã thu thập mẫu của 1.008 người trưởng thành khỏe mạnh, từ 35-55 tuổi, không có quan hệ huyết thống và có đủ thông tin kiểu hình và nhân khẩu học; sau đó đưa vào chiết xuất DNA và giải trình tự. “Mẫu bệnh phẩm đó sẽ được thu thập và vận chuyển về Bệnh viện Vinmec. Tại phòng xét nghiệm, chúng tôi sẽ kiểm tra mức độ đứt gãy cũng như bảo toàn của DNA để đảm bảo chất lượng của quá trình giải trình tự”, TS. Lê Thị Thanh Hương, chuyên gia phát triển dự án, mô tả. Tính trung bình mỗi vị trí trên DNA sẽ được đọc 30 lần để giảm thiểu lỗi, tăng độ chính xác. Bên cạnh đó, nhóm nghiên cứu cũng phân tích một phần hoặc toàn phần hệ gene của hơn 4.000 trường hợp liên quan đến các bệnh lý phổ biến và khả năng đáp ứng thuốc.

Kết quả, nhóm nghiên cứu đã phát hiện hơn 40 triệu biến thể di truyền, trong đó có gần 2 triệu biến thể gene phổ biến đặc trưng cho quần thể người Việt, gần 28 triệu biến dị hiếm so với dữ liệu người Việt trong dự án 1000 hệ gene thế giới. Đây là bộ dữ liệu toàn hệ gene người Việt đầu tiên đảm bảo tính đại diện và phổ quát cho quần thể, phù hợp với phân bố dân cư về địa lý, trong đó miền Bắc 37%, miền Trung 22%, miền Nam 41% và giới tính cân bằng. Bên cạnh đó, bộ dữ liệu gene có đầy đủ chú giải về chức năng sinh học cũng như nguy cơ bệnh lý.

Đâu là bước phức tạp nhất trong suốt tiến trình bắt đầu từ phòng thí nghiệm cho đến kết quả cuối cùng là những biến thể gene đã được chú giải, cả chức năng bệnh lý lẫn chức năng sinh học? “Thực ra giai đoạn nào cũng khó khăn và vất vả cả”, TS. Võ Sỹ Nam, Giám đốc Trung tâm Tin Y sinh VinBigData, ngẫm nghĩ trước câu hỏi. Giai đoạn đầu khi chưa vào guồng, “chúng tôi cần rất nhiều thời gian và nỗ lực để phối hợp nhịp nhàng giữa các bên, vì dự án có sự tham gia của nhiều đơn vị khác nhau, nhiều thành phần khác nhau, từ trong nước đến ngoài nước với chuyên môn rất đa dạng”. Thêm vào đó, nhân lực dự án ban đầu cũng khá mỏng vì đây là địa hạt có phần còn mới mẻ ở Việt Nam, cần thời gian để thành lập và vận hành đội ngũ cũng như đào tạo bổ sung trong quá trình thực hiện dự án. Không chỉ nhân lực, hạ tầng nghiên cứu cũng là một vấn đề lớn bởi lĩnh vực này đòi hỏi một hạ tầng thu mẫu, xử lý mẫu, giải trình tự và phân tích tính toán rất phức tạp với quy mô lớn chưa từng có ở Việt Nam, cần nỗ lực và thời gian để thiết lập và vận hành làm sao cho hiệu quả.

GS. Vũ Hà Văn, TS. Võ Sỹ Nam và TS. Lê Đức Hậu – những người tham gia vào dự án ngay từ ngày đầu.

Khi mọi thứ đã vào guồng, công việc đã có phần dễ thở hơn, thì nhóm nghiên cứu vẫn phải duy trì trạng thái tập trung cao độ “để đảm bảo chất lượng tất cả các khâu, từ xử lý mẫu đến phân tích, kiểm thử và hoàn thiện”, TS. Nam nhớ lại. Giai đoạn cuối, nhóm nghiên cứu tiếp tục ‘căng mình’ để hoàn thiện phân tích, hoàn thiện hệ thống, đưa hệ thống vào hoạt động, kiểm thử chất lượng và rất nhiều những công việc không tên khác.

Để không ‘dã tràng xe cát’

Nỗ lực của VinBigdata nhằm khai thác dữ liệu của hơn 1.000 hệ gene người Việt là những nỗ lực cơ bản để đặt nền tảng tiếp tục triển khai những nghiên cứu trong lĩnh vực y dược hệ gene và y học chính xác. Tuy nhiên, nếu xem việc giải trình tự là đích đến mà không có một lộ trình để đưa nó vào ứng dụng trong quá trình điều trị, chăm sóc sức khỏe người dân trong khu vực, thì dù có khai thác thêm 100.000 hay thậm chí là một triệu hệ gene đi chăng nữa, đó cũng chỉ là những con số không hơn không kém, chứ không thể trở thành một cơ sở dữ liệu hữu ích và “vô giá”, như mong muốn của GS. Đỗ Tất Cường, Chủ tịch hội đồng cố vấn lâm sàng, Bệnh viện đa khoa quốc tế Vinmec.

VinBigdata sẽ làm gì với cơ sở dữ liệu mà mình đã thu thập được? Đó là điều mà mọi người tò mò nhất sau khi nhóm nghiên cứu đã hoàn tất dự án này, và đó cũng là “câu hỏi mà chúng tôi đã đặt ra cho chính mình ngay từ trước khi bắt đầu dự án”, TS. Võ Sỹ Nam chia sẻ. Tuy nhiên, để trả lời câu hỏi này, trước tiên phải lý giải vì sao VinBigdata phải bỏ ra một số tiền lớn để tự mình giải trình tự, thay vì cứ thế mà lấy các dữ liệu gene người vốn đã được các tổ chức trên thế giới giải mã và lưu trữ trong các ngân hàng gene như Biobank (Anh), Mycode (Mỹ)?

Thực chất, trong cơ sở dữ liệu và mô hình di truyền toàn cầu có rất ít dữ liệu di truyền của Việt Nam nói riêng và Đông Nam Á nói chung. Đó cũng là nút thắt lớn mà GS. Roy Perlis - Giám đốc Trung tâm Xuất sắc về Khoa học Di truyền, trường Y (ĐH Harvard) đã từng đặt ra trong một hội thảo do bộ KH&CN tổ chức vào năm 2019. Theo ông, những dữ liệu có sẵn tại các ngân hàng gene trên thế giới đa số tập trung vào người gốc Bắc Âu, do đó, những khám phá trong nghiên cứu và y học từ ngân hàng gene này rất có lợi cho người Bắc Âu nhưng lại không chính xác cho những người thuộc chủng tộc khác. “Nhiều rủi ro bệnh từ những biến dị phát sinh ở các chủng tộc khác vẫn chưa được khám phá”. Và do đó, cơ sở dữ liệu do VinBigdata xây dựng sẽ đóng góp thêm vào bức tranh toàn cảnh cơ sở dữ liệu gene toàn thế giới, giúp tăng cường sự hiện diện của các chủng tộc khác gốc Âu, và xa hơn là giúp các nhà nghiên cứu tìm hiểu sâu hơn cấu trúc di truyền và đa dạng sinh học của quần thể người Việt.

Xét về tổng thể thì ngay cả cùng chủng tộc, hệ gene mọi người sẽ giống nhau tới 99,99% và chỉ khác nhau 0,01% - và chỉ 0,01% đó đã là thách thức cho các nhà khoa học. Chính sự khác biệt đa hình kiểu gene (phenotype) khiến hai người cùng chủng tộc, thậm chí cùng dòng máu, sẽ có rủi ro mắc bệnh khác nhau, và ngay cả khi họ cùng mắc một loại bệnh lý như nhau thì khả năng dung nạp thuốc cũng có thể khác nhau. Chẳng hạn, nếu bác sĩ phát hiện bệnh nhân có một số biến thể gene BRCA1 và BRCA2 đặc trưng thì khả năng cao người này sẽ mắc bệnh ung thư. Dù vậy, nếu họ có bản đồ gene của chính họ từ lúc rất sớm, họ có thể dự phòng, đi khám và nếu phát hiện T0 thì họ hoàn toàn có thể điều trị mà không cần xạ trị, hóa trị. Ngược lại, nếu sự thiếu hụt dữ liệu vẫn tiếp diễn, các phương pháp của y học chính xác khó mà có thể được áp dụng một cách thực sự trên người Việt Nam, và các công trình nghiên cứu điều trị bệnh hay các hãng dược phẩm khi chế tạo thuốc cũng sẽ không thể dựa vào dữ liệu hệ gene chuyên biệt của người Việt.

Hiểu rõ điều này, ngay từ năm 2019, khi dự án vẫn đang được tiến hành, VinBigdata đã mở rộng dự án thông qua việc hợp tác với một số cơ sở nghiên cứu hàng đầu ngành y dược ở Việt Nam như ĐH Y Hà Nội, ĐH Dược Hà Nội, Học viện quân y cũng như ĐH Quốc tế (ĐHQG TPHCM), ĐH Công nghệ (ĐHQGHN)… để triển khai hai hướng nghiên cứu chính là dự đoán nguy cơ bệnh (10 nhóm bệnh phổ biến ở Việt Nam) và dự đoán đáp ứng thuốc/phản ứng có hại của thuốc (ba nhóm tác dụng phụ phổ biến). Bên cạnh đó, nhóm nghiên cứu vẫn đang tiếp tục phát triển các công cụ giúp thúc đẩy các nghiên cứu và ứng dụng dựa trên gene đặc trưng cho người Việt, bao gồm chip định kiểu gene (genotyping chip) đặc trưng cho quần thể người Việt, công cụ phân tích tính toán giúp dự đoán nguy cơ bệnh và đáp ứng thuốc chính xác hơn cho người Việt, từ đó giúp cải thiện y học dự phòng, sàng lọc sớm nguy cơ bệnh, giúp kê đơn thuốc hiệu quả, giảm thiểu chi phí điều trị.

Dù bức tranh vẫn đang rất khả quan, nhưng điều đó không ngăn được những trăn trở và suy tư của TS. Lê Đức Hậu, chủ nhiệm dự án này. “Chúng ta cũng cần phải cân bằng các yếu tố, thực tế hiện nay chúng ta còn tập trung vào dữ liệu genomics nhiều, trong khi có rất nhiều loại dữ liệu -omics khác như transcriptomics, proteomics quy định chức năng cũng như đặc trưng về sinh học của mỗi người”. Nhiều nghiên cứu hiện nay về dự đoán nguy cơ bệnh cũng như dự đoán phản ứng thuốc cho thấy dữ liệu genomics “chiếm tỷ lệ rất thấp trong hiệu năng dự đoán, trong khi tới 80% độ chính xác đến từ dữ liệu transcriptomics”. Dù vậy việc phân tích nhiều lớp dữ liệu -omics đòi hỏi sức mạnh xử lý lớn, nên trước mắt với dữ liệu hiện có các nhà khoa học chỉ có thể xem xét những bệnh đơn gene hoặc những bệnh đã được nghiên cứu sâu trên thế giới mà ở Việt Nam cũng có sự tương đồng, “còn với những bệnh đa gene, bệnh phổ biến thì tôi nghĩ chúng ta cần có nhiều dữ liệu hơn”.

Mở ra những hợp tác mới

Bài toán mà PGS.TS. Lê Đức Hậu đặt ra chắc chắn không phải là vấn đề mà một mình VinBigdata có thể xử lý. Vì lẽ đó, ngay từ khi bắt đầu dự án cách đây ba năm, Viện VinBigdata ‘mở’ dự án, ký thỏa thuận hợp tác với các trường đại học Việt Nam trong lĩnh vực y dược học và khoa học công nghệ nhằm đào tạo nhân lực, chia sẻ hạ tầng nghiên cứu.

Hiện tại, một phần dữ liệu của dự án đã được mở để cộng đồng truy cập thông qua Hệ thống quản lý, phân tích và chia sẻ dữ liệu y sinh (MASH Portal) (https://genome.vinbigdata.org). Người dùng có thể tra cứu nhằm mục đích tham khảo, phục vụ các nghiên cứu y sinh. Hệ thống cũng cung cấp thử nghiệm một số công cụ phân tích tốc độ cao (từ 30 phút đến 1 giờ) cho dữ liệu toàn hệ gene người. Hệt như một kho tàng không đáy, càng mở thì cơ sở dữ liệu sẽ càng được nhiều người biết đến, những người nghiên cứu khoa học thuần túy sẽ lại càng có cơ hội gặp nhau để cùng hợp tác, và rồi cơ sở dữ liệu sẽ lại càng đầy thêm.

Nhận thức được điều này, VinBigdata hiện đang triển khai những nghiên cứu cụ thể liên quan đến Dược lý Di truyền như phản ứng có hại của thuốc, y học cá thể. Theo PGS.TS Lê Thị Lý - Trưởng phòng Dược lý Di truyền VinBigData, đồng chủ nhiệm dự án, hiện tại VinBigdata đang cộng tác với nhóm bác sĩ của Bệnh viện 108 để thu thập mẫu của các bệnh nhân bị tổn thương gan do thuốc. Ngoài ra nhóm cũng đang cùng Bệnh viện Thống Nhất thiết kế thí nghiệm cho nhóm bệnh nhân bị tác dụng phụ của thuốc chống kết tập tiểu cầu. “Trong tương lai, chúng tôi sẽ thực hiện thêm nhiều dự án tương tự, và hy vọng rằng sẽ có những thực hành cụ thể hơn với quy mô lớn cho người Việt để có thể tối ưu hóa việc điều trị”, chị nói.

Bên cạnh đó, VinBigdata cũng đang hợp tác chặt chẽ với Đại học Y Hà Nội với hy vọng sẽ sớm đưa ra những nhóm thuốc liên quan đến bệnh tim mạch, thuốc giảm đau và đặc biệt hơn nữa là những loại thuốc điều trị COVID-19.

Dự án giải mã hoàn chỉnh 1.000 người Việt đã đặt ra những nền tảng cơ sở để gợi mở thêm nhiều hướng phát triển mới trong tương lai, nhưng không vì thế mà chúng ta xem rằng vòng tròn nghiên cứu về hệ gene và giải trình tự hệ gene người Việt chỉ gói gọn và dừng lại ở dự án này. Theo GS.TS Nông Văn Hải, 1.000 người là một con số lớn nhưng ông vẫn mong muốn nhà nước và các đơn vị tư nhân trong tương lai có thể đầu tư để nâng lên thành dự án lớn hơn nữa như 10.000 hệ gene hoàn chỉnh hoặc hệ gene mã hóa. “Lĩnh vực này nên nhận được những đầu tư lớn để chúng ta có thể bắt kịp với thế giới, và dữ liệu này cũng phải được khai thác một cách hữu hiệu”. Bản thân VinBigdata cũng đã đầu tư 4,5 triệu cùng một hạ tầng rất lớn với gồm 2500 tetrabyte dữ liệu và 1000 tetrabyte sao lưu cùng các công nghệ mới nhất như GPU, FPGA với hơn 1000 lõi CPU và hơn 8000 gigabyte bộ nhớ, tuy vậy để đi được một chặng đường xa hơn, sẽ phải cần thêm rất nhiều khoản đầu tư lớn nhỏ.

Trong lúc chờ đợi những sự đầu tư thích đáng, các nhà khoa học có thể làm gì? “Cách đây khoảng 25 năm, chúng tôi [Đại học Y Hà Nội] đã bắt đầu tìm hiểu về gene với những nghiên cứu hết sức giản đơn và sơ khởi so với bây giờ. Nhưng những khó khăn và giản đơn ban đầu đó tạo tiền đề cho chúng tôi tiếp tục hì hụi, kiên trì làm từng năm, từng năm; và giờ đây chúng tôi cũng đã xác định được các kiểu hình gene, các đột biến trong 15 bệnh lý di truyền khác nhau, từ đó đưa vào ứng dụng lâm sàng, góp phần chẩn đoán trước sinh, tư vấn di truyền và tư vấn tiền hôn nhân”, GS.TS Tạ Thành Văn (Chủ tịch Hội đồng trường ĐH Y HN) nhớ lại. Kiên trì vượt qua những khó khăn - đó có lẽ cũng là lời khuyên hợp lý dành cho đội ngũ của VinBigdata nói riêng và các nhà khoa học nói chung trong chặng đường phát triển cơ sở dữ liệu hệ gene người Việt trong thời gian tới.

VinBigdata hiện đang triển khai những nghiên cứu cụ thể liên quan đến Dược lý Di truyền như phản ứng có hại của thuộc, y học cá thể. Trong tương lai, chúng tôi sẽ thực hiện thêm nhiều dự án tương tự, và hy vọng rằng sẽ có những thực hành cụ thể hơn với quy mô lớn cho người Việt để có thể tối ưu hóa việc điều trị.

PGS.TS Lê Thị Lý

Anh Thư

TIN TIÊU ĐIỂM

CHUYÊN MỤC