Con người đang tạo ra lượng dữ liệu vượt quá khả năng đáp ứng của công nghệ lưu trữ hiện tại và công nghệ DNA được kỳ vọng sẽ tạo ra đột phá.
DNA có thể chứa khối dữ liệu tương đương với hàng trăm trung tâm lưu trữ ở quy mô công nghiệp, trong một khoảng không gian tương đương hộp đựng giày.
Exabyte và bài toán chi phí lưu trữ dữ liệu
Giới công nghệ đã dần quen với khái niệm exabyte - tương đương 1018 byte, hoặc 260 byte. Con số đến hàng exabyte thể hiện lượng dữ liệu cực lớn, nhưng không hề thơ mộng. Các đế chế giàu có và quyền lực nhất thế giới đang dần tỏ ra ngán ngẩm với báo cáo dự toán chi phí lưu trữ dữ liệu. Facebook, Apple, Google, Chính phủ Mỹ và nhiều tổ chức khác đang phải bỏ khoản tiền cực lớn vào các đại dự án tăng khả năng lưu trữ dữ liệu.
Theo giới chuyên gia, ngay cả khi hoàn thành các đại dự án đó, chúng ta vẫn khó tránh cảnh không đáp ứng được tốc độ tăng nhu cầu lưu trữ nếu không có đột phá về công nghệ.
DNA - vật chất mang thông tin di truyền trong tế bào mọi sinh vật - là hướng đi gần nhất với đột phá mà chúng ta mong đợi. Do là vật chất cốt lõi của sự sống, các nghiên cứu trên DNA đều có tiềm năng ứng dụng rất lớn trong y học nói riêng và sinh học nói chung. Vì vậy, đầu tư vào lưu trữ dữ liệu bằng DNA sẽ là “một mũi tên trúng hai đích” đối với các đại gia công nghệ.
Microsoft gần đây quyết định tìm cách lưu trữ dữ liệu bằng công nghệ sinh học. DNA có lẽ chưa hề nằm trong phạm vi đầu tư thông thường của hãng này, nhưng sự cộng tác với các tổ chức học thuật về sinh học phân tử đã đem lại kết quả lớn: Dự án đã có thể lưu trữ và truy xuất dữ liệu điện tử với mật độ đáng kinh ngạc. Theo một bài đăng trên blog của Microsoft, với công nghệ DNA, các chuyên gia đã lưu được khoảng 200Mb dữ liệu vào khối vật chất chỉ bằng một phần nhỏ của giọt chất lỏng. Dữ liệu được lưu trữ dưới một dạng có thể truy cập rất nhanh chóng và dễ dàng.
Kỳ công này được thực hiện bằng cách nào? Đầu tiên, các nhà nghiên cứu chuyển các mã nhị phân 1 và 0 của máy tính sang hệ mã di truyền A, C, T và G rồi dựng lại file dữ liệu bằng cách tạo một phân tử DNA chứa các mã cấp thấp này. Với bộ nhớ DNA, các chuyên gia sẽ phải thiết kế một trình tự có độ nén và phức tạp đủ để chứng minh tiềm năng ứng dụng của DNA, nhưng cũng đủ đơn giản để đảm bảo độ chính xác của dữ liệu bằng các công cụ sửa lỗi DNA nghiêm ngặt.
Bộ nhớ DNA không hẳn là sản phẩm công nghệ mới, bởi phần lớn các bộ phận quan trọng của hệ thống đã có trước cả khi loài người xuất hiện. Nhưng để trở thành đột phá công nghệ đủ tin cậy, các nhà khoa học cần hiểu và điều khiển chính xác hệ thống DNA.
Có thể hình dung cách xây dựng hệ thống này giống như cách mà tất cả các dữ liệu cần để mã hóa Albert Einstein được lưu trữ chính xác trong bộ gene của từng tế bào nhà bác học. Trên thực tế, thành công mới đây chứng minh công nghệ bộ nhớ DNA đã đạt những bước tiến quan trọng.
Lợi thế hàng đầu về mật độ lưu trữ
Câu hỏi quan trọng nhất đặt ra cho lĩnh vực lưu trữ dữ liệu DNA là mật độ lưu trữ: Mỗi đơn vị bộ nhớ có thể giữ được bao nhiêu thông tin? Để so sánh, một số nhà khoa học ước lượng rằng DNA có thể chứa lượng dữ liệu tương đương hàng trăm trung tâm lưu trữ quy mô công nghiệp mà chỉ cần một khoảng không gian tương đương hộp đựng giày.
Khả năng này của DNA đến từ hai yếu tố. Thứ nhất, các hệ thống mã hóa của DNA cực nhỏ, chưa đến 0,5 nanomet, trong khi các transitor của máy tính hiện đại vẫn đang “vật vã” chinh phục kích cỡ 10 nanomet. Thứ hai, DNA có khả năng đóng gói ở quy mô 3 chiều một cách dễ dàng.
Các transitor thường chỉ được sắp đặt trên một mặt phẳng nên ít khả năng tận dụng khoảng không. Có thể tăng mật độ lưu trữ bằng cách xếp chồng các tấm ván phẳng, khiến một khó khăn khác nảy sinh là nhiệt độ - thử thách lớn nhất với các thiết bị dựa trên transitor, kể cả các bộ vi xử lý lẫn các thiết bị lưu trữ.
Các transitor được xếp chồng càng chặt thì nhiệt độ tạo ra càng lớn và càng khó tản nhiệt, tiêu tốn chi phí làm mát hệ thống. Với khả năng tự cô đặc siêu hiệu quả, DNA là giải pháp tuyệt vời cho vấn đề này. Chromatin - các protein liên kết với DNA - chính là các phân tử sinh học đặc hiệu phức tạp, giúp DNA tự cuộn chặt nhưng vẫn trải ra nhanh chóng, dễ dàng khi cần.
Trong tế bào, nhờ các protein nhiễm sắc mà một gene bất kỳ tại một thời điểm bất kỳ đều có thể được triệu hồi với hiệu suất gần như ngang nhau. Khả năng này là gợi ý quan trọng để tạo ra một phiên bản DNA của bộ nhớ truy xuất ngẫu nhiên RAM trong máy tính. Như bộ nhớ RAM, vị trí vật lý của dữ liệu không quan trọng bằng khả năng truy cập dữ liệu đó.
Tuy nhiên, tốc độ truy cập dữ liệu vẫn là một điểm cần cải tiến. Các giải pháp lưu trữ dữ liệu sinh vật được phát triển theo con đường tiến hóa và thường không đòi hỏi năng lực thực hiện hàng ngàn lượt truy cập mỗi giây.
Do đó, việc đọc DNA cũng chậm hơn các transitor điện tử thông thường và bộ nhớ DNA có tốc độ truy cập ít mang tính tức thời hơn ổ cứng hoặc ổ đĩa từ thông thường. Để giải quyết vấn đề này, cần có các kỹ thuật phức tạp hơn một chút trong công nghệ protein. Đó cũng là bài toán tiếp theo của công nghệ lưu trữ dữ liệu DNA.