Исследователи божьят плотность хранения ДНК путем добавления дополнительных букв
Мы стали очень хорошими при хранении данных с жесткими дисками, закрывающими 20 терабайт, но даже наша лучшая инженерия 21-го века не может приблизиться к элегантности и плотности ДНК. Большинство клеток в вашем организме содержат полную генетическую копию того, что делает вас человеком, а ДНК удивительно долговечно прочно по сравнению с чипами и прядильными блюдами, которые, вероятно, окажутся на свалках внутри десятилетия. ДНК может даже быть жизнеспособным для хранения цифровых данных, но мы не ограничены тем, как работает человеческая ДНК. Исследователи из Университета Иллинойса Урбана-Champaint расширили возможности хранения данных ДНК, добавив больше букв на свой алфавит.
Генетическая информация в ваших клетках зависит от четырех первичных основных пар, также известных как нуклеотиды или нуклеиновую кислоту. Там аденин, гуанина, цитозин и тимин - A, G, C и T вы видели, когда написано генетическая информация. Человеческое тело также использует другую базу, называемую урацилом вместо тимина при переводе генетической информации в РНК, чтобы сделать белки.
Даже без каких-либо модификаций ДНК - очень плотная среда для хранения. Исследователи отмечают, что мир создает несколько петабайт новых данных каждый день, и один грамм ДНК может хранить все это все. Это то, что вы получаете со стандартной четырьмя базовой системой от жизни на Земле, но в химии есть много нуклеотидов, которые могут связаться с образованием прядей ДНК. Команда создала схему кодирования, опираясь на 11 различных баз, что дает синтетическую ДНК намного более высокую плотность данных, чем система всего четырех баз.
Так почему же мы все не используем жесткие диски ДНК? Хотя ДНК может длиться тысячи лет без непоправимых потери данных, трудно кодировать и декодировать эти данные. Вам нужно передовое лабораторное оборудование, и большинство инструментов не могут даже интерпретировать 11-базовые пряди ДНК, созданные в новом исследовании. Команда обнаружила, что кольцоподобные белки, известные как NANOPORES MSPA, которые обычно используются в чувствительности ДНК, могут правильно прочитать синтетическую и естественную ДНК. Интерпретация восстановленных данных требуется машина обучения машины и искусственному интеллекту, но результатом является системе, которая правильно прочитала все 77 различных комбинаций баз, используемых в исследовании. Они считают, что эта система может примерно удвоить плотность данных ДНК, которая уже намного выше, чем любая технология, которую мы разработали.
Эта работа еще очень рано, но это увлекательное доказательство концепции. Добавление синтетической химии к естественным механизмам биологического хранения может разблокировать функционально неограниченное хранение данных. И это работает, с небольшим количеством помощи. Такая технология будет ограничена долгосрочным архивальным хранением сначала, но никто не знает, что может принести будущее.