Un artículo publicado en la revista Science señala que investigadores de estos centros de estudio han colaborado para desarrollar un nuevo algoritmo de almacenamiento de datos bautizado con el nombre de "Fuente de ADN" que permite almacenar una cantidad de datos próxima al máximo teórico. El aprovechamiento se ha cuantificado en 1,6 bits por nucleótido; un 60% más que cualquier otro método desarrollado hasta la fecha y próximo al 85% del límite teórico.
El almacenamiento de datos en cadenas de ADN se realiza traduciendo el código binario a otro compuesto por las cuatro bases nitrogenadas que codifican la información genética (A, C, T y G), que son posteriormente sintetizadas y almacenadas en un tubo de ensayo. Esta es la parte más complicada, puesto que la densidad de la información contenida en estas cadenas de ADN sintético varía en función del método utilizado. En el caso de la técnica desarrollada por los genetistas de la Universidad de Columbia y el New York Genome Center, se ha podido alcanzar la asombrosa cantidad de 215 petabytes por gramo de ADN.
Reportaje de la cadena pública alemana Deutsche Welle (en español) sobre el almacenamiento de datos en ADN.
El nuevo algoritmo fue puesto a prueba codificando seis archivos, entre ellos un sistema operativo completo, un virus informático, una película francesa de 1895 y un estudio de 1948 firmado por el matemático Claude Elwood Shannon, padre de la teoría de la información. Estos archivos fueron convertidos en primer lugar a código binario, para después ser comprimidos en un archivo conjunto y posteriormente partido en pequeñas cadenas binarias. El algoritmo se encarga después de agrupar aleatoriamente estas cadenas en lo que los científicos denominan droplets (gotitas), cada una de ellas etiquetadas para facilitar su reagrupación en el orden adecuado.
Esta información fue enviada a un laboratorio para su síntesis en forma de ADN. La lectura del material se realiza mediante secuenciación, traduciendo el código a binario y utilizando las etiquetas para ordenar la información de forma correcta. El experimento fue un éxito, haciendo posible reconstruir la información original sin que se produjera error alguno.
El uso de ADN sintético como medio de almacenamiento ofrece ventajas significativas frente a otros sistemas. Además de ser increíblemente compacto, el ADN mantiene su estabilidad durante miles de años bajo condiciones de almacenamiento adecuadas. En el lado negativo, la lectura del ADN implica su destrucción (aunque afortunadamente este puede ser fácilmente replicado), su almacenamiento debe estar cuidadosamente regulado para evitar el deterioro y, sobre todo, es una técnica extraordinariamente costosa.
Sintetizar 2 MB de datos tiene un coste de 7.000 dólares y leerlos requiere otros 2.000 dólares (y no se puede decir que sea un proceso particularmente rápido), por lo que esta tecnología está siendo investigada a largo plazo como un posible sistema de almacenamiento masivo con carácter de archivo.