Recherche, industries et individus accumulent de plus en plus de données numériques. À tel point que les disques durs et autres enregistreurs seront bientôt débordés. Pour pallier les manques à venir, un objet ancien évolue constamment: the cassette magnétique, en attendant une technologie de pointe basée sur l’ADN.
Une photo Instagram, des vidéos sur un drivedes mails… chaque individuule accumulates a nombre considérable de données numériques, in constant augmentation with the new technologies à notre disposition – videos in 4K, streaming on Netflix – le tout stocké non pas sur un disque dur, maize dans le «nuage», le ” cloud », Parfois à des centaines de kilomètres de soi. Mais ces données, bien que très familières, ne sont pas cells qui pèsent le plus lourd dans le «Big Data», les données massives.
La recherche en est un contributeur bien plus important. Les expériences scientifiques humaines pèsent lourd, très lourd: l’Organisation européenne pour la recherche nucléaire, the CERN, près de Genève, a accumulé, depuis sa création, plus de 100 pétaoctets (Po) d’images, de données brutes, d’alformations, à conserver pour les générations futures qui voudront les étudier. 100 Po, c’est l’équivalent d’environ 102 400 disques durs de 1 téraoctet (To), en vente pour les particuliers …

There première photo d’un trou noir a nécessité près de 5 Po, ce qui équivaut à 5 000 disques durs de 1 To. Les industries, like Twitter, EDF, ou n’importe those entreprise un minimum numérisée, sont d’autres contributeurs au Big Data.
Des limites physiques
Between 2010 and 2020, the nombre of information contained in les données massives a été multipleé par plus de 30, passant de 2 zettaoctets (2 millions de Po), à 60 zettaoctets. Et le rythme s’accélère. From 2025, l’humanité must produce 175 zettaoctets de données.
François Képès, cellular biologist, responsible between 2018 and 2021 of a group of travail de prospective sur le stockage des données numériques, explique: « In 2018, a millionème des terres émergées de la planète étaient occupées par des centers de données. À ce rythme exponentiel là, en 2060, toutes les terres émergées seront recouvertes de centers de données. “

Pourtant, en 70 ans, les chercheurs n’ont cessé de reduire the taille des systèmes de stockage, passant de la disquette au disque dur, pour des capacités démultipliées. Mais dans ses conclusions, le rapport du groupe de travail publié in 2020 rappelle que la loi de Moore sur les semi-conducteurs s’applique also aux systèmes de stockages électronique et magnétique. ” Il n’est pas possible de miniaturiser et d’optimiser indéfiniment. Il y avait un doublement des capacités et une division par deux du prix, tous les deux ans, pendant plusieurs décennies, mais cette optimization est en ralentissement. On est en train d’atteindre certaines limites physiques dures et the optimization qu’on peut encore en attendre est relativement faible », Explains François Képès.
The cassette, a solution de secours
Si les systèmes de stockage électronique attignent leurs limites, la cassette, elle, continue de battre des records. Oui, il est bien question ici de la cassette, cells que vous mettiez dans votre vieux caméscope ou lecteur-cassette, dont les bandes pouvaient partir dans tous les sens en cas de rembobinage défectueux. Mais les cassettes développées aujourd’hui n’ont rien à voir avec celles d’hier. Le dernier record de Fujifilm and IBM s’établit à 580 To soit l’équivalent de 76 millions de cassettes audio des années 1990 (60 Mo / cassette). Ici une vidéo lors du record de 2017, qui était alors de 330 To.
Avec des bandes vingt fois plus fines qu’un cheveu et longues de plus d’un kilomètre, the cassette loge dans la paume d’une main, et a encore quelques années devant elle. Mark Lantz, chercheur spécialisé dans la banda magnétique à IBM, declare à ce propos: ” Cela démontre vraiment la possibilité de poursuivre la mise à l’échelle de la technologie des bandes, essentiellement à des taux historiques de doublement de la capacité des cartouches tous les deux ans, pendant au moins les dix prochaines années. “
Les dix prochaines années… et après? En mettant en avant cette temporalité, Mark Lantz, comme de nombreux ingénieurs travaillant dans le stockage, montre qu’il a bien conscience des limites du stockage électronique et magnétique. Tous deux consomment des ressources énormes, en énergie et en place.

La cassette magnétique a toutefois cet avantage d’être moins gourmande en électronique: un seul lecteur peut lire plusieurs cassettes, la où chaque disque dur embarque son propre système de lecture. De plus, une hard cassettes des dizaines d’années contrirement à un disque dur, et est plus économe en énergie.
Malgré tout, une cassette, aussi puissante soit-elle, take encore trop d’espace physique et ne saura containing la taille des données massives à venir. The faut donc passer à la vitesse supérieure. Et c’est ce qu’a cherché à faire the groupe de travail de François Képès. ” Nous avons logiquement considéré des alternatives comme la gravure sur verre, sur cristal ou le stockage sur des polymères comme l’ADN. Il nous a semblé probable que la seule technologie qui pouvait être développée à temps et qui présentait des facteurs d’amélioration suffisants, était le stockage sur polymère », Résume le chercheur.
En attendant the ADN
ADN? Pas de panique: il n’est pas question de stocker des informations dans des êtres vivants, ou d’en modifier directement chez quelqu’un. Certes, the a été imaginé de le faire dans des bactéries ou des spores, mais ce n’est plus the main slopes.
The ADN est une grosse chaîne de molécules here involving the instructions for reproduction and the développement d’être vivants. Ici, c’est le terme «instruction» qui est intéressant. L’ADN, c’est une chaîne de quatre monomères, les «barres» here relient les deux hélices: A, C, G and T. La suite de ces monomères (AAGTTCCGATAT, par exemple) women information, exactement comme … le système binaire, based on 1 et 0, is the origin of all système informatique.

D’abord, il faut déterminer those succession de monomère on souhaite aligner, pour encoder le fichier numérique. Imaginons que A vaut 0 0, C vaut 0 1, G vaut 1 1, et T vaut 1 0. Prenons un exemple Totally factice. Si l’on veut stocker une photo, encodée 01 11, cela signifierait que l’ordinateur doit “ translate »the 01 11 en CG. C’est l’encodage, on code le fichier. Ensuite, il faut écrire «chimiquement» CG dans l’ADN, puis stocker celui-ci pour le ressortir quand on en a besoin.
Au moment de la lecture, le logiciel goes to translate the suite de lettres en code binaire, reconstituant ainsi la photo à l’écran. Pour résumer, il ya donc cinq étapes: encodage, écriture, stockage, lecture, décodage.
Corn pourquoi stocker nos informations sur de l’ADN? Pour le nombre d ‘informations que l’on peut y encoder (la densité informationnelle), sa sobriété énergétique et sa durabilité. Pas besoin de refroidir l’ADN, contrairement aux centers de données: the if conserve à température ambiante… jusqu’à 52 000 ans, if the technique d’encapsulage de la société française Imagene is used.
Chacune de ses capsules peut contain jusqu’à 0,8 g of ADN, soit 1,4 Exaoctet de données. Pour rappel, un exaoctet représente a million de disques durs de 1 To. 0,8 g of ADN contendrait ainsi autant d ‘informations que 150 tonnes de disques durs! Pour stocker les 175 Zettaoctets du Big Data de 2025, the faudrait seulement 175 kilos d’ADN. The agency DARPA américaine considers that the ADN pourrait allow de diviser par one thousand the consommation d’énergie de nos données.
A potentiel de développement?
L’tout principal de l’ADN, c’est qu’on le connaît très bien, rappelle François Képès: ” Biomedicals a entrîné the développement d’une technologies ADN qui est déjà très avancée. Cela signifie que toutes les méthodes nécessaires pour le travail de stockage et d’archivage de données numériques a déjà été fait, maintenant, cela ne veut pas dire qu’il est à niveau du point de vue commercial, pas du tout. “
Néanmoins, technology progressed three lives. ” Le coût pour séquencer un génome humain [la lecture, NDLR] to extraordinairement baissé. On était à 3 milliards de dollars in 2003, on est à 500 aujourd’hui », S’enthousiasme le chercheur. Mais il reste des limites: 500 dollars for a lecture de l’ADN à la vitesse de 2022, c’est encore 1 000 fois trop cher et 1 000 fois trop lent, par rapport à un disque dur. Pour l’écriture, c’est même 100 millions de fois trop lent et trop cher.
” The ya des gens qui nous ont dit de revenir en parler à la fin du siècle. Pas du tout! Les technologies liées à l’ADN progressent d’un facteur deux tous les six mois environ : quatre fois plus rapidement que l’électronique between 1976 and 2011. À ce rythme, le facteur 1000 de la lecture sera avalé d’ici à cinq ans, autour de 2025. Et les 100 millions pour l’écriture, he, autour de 2035! ”
Déjà, certaines applications sont possibles pour l’ADN, en attendant 2035. Toutes les données n’ont pas besoin d’être lues ou écrites régulièrement. Ainsi, the INA, organisme français chargé d’archiver les productions audiovisuelles, accumule chaque année 20 Po supplémentaires de données. Toutes ces données n’ont pas besoin d’être ressorties rapidement, d’où the intérêt de les encoder dans l’ADN. De la même manière, le secteur bancaire, qui doit conserver les données bancaires de ses clients parfois des dizaines d’années, pourrait utiliser cette nouvelle technologie de stockage.
Preuve que l’enjeu est énorme, the DARPA américain a investi des centaines de millions d’euros dans les technologies ADN. La France, elle, commence à s’y mettre, notamment grâce au groupe de travail de François Képès, avec an investment of 20 million euros du gouvernement octroyé à la recherche sur le stockage ADN.
► À lire aussi: Face à immensité du Big Data, les stratégies des journalistes d’vestigation
.



