Petabyte
Symbol: PBWorldwide
Qu'est-ce qu'un/une Petabyte (PB) ?
Définition Formelle
Le petabyte (symbole : PB) est une unité de stockage d'informations numériques équivalente à 10¹⁵ octets, ou exactement 1 000 000 000 000 000 octets (un quadrillion d'octets). Dans le Système international d'unités (SI), le préfixe "peta-" désigne un facteur de 10¹⁵, ce qui fait qu'un petabyte équivaut à 1 000 téraoctets, 1 000 000 gigaoctets ou 10⁹ mégaoctets. Le petabyte suit la convention décimale standard (base 10) utilisée par le SI et par les fabricants de dispositifs de stockage.
Il est important de distinguer le petabyte du pebibyte (PiB), qui est son équivalent binaire défini par la Commission électrotechnique internationale (IEC). Un pebibyte équivaut à 2⁵⁰ octets, ou 1 125 899 906 842 624 octets — environ 12,6 % de plus qu'un petabyte. Les systèmes d'exploitation tels que Windows ont historiquement rapporté les tailles de stockage en utilisant des calculs binaires mais les ont étiquetés avec des préfixes SI, ce qui a conduit à une confusion généralisée. Les normes modernes adoptent de plus en plus les préfixes binaires de l'IEC (pebi-, tebi-, gibi-) pour les puissances de 1024 et réservent les préfixes SI (peta-, tera-, giga-) pour les puissances de 1000.
Rôle dans le Stockage Numérique
Le petabyte se situe dans la catégorie supérieure des unités de stockage couramment utilisées, au-dessus du téraoctet et en dessous de l'exaoctet. À mesure que la génération de données s'accélère à l'échelle mondiale, le petabyte est passé d'un concept abstrait à une unité pratique utilisée régulièrement par les fournisseurs de services cloud, les institutions de recherche scientifique et les grandes entreprises. Les grands centres de données gérés par des entreprises telles que Google, Amazon et Microsoft stockent collectivement des centaines d'exaoctets de données, ce qui signifie que des installations individuelles gèrent couramment des dizaines de petabytes.
Etymology
Origine du Préfixe
Le préfixe "peta-" a été adopté par le Système international d'unités en 1975, lors de la 15e Conférence générale des poids et mesures (CGPM). Il dérive du mot grec "pente" (πέντε), signifiant "cinq", car le petabyte représente 1000⁵ octets. La convention de nommage suit le modèle SI d'utilisation de préfixes dérivés du grec pour de grands multiplicateurs : kilo (10³), méga (10⁶), giga (10⁹), téra (10¹²) et peta (10¹⁵).
Évolution dans le Contexte Informatique
Le mot "octet" lui-même a été inventé par Werner Buchholz chez IBM en 1956 lors de la conception de l'ordinateur IBM Stretch. À l'origine, un octet pouvait varier en taille, mais l'octet de huit bits est devenu la norme dans les années 1970. À mesure que la technologie de stockage a progressé à travers les bandes magnétiques, les disques durs, les supports optiques et les disques à état solide, le besoin de préfixes d'unités plus grands a augmenté. Le petabyte est entré dans le vocabulaire technique courant dans les années 2000 alors que les systèmes de stockage d'entreprise et les ensembles de données scientifiques commençaient à approcher et dépasser cette échelle. Le terme a gagné une reconnaissance publique plus large autour de 2010 alors que l'informatique en nuage et l'analyse de données massives devenaient des concepts courants.
Precise Definition
Norme SI
Dans le Système international d'unités (SI), un petabyte est défini comme exactement 10¹⁵ octets, ou 1 000 téraoctets. Cette définition est utilisée de manière cohérente par les fabricants de dispositifs de stockage, les entreprises de télécommunications et les organismes de normalisation internationaux, y compris l'Organisation internationale de normalisation (ISO) et la Commission électrotechnique internationale (IEC). Lorsqu'un disque dur ou un SSD est étiqueté comme ayant une capacité de 1 PB, il contient 10¹⁵ octets de stockage utilisable avant la surcharge de formatage.
Équivalent Binaire
L'équivalent binaire du petabyte est le pebibyte (PiB), défini comme 2⁵⁰ octets (1 125 899 906 842 624 octets). La distinction existe parce que les ordinateurs fonctionnent en binaire (base 2), où la mémoire et l'adressage s'échelonnent naturellement en puissances de 1024 plutôt qu'en puissances de 1000. L'IEC a introduit les préfixes binaires en 1998 (kibi-, mebi-, gibi-, tebi-, pebi-, exbi-) pour résoudre l'ambiguïté, mais l'adoption a été lente en dehors de la documentation technique. En pratique, lorsque les administrateurs système discutent des petabytes dans des contextes de centre de données, ils peuvent signifier soit 10¹⁵ soit 2⁵⁰ octets selon l'outil ou la plateforme utilisée.
Contexte de Transfert de Données
Dans le transfert de données et le réseau, les petabytes sont également utilisés pour mesurer le débit cumulé. Les points d'échange Internet, les câbles sous-marins et les réseaux de distribution de contenu déplacent régulièrement des petabytes de données par jour. La distinction entre petabytes et petabits (Pb, égal à 10¹⁵ bits ou un huitième d'un petabyte) est critique dans les contextes de réseau, où la bande passante est généralement mesurée en bits par seconde.
Histoire
La Croissance du Stockage Numérique
Le concept de petabyte aurait été incompréhensible pour les pionniers de l'informatique. L'ordinateur ENIAC de 1945 n'avait pas de stockage persistant du tout. Le premier disque dur commercial, l'IBM 350 Disk Storage Unit de 1956, contenait environ 3,75 mégaoctets — soit environ 267 millions de fois moins qu'un seul petabyte. Au cours des décennies suivantes, la capacité de stockage a crû de manière exponentielle, doublant environ tous les 12 à 18 mois conformément aux tendances observées par Gordon Moore et d'autres.
Au milieu des années 1990, les plus grands dépôts de données au monde — tels que ceux maintenus par la National Security Agency (NSA) des États-Unis et le CERN — atteignaient l'échelle du petabyte. Le Grand collisionneur de hadrons (LHC) au CERN, qui a commencé ses opérations en 2008, génère environ 1 petabyte de données brutes par seconde lors des collisions, bien qu'une fraction seulement soit conservée après filtrage en temps réel. Le Worldwide LHC Computing Grid traite et stocke environ 200 petabytes de données par an.
Commercialisation du Stockage en Petabytes
La commercialisation du stockage à l'échelle du petabyte a commencé sérieusement autour de 2005-2010 avec l'essor de l'informatique en nuage. Amazon Web Services a lancé son service de stockage simple (S3) en 2006, et d'ici 2012, le service stockait plus de 1 exabyte (1 000 petabytes) de données clients. Google traite plus de 20 petabytes de données par jour via ses systèmes MapReduce et BigQuery. Facebook a rapporté avoir stocké plus de 300 petabytes de données utilisateur d'ici 2014, un chiffre qui a depuis augmenté de plusieurs fois.
Médias Physiques en Petabytes
Les premiers systèmes de stockage uniques capables de contenir un petabyte étaient des bibliothèques de bandes. La bibliothèque de bandes TS3500 d'IBM, introduite à la fin des années 2000, pouvait évoluer jusqu'à plusieurs petabytes en utilisant des milliers de cartouches de bandes. Les premiers disques durs individuels à atteindre la marque du téraoctet sont apparus en 2007 (Hitachi Deskstar 7K1000), ce qui signifie qu'un ensemble de petabytes nécessitait environ 1 000 disques. D'ici 2024, les disques durs individuels atteignaient 30 To, réduisant un petabyte à environ 34 disques. Les disques à état solide ont suivi une trajectoire similaire, avec des SSD d'entreprise atteignant 100 To de capacité d'ici 2023.
Utilisation actuelle
Informatique en Nuage et Centres de Données
Le petabyte est l'unité de travail standard pour le stockage en nuage d'entreprise et la planification de la capacité des centres de données. Les principaux fournisseurs de cloud, y compris Amazon Web Services, Microsoft Azure et Google Cloud Platform, proposent des niveaux de stockage mesurés en petabytes. Les organisations stockent et traitent régulièrement des petabytes de données pour l'analyse, l'entraînement de modèles d'apprentissage machine et les fins d'archivage. Un seul grand client d'entreprise peut maintenir de 10 à 100 petabytes dans le stockage en nuage.
Recherche Scientifique
Dans la recherche scientifique, le petabyte est essentiel pour la physique des hautes énergies, la génomique, l'astronomie et la science du climat. Le télescope radio Square Kilometre Array (SKA), actuellement en construction, devrait générer environ 1 exabyte de données brutes par jour. Les archives de données du projet du génome humain dépassent 40 petabytes. Le système de données et d'information sur l'observation de la Terre de la NASA (EOSDIS) gère plus de 60 petabytes de données scientifiques sur la Terre, augmentant de plusieurs petabytes par an.
Médias et Divertissement
Netflix stocke l'intégralité de sa bibliothèque de contenu — y compris plusieurs versions encodées à différentes résolutions et débits pour le streaming adaptatif — dans environ 100-200 petabytes. YouTube reçoit plus de 500 heures de vidéos téléchargées par minute, générant des petabytes de nouveau contenu chaque semaine. Les grands studios de cinéma utilisent un stockage à l'échelle du petabyte pour le rendu d'effets visuels, où un seul film peut nécessiter de 1 à 10 petabytes de données intermédiaires pendant la production.
Gouvernement et Renseignement
Les agences gouvernementales sont parmi les plus grands consommateurs de stockage à l'échelle du petabyte. Le centre de données de la National Security Agency (NSA) des États-Unis à Bluffdale, Utah, aurait une capacité de stockage dans la gamme de l'exabyte. Les services météorologiques nationaux dans le monde entier stockent des petabytes de données d'observation et de sorties de modèles. Les bureaux de recensement, les autorités fiscales et les systèmes de santé gèrent tous des ensembles de données mesurés en petabytes.
Everyday Use
Mettre les Petabytes en Perspective
Bien que les consommateurs individuels rencontrent rarement le petabyte directement, il fournit un cadre de référence utile pour comprendre l'échelle de l'information numérique. Un petabyte équivaut à environ 500 milliards de pages de texte imprimé standard, ou environ 13,3 années de vidéo HD continue (en 1080p, 5 Mbps). Il faudrait environ 745 millions de disquettes (1,44 Mo chacune) pour stocker un petabyte. Si imprimé sur du papier A4 standard, un petabyte de texte créerait une pile d'environ 64 kilomètres de hauteur.
Génération de Données par les Consommateurs
Collectivement, les consommateurs génèrent des petabytes de données quotidiennement à travers les médias sociaux, la messagerie, la photographie et la vidéo. Un utilisateur moyen de smartphone génère environ 6 à 7 Go de données par mois. Multiplié par des milliards d'utilisateurs de smartphones dans le monde, cela représente de nombreux exabytes par mois. Un seul petabyte pourrait stocker environ 150 000 données annuelles d'utilisateurs de smartphones.
Tendances de Stockage à Domicile
Le stockage des consommateurs a considérablement augmenté mais reste bien en dessous du niveau du petabyte. Un ménage typique en 2024 pourrait avoir de 2 à 10 To de stockage total à travers des ordinateurs, des disques externes et des dispositifs NAS. Atteindre un petabyte de stockage à domicile nécessiterait environ 100 des plus grands disques durs disponibles pour les consommateurs. Cependant, les besoins en données des ménages croissent rapidement en raison de la vidéo 4K et 8K, du contenu de réalité virtuelle et du nombre croissant de dispositifs connectés.
In Science & Industry
Physique des Particules
La physique des particules a été l'une des premières disciplines scientifiques à nécessiter une gestion des données à l'échelle du petabyte. Le Grand collisionneur de hadrons au CERN produit environ 1 PB de données de collision par seconde, bien que des systèmes de déclenchement sophistiqués réduisent les données enregistrées à environ 50 PB par an. Les données sont distribuées à plus de 170 centres de calcul dans 42 pays via le Worldwide LHC Computing Grid. L'analyse de ces données a conduit à la découverte du boson de Higgs en 2012.
Génomique et Bioinformatique
La génomique moderne génère d'énormes quantités de données. Le séquençage d'un seul génome humain produit environ 200 Go de données brutes. Des projets à grande échelle tels que le UK Biobank (500 000 génomes), le programme All of Us Research (plus de 1 million de génomes) et le projet 100 000 génomes produisent des données mesurées en petabytes. L'archive de lecture de séquence (SRA) au National Center for Biotechnology Information détenait plus de 50 petabytes de données génomiques d'ici 2023.
Astronomie et Science de la Terre
Les enquêtes astronomiques génèrent des petabytes de données d'imagerie. Le Legacy Survey of Space and Time (LSST) du Vera C. Rubin Observatory capturera 20 To de données par nuit et accumulera environ 60 PB au cours de son enquête de 10 ans. Les modèles climatiques exécutés par des organisations telles que la NOAA et le Centre européen pour les prévisions météorologiques à moyen terme (ECMWF) produisent des petabytes de données de simulation pour chaque exécution majeure de modèle.
Intelligence Artificielle
L'entraînement de grands modèles d'IA nécessite des petabytes de données d'entraînement. Le modèle GPT-4 d'OpenAI a été entraîné sur un ensemble de données estimé à plusieurs petabytes de texte et de code. De grands modèles de génération d'images tels que Stable Diffusion et DALL-E ont été entraînés sur des milliards d'images totalisant plusieurs petabytes. La tendance vers des ensembles de données d'entraînement toujours plus grands signifie que la recherche en IA est un moteur majeur de la demande de stockage à l'échelle du petabyte.
Interesting Facts
If you tried to download one petabyte over a typical home internet connection of 100 Mbps, it would take approximately 2.5 years of continuous downloading — with no interruptions, 24 hours a day.
The entire written works of humanity — every book, article, and document ever produced — are estimated at roughly 400 petabytes when digitized. The Library of Congress, with over 170 million items, comprises approximately 20 petabytes.
A single petabyte could store approximately 3.4 years of 24/7 ultra-high-definition 4K video recording, or about 250 million high-resolution digital photographs from a modern smartphone.
Google processes over 20 petabytes of data per day, including search queries, Gmail messages, YouTube videos, and Maps data. This is equivalent to processing the entire printed collection of the Library of Congress roughly once per day.
The human brain's theoretical storage capacity has been estimated at approximately 2.5 petabytes by researchers at the Salk Institute, based on the number of synaptic connections and their potential states.
In 2024, the cost of storing one petabyte on enterprise hard drives was approximately $15,000-$25,000 — a dramatic decrease from 2000, when the same storage would have cost over $100 million.
The Wayback Machine operated by the Internet Archive stores over 100 petabytes of web page snapshots, representing a significant fraction of the publicly accessible internet's history since 1996.