Petabyte
Symbol: PBWorldwide
Was ist ein/eine Petabyte (PB)?
Formale Definition
Das Petabyte (Symbol: PB) ist eine Einheit der digitalen Informationsspeicherung, die 10¹⁵ Bytes entspricht, oder genau 1.000.000.000.000.000 Bytes (eine Billiarde Bytes). Im Internationalen Einheitensystem (SI) bezeichnet das Präfix "peta-" einen Faktor von 10¹⁵, wodurch ein Petabyte 1.000 Terabyte, 1.000.000 Gigabyte oder 10⁹ Megabyte entspricht. Das Petabyte folgt der standardmäßigen dezimalen (Basis-10) Konvention, die vom SI und von Herstellern von Speichergeräten verwendet wird.
Es ist wichtig, das Petabyte vom Pebibyte (PiB) zu unterscheiden, das sein binäres Gegenstück ist und von der Internationalen Elektrotechnischen Kommission (IEC) definiert wird. Ein Pebibyte entspricht 2⁵⁰ Bytes oder 1.125.899.906.842.624 Bytes – etwa 12,6 % mehr als ein Petabyte. Betriebssysteme wie Windows berichteten historisch über Speichergrößen unter Verwendung binärer Berechnungen, bezeichneten sie jedoch mit SI-Präfixen, was zu weit verbreiteter Verwirrung führte. Moderne Standards übernehmen zunehmend die IEC-binären Präfixe (pebi-, tebi-, gibi-) für Potenzen von 1024 und reservieren SI-Präfixe (peta-, tera-, giga-) für Potenzen von 1000.
Rolle in der digitalen Speicherung
Das Petabyte befindet sich in der oberen Kategorie der häufig verwendeten Speichereinheiten, über dem Terabyte und unter dem Exabyte. Da die Datenproduktion weltweit zunimmt, hat sich das Petabyte von einem abstrakten Konzept zu einer praktischen Einheit entwickelt, die routinemäßig von Cloud-Dienstanbietern, wissenschaftlichen Forschungsinstitutionen und großen Unternehmen verwendet wird. Große Rechenzentren, die von Unternehmen wie Google, Amazon und Microsoft betrieben werden, speichern gemeinsam Hunderte von Exabytes an Daten, was bedeutet, dass einzelne Einrichtungen häufig mit Dutzenden von Petabytes umgehen.
Etymology
Ursprung des Präfixes
Das Präfix "peta-" wurde 1975 vom Internationalen Einheitensystem angenommen, während der 15. Allgemeinen Konferenz für Maß und Gewicht (CGPM). Es stammt von dem griechischen Wort "pente" (πέντε), was "fünf" bedeutet, da das Petabyte 1000⁵ Bytes repräsentiert. Die Benennung folgt dem SI-Muster, griechisch abgeleitete Präfixe für große Multiplikatoren zu verwenden: kilo (10³), mega (10⁶), giga (10⁹), tera (10¹²) und peta (10¹⁵).
Entwicklung im Kontext der Computertechnik
Das Wort "Byte" selbst wurde 1956 von Werner Buchholz bei IBM während der Entwicklung des IBM Stretch-Computers geprägt. Ursprünglich konnte ein Byte in der Größe variieren, aber das achtbitige Byte wurde in den 1970er Jahren zum Standard. Mit dem Fortschritt der Speichertechnologie durch Magnetbänder, Festplatten, optische Medien und Solid-State-Laufwerke wuchs der Bedarf an größeren Einheitpräfixen. Das Petabyte trat in den 2000er Jahren in den allgemeinen technischen Wortschatz ein, als Unternehmensspeichersysteme und wissenschaftliche Datensätze begannen, sich diesem Maßstab zu nähern und ihn zu überschreiten. Der Begriff gewann um 2010 breitere öffentliche Anerkennung, als Cloud-Computing und Big-Data-Analysen zu Mainstream-Konzepten wurden.
Precise Definition
SI-Standard
Im Rahmen des Internationalen Einheitensystems (SI) wird ein Petabyte genau als 10¹⁵ Bytes oder 1.000 Terabyte definiert. Diese Definition wird konsequent von Herstellern von Speichergeräten, Telekommunikationsunternehmen und internationalen Normungsorganisationen, einschließlich der Internationalen Organisation für Normung (ISO) und der Internationalen Elektrotechnischen Kommission (IEC), verwendet. Wenn eine Festplatte oder SSD als mit einer Kapazität von 1 PB gekennzeichnet ist, enthält sie 10¹⁵ Bytes nutzbaren Speicher vor Formatierungsüberhead.
Binäres Äquivalent
Das binäre Äquivalent des Petabyte ist das Pebibyte (PiB), definiert als 2⁵⁰ Bytes (1.125.899.906.842.624 Bytes). Der Unterschied besteht darin, dass Computer binär (Basis-2) arbeiten, wo Speicher und Adressierung natürlich in Potenzen von 1024 und nicht von 1000 skaliert werden. Die IEC führte 1998 die binären Präfixe (kibi-, mebi-, gibi-, tebi-, pebi-, exbi-) ein, um die Mehrdeutigkeit zu klären, aber die Akzeptanz war außerhalb der technischen Dokumentation langsam. In der Praxis, wenn Systemadministratoren über Petabytes in Rechenzentrums-Kontexten sprechen, kann es sich entweder um 10¹⁵ oder 2⁵⁰ Bytes handeln, abhängig von dem verwendeten Werkzeug oder der Plattform.
Datenübertragungskontext
Bei der Datenübertragung und im Networking werden Petabytes auch verwendet, um den kumulierten Durchsatz zu messen. Internet-Knotenpunkte, Unterseekabel und Content-Delivery-Netzwerke bewegen routinemäßig Petabytes an Daten pro Tag. Der Unterschied zwischen Petabytes und Petabits (Pb, gleich 10¹⁵ Bits oder ein Achtel eines Petabytes) ist im Networking-Kontext entscheidend, wo die Bandbreite typischerweise in Bits pro Sekunde gemessen wird.
Geschichte
Das Wachstum der digitalen Speicherung
Das Konzept eines Petabytes wäre für die frühen Computerpioniere unvorstellbar gewesen. Der ENIAC-Computer von 1945 hatte überhaupt keinen persistenten Speicher. Die erste kommerzielle Festplatte, die IBM 350 Disk Storage Unit von 1956, hatte eine Kapazität von etwa 3,75 Megabyte – ungefähr 267 Millionen Mal weniger als ein einzelnes Petabyte. In den folgenden Jahrzehnten wuchs die Speicherkapazität exponentiell, verdoppelte sich ungefähr alle 12 bis 18 Monate gemäß den von Gordon Moore und anderen beobachteten Trends.
Bis Mitte der 1990er Jahre erreichten die größten Datenrepositories der Welt – wie die der US National Security Agency und CERN – den Petabyte-Maßstab. Der Large Hadron Collider (LHC) bei CERN, der 2008 in Betrieb ging, erzeugt während Kollisionen etwa 1 Petabyte Rohdaten pro Sekunde, obwohl nur ein Bruchteil nach der Echtzeitfilterung behalten wird. Das Worldwide LHC Computing Grid verarbeitet und speichert jährlich etwa 200 Petabytes an Daten.
Kommerzialisierung der Petabyte-Speicherung
Die Kommerzialisierung der Petabyte-Speicherung begann ernsthaft um 2005-2010 mit dem Aufstieg des Cloud-Computing. Amazon Web Services startete 2006 seinen Simple Storage Service (S3), und bis 2012 speicherte der Dienst über 1 Exabyte (1.000 Petabytes) an Kundendaten. Google verarbeitet täglich über 20 Petabytes an Daten durch seine MapReduce- und BigQuery-Systeme. Facebook berichtete, dass es bis 2014 über 300 Petabytes an Nutzerdaten speicherte, eine Zahl, die sich seitdem mehrfach erhöht hat.
Physische Petabyte-Medien
Die ersten einzelnen Speichersysteme, die in der Lage waren, ein Petabyte zu halten, waren Bandspeicher. Die TS3500-Bibliothek von IBM, die Ende der 2000er Jahre eingeführt wurde, konnte auf mehrere Petabytes skalieren, indem sie Tausende von Bandkassetten verwendete. Die ersten einzelnen Festplatten, die die Terabyte-Marke erreichten, erschienen 2007 (Hitachi Deskstar 7K1000), was bedeutete, dass ein Petabyte-Array ungefähr 1.000 Laufwerke benötigte. Bis 2024 erreichten einzelne Festplatten 30 TB, wodurch ein Petabyte auf ungefähr 34 Laufwerke reduziert wurde. Solid-State-Laufwerke haben einen ähnlichen Verlauf genommen, wobei Unternehmens-SSDs bis 2023 eine Kapazität von 100 TB erreichten.
Aktuelle Verwendung
Cloud-Computing und Rechenzentren
Das Petabyte ist die standardmäßige Arbeitseinheit für Unternehmens-Cloud-Speicherung und Kapazitätsplanung von Rechenzentren. Große Cloud-Anbieter, darunter Amazon Web Services, Microsoft Azure und Google Cloud Platform, bieten Speicherebenen an, die in Petabytes gemessen werden. Organisationen speichern und verarbeiten routinemäßig Petabytes an Daten für Analysen, das Training von Maschinenlernmodellen und Archivierungszwecke. Ein einzelner großer Unternehmenskunde kann 10 bis 100 Petabytes in der Cloud-Speicherung halten.
Wissenschaftliche Forschung
In der wissenschaftlichen Forschung ist das Petabyte unerlässlich für Hochenergiephysik, Genomik, Astronomie und Klimawissenschaft. Das Square Kilometre Array (SKA) Radioteleskop, das derzeit im Bau ist, wird voraussichtlich täglich etwa 1 Exabyte Rohdaten erzeugen. Die Datenarchive des Human Genome Project überschreiten 40 Petabytes. Das Earth Observing System Data and Information System (EOSDIS) von NASA verwaltet über 60 Petabytes an Erdwissenschaftsdaten, die jährlich um mehrere Petabytes wachsen.
Medien und Unterhaltung
Netflix speichert seine gesamte Inhaltsbibliothek – einschließlich mehrerer kodierter Versionen in unterschiedlichen Auflösungen und Bitraten für adaptives Streaming – in etwa 100-200 Petabytes. YouTube erhält über 500 Stunden Video-Uploads pro Minute und generiert wöchentlich Petabytes neuer Inhalte. Große Filmstudios verwenden Petabyte-Speicher für die Erstellung visueller Effekte, wobei ein einzelner Spielfilm während der Produktion 1 bis 10 Petabytes an Zwischeninformationen benötigen kann.
Regierung und Geheimdienste
Regierungsbehörden gehören zu den größten Verbrauchern von Petabyte-Speicher. Das Datenzentrum der US National Security Agency in Bluffdale, Utah, hat Berichten zufolge eine Speicherkapazität im Exabyte-Bereich. Nationale Wetterdienste weltweit speichern Petabytes an Beobachtungsdaten und Modellausgaben. Volkszählungsbehörden, Steuerbehörden und Gesundheitssysteme verwalten alle Datensätze, die in Petabytes gemessen werden.
Everyday Use
Petabytes in Perspektive
Obwohl einzelne Verbraucher selten direkt mit dem Petabyte konfrontiert werden, bietet es einen nützlichen Referenzrahmen, um das Maß an digitaler Information zu verstehen. Ein Petabyte entspricht ungefähr 500 Milliarden Seiten standardmäßig gedrucktem Text oder etwa 13,3 Jahren kontinuierlichem HD-Video (bei 1080p, 5 Mbps). Es würde etwa 745 Millionen Disketten (jeweils 1,44 MB) benötigen, um ein Petabyte zu speichern. Wenn es auf Standard-A4-Papier ausgedruckt wird, würde ein Petabyte Text einen Stapel von etwa 64 Kilometern Höhe erzeugen.
Datenproduktion durch Verbraucher
Kollektiv erzeugen Verbraucher täglich Petabytes an Daten durch soziale Medien, Messaging, Fotografie und Video. Ein durchschnittlicher Smartphone-Nutzer erzeugt etwa 6 bis 7 GB Daten pro Monat. Multipliziert über Milliarden von Smartphone-Nutzern weltweit ergibt dies viele Exabytes pro Monat. Ein einzelnes Petabyte könnte die jährlichen Smartphone-Daten von etwa 150.000 Nutzern speichern.
Trends bei der Heimdatenspeicherung
Die Datenspeicherung durch Verbraucher ist dramatisch gewachsen, liegt jedoch weiterhin deutlich unter dem Petabyte-Niveau. Ein typischer Haushalt im Jahr 2024 könnte 2-10 TB Gesamtspeicher auf Computern, externen Laufwerken und NAS-Geräten haben. Um ein Petabyte an Heimspeicher zu erreichen, wären etwa 100 der größten verfügbaren Consumer-Festplatten erforderlich. Die Datenbedürfnisse von Haushalten wachsen jedoch schnell aufgrund von 4K- und 8K-Videos, Inhalten für virtuelle Realität und einer zunehmenden Anzahl von vernetzten Geräten.
In Science & Industry
Teilchenphysik
Die Teilchenphysik gehörte zu den ersten wissenschaftlichen Disziplinen, die Petabyte-große Datenverwaltung benötigten. Der Large Hadron Collider am CERN produziert etwa 1 PB Kollisiondaten pro Sekunde, obwohl ausgeklügelte Trigger-Systeme die aufgezeichneten Daten auf etwa 50 PB pro Jahr reduzieren. Die Daten werden über das Worldwide LHC Computing Grid an über 170 Rechenzentren in 42 Ländern verteilt. Die Analyse dieser Daten führte 2012 zur Entdeckung des Higgs-Bosons.
Genomik und Bioinformatik
Moderne Genomik erzeugt riesige Datenmengen. Die Sequenzierung eines einzelnen menschlichen Genoms produziert etwa 200 GB Rohdaten. Großangelegte Projekte wie die UK Biobank (500.000 Genome), das All of Us Research Program (über 1 Million Genome) und das 100.000 Genomes Project produzieren Daten, die in Petabytes gemessen werden. Das Sequence Read Archive (SRA) am National Center for Biotechnology Information hielt bis 2023 über 50 Petabytes an genomischen Daten.
Astronomie und Erdwissenschaft
Astronomische Umfragen erzeugen Petabytes an Bilddaten. Die Legacy Survey of Space and Time (LSST) des Vera C. Rubin Observatoriums wird pro Nacht 20 TB Daten erfassen und über ihre 10-jährige Umfrage etwa 60 PB ansammeln. Klimamodelle, die von Organisationen wie NOAA und dem Europäischen Zentrum für mittelfristige Wettervorhersagen (ECMWF) betrieben werden, produzieren Petabytes an Simulationsdaten für jede große Modellberechnung.
Künstliche Intelligenz
Das Training großer KI-Modelle erfordert Petabytes an Trainingsdaten. OpenAI's GPT-4 wurde auf einem Datensatz trainiert, der auf mehrere Petabytes an Text und Code geschätzt wird. Große Bildgenerierungsmodelle wie Stable Diffusion und DALL-E wurden auf Milliarden von Bildern trainiert, die mehrere Petabytes umfassen. Der Trend zu immer größeren Trainingsdatensätzen bedeutet, dass die KI-Forschung ein wichtiger Treiber der Nachfrage nach Petabyte-großem Speicher ist.
Interesting Facts
If you tried to download one petabyte over a typical home internet connection of 100 Mbps, it would take approximately 2.5 years of continuous downloading — with no interruptions, 24 hours a day.
The entire written works of humanity — every book, article, and document ever produced — are estimated at roughly 400 petabytes when digitized. The Library of Congress, with over 170 million items, comprises approximately 20 petabytes.
A single petabyte could store approximately 3.4 years of 24/7 ultra-high-definition 4K video recording, or about 250 million high-resolution digital photographs from a modern smartphone.
Google processes over 20 petabytes of data per day, including search queries, Gmail messages, YouTube videos, and Maps data. This is equivalent to processing the entire printed collection of the Library of Congress roughly once per day.
The human brain's theoretical storage capacity has been estimated at approximately 2.5 petabytes by researchers at the Salk Institute, based on the number of synaptic connections and their potential states.
In 2024, the cost of storing one petabyte on enterprise hard drives was approximately $15,000-$25,000 — a dramatic decrease from 2000, when the same storage would have cost over $100 million.
The Wayback Machine operated by the Internet Archive stores over 100 petabytes of web page snapshots, representing a significant fraction of the publicly accessible internet's history since 1996.