Popular Posts

Internet Archive が 1 兆の Web サイトを記録

Internet Archive が 1 兆の Web サイトを記録


サイバースペースの最も重要な図書館プロジェクトの 1 つである Internet Archive は、想像もできない偉業を達成しました。 30 年近くにわたる努力の末、この非営利団体は 兆分の1 ウェブページ。この瞬間は、デジタル保存の取り組みの歴史において大きな瞬間であり、特にインターネットが日常生活に不可欠であり、信頼性がますます低くなり、ナビゲートが困難になっている現在においては重要です。

インターネットには多くのことが期待されていますが、持続可能性は決してその中にはありませんでした。デジタル コンテンツは本質的に一時的なものであり、通常、誰かがその存在を維持しようとする限り存続します。好例: 2019 年、MySpace (かつてはインターネットで最も人気のある初期のソーシャル メディア Web サイトの 1 つ) は、予期しないサーバー移行エラーにより誤ってデータが消去されたと発表しました。 全て 2003 年から 2015 年にかけて、ユーザーはソーシャル メディアや音楽メディアの Web サイトにアップロードしました。一夜にして、1,400 万人のアーティストによる推定 5,000 万曲がサイバースペースに消えました。

これらは、インターネット アーカイブが避けようとしている瞬間です。この組織は 1996 年以来、主に Web クローラーを使用して、公的にアクセス可能な Web サイトをできる限り多く保存することで、「インターネットの進化の永久的な記録」を作成しようと努めてきました。ボランティアは、印刷版リリース、入手困難な音楽やオーディオ、その他のメディア形式を含む独自のアップロードも提供します。ほぼ 30 年後、Internet Archive には 8,660 億を超える Web ページ、4,100 万のテキスト、その他数百万種類のデジタル コンテンツが保存されています。全体として、毎日約 5 億の新しい Web サイトが追加され、その情報量は推定合計 100,000 テラバイトに達します。これは、現在市場にある最高レベルの iPhone 50,000 台と同じストレージです。

Internet Archive はアーキビスト、ジャーナリスト、学術研究者、そして好奇心旺盛な訪問者にとって依然として不可欠な存在ですが、急速に変化する World Wide Web からのプレッシャーの増大に直面しています。大規模な言語モデル AI システムのトレーニングを競うハイテク企業は、多くの場合非常に不透明な法的状況の下で、新しいデータセットを利用するためのオンライン環境を模索しています。その結果、多くの大手メディア企業が関与することになる。 ニューヨークタイムズガーディアンそして USA TODAY/ガネット 生成 AI から新しいコンテンツを保護するために、新しいコンテンツをアーカイブから遠ざけます。

これらの企業とそのライターの仕事に対して公平に補償するためのしっかりした枠組みが整っていないことを考えると、これは当然のことですが、おそらく人類史上最も脆弱な情報エコシステムを維持することも困難になります。願わくば、アーカイブが 2 兆回の保存を超えるまで存続することにすべての関係者が同意することを願っています。

Internet Archive が 1 兆の Web サイトを記録

2025 PopScience 新着情報ベスト

アンドリュー・ポールはポピュラー・サイエンスのスタッフ・ライターです。


Leave a Reply

Your email address will not be published. Required fields are marked *