互联网档案馆(英語:Internet Archive)是美国的一個非營利性的、提供互联网多媒体资料档案阅览服务的數位圖書館。互联网档案馆由Alexa创始人布鲁斯特·卡利于1996年创办,总部位于加利福尼亚州旧金山的列治文区,其使命是“普及所有知识”(universal access to all knowledge)。该网站提供的数字资料有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。
互联网档案馆1997年1月26日的早期样式(2020年截圖) | |
| 公司类型 | 501(c)条款非營利组织 |
|---|---|
网站类型 | 數位圖書館 |
| 语言 | 英語 |
| 成立 | 1996年5月12日 |
| 總部 | 美國加利福尼亞州舊金山列治文区 37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W |
| 创始人 | 布魯斯特·卡利 |
| 服务 | 存档、開放圖書館、互聯網檔案館(2001年起)、网络标签、NASA图片、普林格档案 |
| 员工 | 200 |
| 网址 | archive http://archivebyd3rzt3ehjpm4c3bjky xv3hjleiytnvxcn7x32psn2kxcuid.onion (如何访问) |
| 推出时间 | 1996年 |
迄至2021年2月,该网站儲存了7280 億個網頁、3800萬本書和文本、1400 萬個錄音(包括 240,000 場現場音樂會)、700 萬個視頻(包括 200 萬個電視新聞節目)、400 萬張圖片、790,000 個軟件程序。除此之外,互联网檔案館也是網絡開放與自由化的倡議者之一。
歷史
1996年,卡利(Brewster Kahle)在創立盈利性的Alexa Internet的同時也創立了互联网檔案館;同年10月開始收集儲存資料。而档案馆亦曾于1996年5月10日下午2:42保存了已知最早的页面。不過,直到2001年開發了「時光機」前,這些資料都無法存取。1999年末擴展收集範圍。
2012年8月,互联网档案馆宣布將在其現存的130萬檔案的下載選項中加入BitTorrent。因為透過兩個檔案資料中心協調,這成為從該檔案館下載資料的最快方法。
2013年11月6日,檔案館在里奇蒙德區的總部失火,損壞了許多設備和一些附近的公寓,預計損失達到60萬美元。 2014年11月,互联网发布测试版,2016年3月,移除旧布局。
2016年11月,卡利宣布互联网档案馆正在建立加拿大分站,总部将设在加拿大,但具体地点没有公布。 媒体报道中,卡利表示 :
11月9日,在美国,我们突然意识到一个承诺进行彻底变革的新政府的出现。这强有力地提醒我们,像我们这样有长期计划的机构,也需要为适应变化而设计。对我们来说,这意味着我们要保持我们的文化材料的安全、私密和永远可访问。这意味着要为一个可能面临更大限制的网络做准备。这意味着在一个政府监视不会消失的世界里为用户服务;事实上,政府监视看起来还可能会再增加。纵观历史,图书馆一直在与严重的侵犯隐私的行为作斗争——人们仅仅因为他们阅读的内容便遭到逮捕。而互联网档案馆正在努力保护我们的读者在数字世界的隐私。
从2017年开始,联机计算机图书馆中心(OCLC)和互联网档案馆通过合作,使该档案馆的数字化图书记录可在WorldCat上访问。
2018年以来,互联网档案馆推出视觉艺术入驻项目,将艺术家与档案馆超过48pb的数字化材料联系起来。在为期一年的项目中,视觉艺术家创作了大量作品,顶峰时期还举行了展览。其期望是将数字历史与艺术联系起来并为后代创造一些能在线上或线下欣赏的东西。
2019年,互联网档案馆位于旧金山的总部收到炸弹威胁,迫使该大楼暂时被腾空。
2024年5月27日开始,互联网档案馆受到分布式拒绝服务攻击,攻击持续三天后仍未停止。
2024年9月中旬,谷歌在搜索结果中加入互联网档案馆的链接。
- 1996年至2009年时档案馆的总部,位于美国旧金山
- 2009年至今的总部,原旧金山基督教科学派第四教会
- 互联网档案馆在亚历山大图书馆的宣传标板
- 总部内的大厅
2024年9月30日,互联网档案馆被盜取約3100萬位用戶的Email、密碼、用戶名。2024年10月10日,互聯網檔案館受到DDoS攻擊。攻擊者疑似是親巴勒斯坦黑客。截至10月23日,archive.org、Wayback Machine、Archive-It和开放图书馆服务全部恢复,但登录等部分功能仍然不可用。
运作
互联网档案馆是一家在美国运营的501(c)(3)非营利组织,其年度預算約为1000萬美元,來源則是其網頁爬蟲服務、合作關係、贊助以及卡利-奧斯丁基金會。该档案馆的总部位于加利福尼亚州的旧金山。从1996年到2009年,其总部设在旧金山要塞,那里曾是美国的一个军事基地。自2009年以来,其总部一直设在旧金山芬斯顿大道300号,这里以前是一个基督教科学教堂。公司大部分员工曾一度在其图书扫描中心工作;截至2019年,全球有100家付费运营商进行了扫描。互联网档案馆的大房间收藏了100多个代表互联网档案馆员工的陶瓷人像,其中第100尊是亚伦·斯沃茨的雕像。该系列人像的灵感来自中国秦始皇兵马俑,由布鲁斯特·卡利委托,努拉·克里德雕刻。
互联网档案馆也在加州的三个城市设有资料中心,分别为旧金山、紅木城和列治文。为减少数据丢失的风险,该档案馆在包括埃及的新亚历山大图书馆和阿姆斯特丹等更遥远的地方储存了一些存档副本。
互联网档案馆的大部分材料来自捐赠,例如2017年波士顿公共图书馆提供的大量78转/分钟的光盘,2018年特倫特大學捐赠的25万本图书,以及马里格鲁夫学院图书馆在2020年关闭后的全部藏品。其后所有材料经过数字化后进行数字存储,而数字副本返回原始持有者以及在互联网档案进行复制,如果不是公共领域中的内容,可在遵循首次销售原则的受控数字借阅(CDL)理论的前提下,每次借给世界各地的一个顾客。
互联网档案馆参与了國際網際網路保留協會并于2007年被加利福尼亚州政府選為官方指定圖書館。
互联网档案馆宕機或資料庫出錯時,可於新亞歷山大圖書館鏡像網站查詢1996至2007年的備份資料。
网页
时光机
网站时光机是互联网档案馆最重要的服务之一,其名称取自一部名为The Rocky and Bullwinkle Show的美国卡通片。时光机允许人们去搜索和访问其网页存档。该档案馆的資料由自帶的網絡爬蟲自動搜集,截至2011年,已抓取了超過1500億的網頁。在一些国家和地区,时光机这个术语的使用已经非常普遍,“时光机”和“互联网档案馆”甚至开始被当做同义词使用。
大量网站及其相关数据(图像、源代码、文档等)都被保存在一个数据库中。该服务可以用来查看以前版本的网站过去的样子,从可能不再可直接访问的网站中获取原始源代码,甚至访问已经不存在的网站。因为许多网站所有者选择防止用户访问他们的网站,故并非所有网站都可使用该服务。如同所有以来自网络爬虫的数据为基础的网站一样,互联网档案馆由于各种其他原因确实网络的大片领域。2004年的一篇论文指出,互联网档案馆的信息覆盖范围存在国际偏好,但亦指出这“并非有意”。
一個名爲“Save Page Now”(即刻保存頁面)的功能於2013年10月推出,该功能可从网站时光机主页的右下角访问,輸入目标网站的URL并點擊保存,该网页就会成为时光机的一部分。 2016年10月,互联网档案馆宣布将改变网页的计数方式,使所显示的存档页面数量减少。嵌入对象如图片、视频、样式表、JavaScript将不再被视为“网页”,而HTML、PDF和纯文本文档则仍被视为网页。
2020年9月,互联网档案馆宣布与Cloudflare合作,自动索引通过其“Always Online”服务提供服务的网站。
Archive-It
Archive-it是一款帮助机构和个人建立存档的工具。Archive-It允许用户自定义输入或排除他们因为文化遗产的原因而保存的网络内容。通过一个web应用程序,Archive-It合作伙伴可以收集、编目、管理、浏览、搜索和查看自己的已存档内容。
在可访问性方面,存档的网站全文可在捕获后7天内搜索到。通过Archive-It收集的内容被捕获并存储为一个WARC文件,并有一个主副本和备份副本被存储在互联网档案馆的数据中心。WARC文件的副本可以提供给订阅合作伙伴机构,以最大地达到其地理冗余存储的目的通过Archive-It捕获的数据会被定期索引到互联网档案馆的一般档案中。
Archive-It的合作伙伴有大学和学院的图书馆、州档案馆、联邦机构、博物馆、法律图书馆和文化组织,包括电子文献组织、北卡罗莱纳州州档案馆和图书馆、斯坦福大学、哥伦比亚大学、开罗美国大学、乔治敦法律图书馆和许多其他大学。截至2014年3月[update]Archive-it在美国的46个州和其他16个国家共有超过275个机构是其合作伙伴,共有超过74亿个网页的在线存档。
互联网档案馆学术
2020年9月,互联网档案馆宣布了一项新的计划,即存档和保存可开放获取的学术期刊,并称之为互联网档案馆学术。其全文搜索索引包括超过2500万篇研究性文章和保存在互联网档案馆中的其他学术文件。收藏范围包括从18世纪期刊的数字化副本到最新的可开放获取会议论文和从万维网上爬行抓取的预印本。
总索引
2021年,互联网档案馆发布了《总索引》(General Index)的最初版本,包含1.07亿篇学术期刊文章。
圖書
收集文本
互联网档案馆收集了世界各地的数字化图书以及各大图书馆和文化遗产机构的特殊藏品。互联网档案馆在5个国家经营着33个圖書掃描中心,其活动受图书馆和基金会的财政支持。截至2013年7月[update],档案馆共收集了440万本书,每月的下载量超过1500万次。截至2008年11月[update],档案馆共有100万个网络文本,总大小高达0.5PB,涵盖了原始照相图像、裁剪和歪斜的图像、PDF文件和原始OCR数据。
大约在2006年到2008年之间,微软通过其实时搜索图书项目与互联网档案文本建立特殊的关系,扫描了超过30万本捐赠的图书,微软并提供财政支持和扫描设备。2008年5月23日,微软宣布将结束在线图书搜索项目,不再扫描图书。微软在不受合同限制的情况下公开了扫描书籍,并将其扫描设备捐赠给了其前合作伙伴。
2007年10月,档案馆用户开始上传来自Google圖書的公有领域的书籍。截至2013年11月,该档案馆收藏的图书有90多万本来自Google的数字化图书;这些图书除没有Google的水印,并且可以不受限制地使用和下载外,与Google上的图书完全相同。布鲁斯特·卡利在2013年透露,这项工作由亚伦·斯沃茨协调完成,斯沃茨和“一些朋友”在遵守Google的限制条件的情况下从Google下载公共领域的书籍。这样做是为了确保公众能够进入公共领域。档案馆亦确保这些内容被归属并链接到Google,谷歌也没有提出异议,而图书馆则发出了“抱怨”。根据卡利的说法,这个例子证明了斯沃茨的“天才”,他致力于为数百万人提供最大的公共利益。除图书外,档案馆还提供免费和匿名的公众访问渠道使公众可以访问超过400万份法庭意见、法律摘要或美国联邦司法机构上传的展品。这些文件一直保存在联邦法院的收费墙后。到2013年,已有超过600万人通过互联网档案馆访问这些文件。
互联网档案馆中的图书阅读器网络应用程序内置于其网站中,具有单页、双页和缩略图模式;全屏模式;保持图像高分辨率的页面快速移动和翻页动画等功能。
+ 各语言文本数| 1 | 年代 | 1800年代 | 1810年代 | 1820年代 | 1830年代 | 1840年代 | 1850年代 |
|---|---|---|---|---|---|---|---|
| 文本数 (2015年11月27日) | 39,842 | 51,151 | 79,476 | 105,021 | 127,649 | 180,950 | |
| 2 | 年代 | 1860年代 | 1870年代 | 1880年代 | 1890年代 | 1900年代 | 1910年代 |
| 文本数 (2015年11月27日) | 210,574 | 214,505 | 285,984 | 370,726 | 504,000 | 455,539 | |
| 3 | 年代 | 1920年代 | 1930年代 | 1940年代 | 1950年代 | 1960年代 | 1970年代 |
| 文本数 (2015年11月27日) | 185,876 | 70,190 | 85,062 | 81,192 | 125,977 | 206,870 | |
| 4 | 年代 | 1980年代 | 1990年代 | 2000年代 | 2010年代 | ||
| 文本数 (2015年11月27日) | 181,129 | 272,848 | 579,905 | 855,253 |
Open Library
开放图书馆是互联网档案馆的另一个项目。该项目旨在为出版的每一本书提供一个网页,拥有2500万册版本目录记录。该项目还致力于成为一个可在线访问的公共图书馆,从500多万份所收集文本中全文收录大约160万本公共领域以及印刷中和拥有版权的书籍,其中许多可任意阅读与下载以及全文检索;该项目与来自6个国家的1000多家图书馆建立了合作关系,为非公共领域的647,784本图书提供为期两周的电子书借阅服务 惟需先在网站上免费注册。开放图书馆是一个自由及开放源代码软件,其源代码可以在GitHub上免费获得。
开放图书馆也面临一些作者和作家协会的反对,他们认为该项目是在未经授权地分发图书,因此违反了版权法,2020年6月,四家主要出版商对互联网档案馆提起版权侵权诉讼,旨在停止开放图书馆项目。
图书数字化赞助商
许多大型机构赞助商已经为互联网档案馆提供了数百万份扫描出版物(文本项目)。一些已经将大量文本数字化的赞助商,包括多伦多大学的罗柏斯图书馆、阿爾伯塔大學图书馆、渥太华大学图书馆、国会图书馆、波士顿图书馆联盟成员图书馆、波士顿公共图书馆、普林斯顿神学院图书馆和许多其他图书馆。
2017年,麻省理工学院出版社授权互联网档案将图书数字化,并可从该出版社的存书目录中借用图书,由阿卡迪亚基金提供财政支持。次年,互联网档案馆进一步从阿卡迪亚基金获得资金,邀请其他一些大学出版社与互联网档案馆合作,将图书数字化,并将该项目命名为“解锁大学出版社图书(Unlocking University Press Books)”。
国会图书馆创建了许多处理系统标识符,指向互联网档案中的免费数字化书籍。互联网档案馆和开放图书馆也被国会图书馆网站列为电子书来源。
多媒體
除了上述内容之外,互联网档案库还收集了大量的数字媒体,这些数字媒体均符合美国公共领域或CC授权协议。这些媒体文件均会根据媒体类型(moving images、audio、text、etc.)被组织成集合,并根据各项标准被分入子集合。例如大都會藝術博物館提供的相关资料就会被分入一个子集,目前该集合相关资料的数量已经超过了140,000个。每个主集合都含有一个“社区”子集合(以前被称为“开源”)用于存储公众的贡献。
音频收藏
音频档案包括音乐、有声读物、新闻广播、旧时广播的节目和各种其他音频文件。该系列中有超过200,000个免费数字录音。子集包括有声读物和诗歌、播客、非英语音频等。
Live Music Archive子集包括来自独立音乐家的超过170,000个音乐会录音,以及更为成熟的艺术家和音乐合奏,以及关于录制他们的音乐会的宽松规则,例如感恩至死,以及最近的碎南瓜。此外,Jordan Zevon还允许互联网档案馆收藏他父亲華倫·澤馮的音乐会录音。泽冯系列从1976年至2001年不等,包含126场音乐会,包括1,137首歌曲。
布鲁克林博物馆
此系列包含大约3,000件布鲁克林博物馆的物品。
其他服务与目标
物理媒体
卡利对书籍被扔掉的现象表现出强烈反应,以及受斯瓦尔巴全球种子库的启发,正在设想每出版的一本书便收集一本。除了这些书,卡利还计划存储互联网档案馆的在2010年被替换的旧服务器。
软件
互联网档案拥有“世界上最大的在线历史软件集合”,跨越50年计算机历史,包含数以万亿计字节的计算机杂志和期刊、书籍、共享软件光盘、FTP网站、视频游戏等。互联网档案馆创建了一个它档案库以保存它们。该项目主张获得美国数字千年版权法的豁免权,以允许他们绕过美國著作權局于2003年批准的为期三年的复制保护。 档案馆不提供软件以供下载,因为豁免仅仅是为了保存或复制图书馆或档案馆出版的数字作品。国会图书馆于2006年延长豁免,又于2009年无限期延长,等待进一步的规则制定。 图书馆重申,豁免是“最终规则”,而2010年豁免尚未到期。
2013年,互联网档案馆开始提供可以MESS方式游玩的老软件视频游戏,例如雅达利2600的游戏E.T.外星人。 自2014年12月23日起,互联网档案馆通过基于浏览器的DOSBox模拟,推出数千款DOS/PC游戏且仅用于学术和研究目的。截止2015年年初,互联网档案馆共收录了2400款MS-DOS游戏。
2020年11月,档案馆为Adobe Flash導入了一种新的模拟器Ruffle,并开始致力于在2020年12月31日Flash插件的寿命结束前存档Flash动画和游戏。
台式抄写系统
互联网开发了一种实现内容数字化的组合软硬件系统,称为台式抄写系统(Table Top Scribe System)。
储蓄互助社
从2012年到2015年11月,互联网档案馆运营着一个储蓄互助社,总部设在新泽西州新不伦瑞克,目标是为中低收入人群提供访问服务。在其短暂的存在时期内,互助社与国家信贷管理局经历了一系列重大冲突,严重限制了互助社的贷款资产组合和为其对比特币公司提供服务带来担忧。互助社解散时,有395名成员,市值250万美元。
艺术家入驻活动
由Amir Saber Esfahani组织的互联网档案馆视觉艺术家入驻活动旨在将新兴和在职艺术家与档案馆的数百万藏品联系起来,并展示当开放信息获取与艺术发生交叉时可能发生的事情。在为期一年的入驻活动期间,选定的艺术家创作了一批作品,以响应档案馆的藏品并在自己的实践中加以利用。
去中心化
2019年开始,互联网档案馆组织了一个名为去中心化网络营地(Decentralized Web Camp)的组织。该组织一年组织一次活动,在自然环境中汇集全球各地不同的贡献者社区,旨在解决网络世界面临的现实世界挑战,并为发展中的互联网共同创造一个去中心化技术,促进合作、学习和乐趣,同时促进形成信任、人为代理、相互尊重和生态认识的准则。
争议
下架感恩至死樂隊音乐會表演
2005年11月,「感恩至死」樂隊音乐会在互联网档案馆可免费下载。纽约时报报道,约翰·佩里·巴洛认为鲍勃·威尔、米奇·哈特和比尔·克鲁兹曼是这一变化的发起者。菲爾·萊什在其个人网站上对此事发表评论称注意到所有「感恩至死」樂隊的表演都在感恩节前从archive.org删除,他没有参与这个决策过程,也没有被告知这些节目将被取消。而他本人觉得音乐是「感恩至死」樂隊的遗产,希望以各种方式将其音乐提供给想要的人。
布鲁斯特·卡利在11月30日的一篇论坛帖中概括了乐队成员之间可能达成的妥协。观众的录音可以被下载或流动传播,但调音台版本则只能流动传播,而音乐会后来又被重新同意下载。
拒绝国家安全信函的要求
维基百科, wiki, wikipedia, 百科全书, 书籍, 图书馆, 文章, 阅读, 免费下载, 关于 互联网档案馆 的信息, 什么是 互联网档案馆?互联网档案馆 是什么意思?