archive.today
网页存档网站 来自维基百科,自由的百科全书
archive.today,又称archive.is或archive.ph,是一个私人资助的网页存档网站,[3][4]数据中心位于欧洲法国的北部-加来海峡。[5]这个网站典藏档案馆使用Apache Hadoop与Apache Accumulo软件。它可以一次取回一个类似于WebCite的小于50MB的页面,并能收录Google地图与Twitter。
archive.is会根据著作权所有者的合乎数字千年著作权法案(DMCA)的撤除请求移除已归档的页面。[6]
它每次请求都会捕捉网页的文字内容,加载不含活动元素或脚本的Web 2.0网站或由JavaScript产生的图片与框架内容。截图是1024×768像素,没有弹出窗口。[7][8]
截至2015年,archive.is还支持了Memento项目的API,[9][10]并且开发了Firefox浏览器[11]与Chrome浏览器[12]的扩展。
屏蔽
在2015年7月21日,网站管理人员屏蔽了芬兰的IP地址,他们在其Twitter上声称,这么做是为了避免与芬兰政府的纠纷升级。他们拒绝提供额外的信息。[13]此网站也被中国[14]与哈萨克斯坦屏蔽。此站同样被OpenDNS屏蔽。[15]
易名
archive.is曾多次更换域名。
从建站初期至2014年4月14日是使用“Archive.is”(首字母为大写)。
在2014年4月15日时,该网站的名称已更名为“archive.today”(首字母为小写)。[16][17]
在2015年春季又改回了“archive.is”(首字母为小写)。[18][19]
2021年夏季,此网站采用“archive.today”为标题,主域名替换为“archive.ph”。
使用案例
这个档案馆会被一些作者或黑客活动分子使用。
评论
有别于比如互联网档案馆时光机(Internet Archive Wayback Machine)的主动性网络蜘蛛,archive.is每次只捕捉网站的一个页面,所以不遵守“Robots排除标准”。 [24]
从法律上讲,archive.today与互联网档案馆时光机有很大不同。互联网档案馆的时光机抓取网页时遵循通常的Robots指令,这种指令可以阻止其抓取特定的网页。然而,网站无法阻止archive.today的用户对其制作站点镜像。
——Jason Koebler,Dear GamerGate: Please Stop Stealing Our Shit
参见
参考文献
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.