深网 - Wikiwand

名詞

2009年，深網與暗網這兩個名詞開始發生混淆，當時深網與自由網和黑暗網路上發生的非法活動被一同討論^[3]。這些犯罪活動包括個人密碼、偽造身分證件、毒品、槍枝和兒童色情交易^[4]。

從那時起，在媒體報導黑市網站絲綢之路時，深網一詞經常被媒體與暗網或黑暗網路混為一談。然而，這種比較被一些人認為是不準確的，並因此導致了長期的混亂^[5]^[6]。Wired記者Kim Zetter和Andy Greenberg建議這兩個術語應該區分使用。深網是指無法利用傳統搜尋引擎存取的任何網站，而暗網則是被刻意隱藏並且無法利用一般瀏覽器和方法進入^[7]^[8]^[9]^[10]^[11]。

命名

伯格曼在The Journal of Electronic Publishing上發表一篇關於深網的重大論文中提到，吉爾.艾爾斯沃夫曾經使用「隱形網」這一術語表示那些沒有被任何搜尋引擎索引註冊的網站^[12]。伯格曼還參照法蘭克·加西亞在1996年1月的一篇文章^[13]：

這些網站可能已經被合理地設計出來了，但是他們卻沒有被任何搜尋引擎編列索引，以至於事實上沒有人能找到他們。我可以這樣對這些不可見的網站說，你們是隱藏了的。我稱之為隱形網。

早期另一個使用「隱形網」這一術語的是一家叫做「個人圖書館軟體」公司的布魯斯·芒特和馬修·B·科爾，當他們公司在1996年12月推出和發行的一款軟體時，他們對深網工具的有過這樣的一番描述。^[14]

現在普遍接受的深網這一特定術語首次使用在2001年伯格曼的研究中^[12]。2001年，電腦科學家麥可·伯格曼將當今全球資訊網上的搜尋服務比喻為像在地球的海洋表面的拉起一個大網的搜尋，巨量的表面資訊固然可以透過這種方式被尋找得到，可是還有相當大量的資訊由於隱藏在深處而被搜尋引擎錯失掉。絕大部分這些隱藏的資訊是須透過動態請求產生的網頁資訊，而標準的搜尋引擎卻無法對其進行尋找。傳統的搜尋引擎「看」不到，也取得不了這些存在於深網的內容，除非透過特定的搜查這些頁面才會動態產生。於是相對的，深網就隱藏了起來。據估計，深網要比表網大幾個數量級^[12]。

Remove ads

深網資源

防止網頁被傳統搜尋引擎索引的方法可以被分類為以下一個或多個：

被限制存取的內容：以技術方式限制訪問其網頁的網站，例如robots.txt、CAPTCHAs或是禁止搜尋引擎建立快取^[15]。
非HTML或文字的內容：圖像或影片等多媒體或是特定檔案格式無法被搜尋引擎處理。
私人網站：需要註冊或是登入的網站。
軟體：某些內容刻意隱藏在一般的網路上，只能使用特殊軟體如Tor、I2P或其他程式存取。例如Tor讓使用者匿名訪問.onion網址的網站，以隱藏他們的IP位址。
未被連結的內容：未被其他網站連結或很少連結的網頁，這可能防止被網路爬蟲存取。
網站檔案管理庫：網站時光機這類網站內容的網頁無法被搜尋引擎編入索引^[16]。

抓取深網內容

研究人員探尋了如何自動抓取深網內容。

2001年，斯利拉姆·拉格哈瓦（Sriram Raghavan）和赫克托·加西亞·莫利納（Hector Garcia-Molina）^[17]^[18]發明了一個從使用者請求介面表格收集關鍵詞的深網抓取模型並且抓取深網資源。加利福尼亞大學洛杉磯分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho建立了一個自動生成有意義的查詢詞的程式。^[19]

商業搜尋引擎已經開始使用以上兩種方法之一抓取深網。Sitemap協定（由Google於2005年首次開發並由Google引入）和mod oai是允許搜尋引擎和其他網路服務探索深網解決方法。以上兩種解決方法允許網路服務主動公布網址，這對於他們來說是容易的，因而允許自動探尋資源而不直接透過網路表面的連結。Google的深網探尋系統預先計算每個HTML表單並且添加結果HTML頁面到Google搜尋引擎索引。在這個系統裡，使用三種方法計算提交詞：

為輸入搜尋選擇關鍵詞允許的輸入值，
確定是否只接受特定的值（例如時間），以及
選擇少量的組合生成適合納入網站的搜尋索引網址。

2008年，為了方便Tor隱藏服務的使用者存取和搜尋隱藏的.onion網域，亞倫·斯沃茨設計了Tor2web—一個能夠利用普通瀏覽器存取的代理應用程式^[20]。

Remove ads

深網

名詞

命名

深網資源

抓取深網內容

參見

參考資源

Wikiwand - on