網路爬蟲

网络爬虫（英語：web crawler），也叫網路蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。

網路搜索引擎等站点通过爬蟲軟體更新自身的網站內容（英语：Web content）或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面保存下來，以便搜索引擎事後生成索引（英语：Index (search engine)）供用戶搜索。

爬蟲访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时，爬虫需要考虑到规划、负载，还需要讲“礼貌”。不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求机器人（英语：Software agent）只对网站的一部分进行索引，或完全不作处理。

互联网上的页面极多，即使是最大的爬虫系统也无法做出完整的索引。因此在公元2000年之前的万维网出现初期，搜索引擎经常找不到多少相关结果。现在的搜索引擎在这方面已经进步很多，能够即刻给出高素质结果。

爬虫还可以验证超連結和HTML代码，用于网络抓取（参见数据驱动编程）。