Scrapy
来自维基百科,自由的百科全书
Scrapy(/ˈskreɪpi/ SKRAY-pee[2]是一個用Python編寫的自由且開源的網絡爬蟲框架。它在設計上的初衷是用於爬取網絡數據,但也可用作使用API來提取數據,或作為生成目的的網絡爬蟲[3]。該框架目前由網絡抓取的開發與服務公司Scrapinghub公司維護。
Scrapy項目圍繞「蜘蛛」(spiders)建構,蜘蛛是提供一套指令的自包含的爬網程序(crawlers)。遵循其他如Django框架的一次且僅一次精神[4],允許開發者重用代碼將便於構建和拓展大型的爬網項目。Scrapy也提供一個爬網shell,開發者可用它測試對網站的效果。[5]
使用Scrapy的知名公司和產品有:Lyst[6][7]、Parse.ly[8]、Sayone Technologies[9]、Sciences Po Medialab[10]、Data.gov.uk的世界政府數據網站[11]等。
歷史
Scrapy誕生於網絡聚合和電子商務公司Mydeco,它由Mydeco和Insophia公司的員工開發和維護。2008年8月首次以BSD許可證公開發布,2015年6月發布有里程碑意義的1.0版本[12]。2011年,Scrapinghub成為新的官方維護者[13][14]。
參考文獻
外部連結
參見
Wikiwand - on
Seamless Wikipedia browsing. On steroids.