日韩不卡免费视频-日韩不卡视频在线-日韩不卡视频在线观看-日韩不卡一二三区-伊人二区-伊人丁香花久久爱综合

干貨 | 三種分布式爬蟲策略介紹



三種分布式爬蟲策略:
(1)Slaver端從Master端拿任務(wù)(Request/url/ID)進(jìn)行數(shù)據(jù)抓取,在抓取數(shù)據(jù)的同時(shí)也生成新任務(wù),并將任務(wù)分配給Master端。
Master端只有一個(gè)Redis數(shù)據(jù)庫,負(fù)責(zé)對Slaver提交的任務(wù)進(jìn)行去重、加入待爬隊(duì)列。

優(yōu)點(diǎn)
scrapy-redis默認(rèn)使用的就是這種策略,我們實(shí)現(xiàn)起來很簡單,因?yàn)槿蝿?wù)調(diào)度等工作scrapy-redis都已經(jīng)幫我們做好了,我們只需要繼承RedisSpider、指定redis_key即可。

缺點(diǎn)
scrapy-redis調(diào)度的任務(wù)是Request對象,里面信息量比較大(不僅包含URL,還有callback函數(shù)、headers等信息),會降低爬蟲速度,而且會占用Redis大量的存儲空間。當(dāng)然,我們可以重寫方法實(shí)現(xiàn)調(diào)度URL或者用戶ID。

(2)Master端跑一個(gè)程序去生成任務(wù)(Request/url/ID)。
Master端負(fù)責(zé)的是生產(chǎn)任務(wù),并把任務(wù)去重,加入到待爬隊(duì)列中。Slaver端只負(fù)責(zé)從Master端獲取任務(wù)進(jìn)行爬取。

優(yōu)點(diǎn)
將生成任務(wù)和抓取數(shù)據(jù)分開,分工明確,減少了Master和Slaver端之間的數(shù)據(jù)交流;Master端生成任務(wù)還有一個(gè)好處,那就是可以便捷地重寫判重策略(當(dāng)數(shù)據(jù)量大時(shí)優(yōu)化判重的性能和速度還是很重要的)。

缺點(diǎn)
像QQ或者新浪微博這種網(wǎng)站,發(fā)送一個(gè)請求,返回的內(nèi)容里面可能包含幾十個(gè)待爬的用戶ID,即幾十個(gè)新爬蟲任務(wù)。但有些網(wǎng)站一個(gè)請求只能得到一兩個(gè)新任務(wù),并且返回的內(nèi)容里也包含爬蟲要抓取的目標(biāo)信息,如果將生成任務(wù)和抓取任務(wù)分開反而會降低爬蟲抓取效率,畢竟帶寬也是爬蟲的一個(gè)瓶頸問題。我們要秉著發(fā)送盡量少的請求為原則,同時(shí)也是為了減輕網(wǎng)站服務(wù)器的壓力,要做一只有道德的Crawler。所以,視情況而定。

(3)Master中只有一個(gè)集合,它只有查詢的作用。Slaver在遇到新任務(wù)時(shí)詢問Master此任務(wù)是否已爬,如果未爬則加入Slaver自己的待爬隊(duì)列中,Master把此任務(wù)記為已爬。它和策略一比較像,但明顯比策略一簡單。策略一的簡單是因?yàn)橛蠸crapy-redis實(shí)現(xiàn)了scheduler中間件,它并不適用于非Scrapy框架的爬蟲。

優(yōu)點(diǎn)
實(shí)現(xiàn)簡單,非Scrapy框架的爬蟲也適用。Master端壓力比較小,Master與Slaver的數(shù)據(jù)交流也不大。

缺點(diǎn)
“健壯性”不夠,需要另外定時(shí)保存待爬隊(duì)列以實(shí)現(xiàn)“斷點(diǎn)續(xù)爬”功能。各Slaver的待爬任務(wù)不通用。

如果把Slaver比作工人,把Master比作工頭。
策略一就是工人遇到新任務(wù)都上報(bào)給工頭,需要干活的時(shí)候就去工頭那里領(lǐng)任務(wù);

策略二就是工頭去找新任務(wù),工人只管從工頭那里領(lǐng)任務(wù)干活;

策略三就是工人遇到新任務(wù)時(shí)詢問工頭此任務(wù)是否有人做了,沒有的話工人就將此任務(wù)加到自己的“行程表”。

北大青鳥網(wǎng)上報(bào)名
北大青鳥招生簡章
主站蜘蛛池模板: 欧美激情特级黄aa毛片 | 欧美高清一区二区三 | 色在线网站免费观看 | 99精品国产成人一区二区 | 成人做爰在线视频 | 久久久成人网 | 成人免费午夜性视频 | 国产美女主播一级成人毛片 | 白嫩美女一级毛片免费看 | 亚洲国产精品看片在线观看 | 亚洲一级毛片欧美一级说乱 | 免费va国产高清不卡大片 | 欧洲成人免费视频 | 久久久久久久久久久福利观看 | 日本三级香港三级网站 | 久久精品国产免费观看99 | 欧美一区二区三区在观看 | 国产一级久久久久久毛片 | 国产成人精品免费视频大全软件 | 午夜91理论片 | 日韩欧美中文字幕在线观看 | 免费视频久久久 | 国产免费人成在线看视频 | 欧美性色黄大片在线观看 | 99精品视频在线这里只有 | 国产视频一二三 | 日本一级毛片高清免费观看视频 | 亚洲一区二区三区四区在线观看 | 欧美久久久久久 | 日韩精品一区二区三区乱码 | 国产永久在线视频 | 久久er精品视频 | 国内精品久久久久影院老司 | 日韩欧美一区二区三区免费看 | 国产欧美在线观看 | 国产成人精品一区二区三在线观看 | 国产自在自线午夜精品视频 | 成人小视频在线播放 | 亚洲视频在线一区二区 | 国产精品无码久久av | 欧美一级毛片特黄黄 |