又大又紧18P少妇在线观看_免费视频网站在线看视频_成年香蕉大黄美女美女_午夜亚洲影院在线观看_亚洲精品福利一区二区在线观看_538视频这里只要精品_好男人观看免费TV_啦啦啦免费观看视频在线观看_99热国品_成人国产片女人爽到高潮_国产精品人妻一区二区三区A_在线亚洲小视频_亚洲AV久久无码精品九九九小说_特级A欧美做爰片黑寡妇_免费无码AV色情在线_免费无毒a网站在线观看_台湾佬中文娱乐图片_一卡二卡3卡四卡网站精品_免费观看黄频视_青青草成人费观看

153-66666-591
您的當(dāng)前位置:首頁(yè) > 新聞中心 > 連云港網(wǎng)站建設(shè)告訴你 什么是網(wǎng)絡(luò)蜘蛛?

連云港網(wǎng)站建設(shè)告訴你 什么是網(wǎng)絡(luò)蜘蛛?

時(shí)間:2018-1-24   來源:連云港上云網(wǎng)絡(luò)公司   打印本文


首先列出世界各大搜索引擎蜘蛛名字,方便大家查看網(wǎng)站日志時(shí)查找:


  google蜘蛛: googlebot 

  百度蜘蛛:baiduspider 

  yahoo蜘蛛:slurp

  alexa蜘蛛:ia_archiver

  bing蜘蛛:bingbot

  msn蜘蛛:msnbot 

  altavista蜘蛛:scooter 

  lycos蜘蛛: lycos_spider_(t-rex)

  alltheweb蜘蛛: fast-webcrawler/ 

  inktomi蜘蛛: slurp 

  有道蜘蛛:YodaoBot和OutfoxBot


在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對(duì)較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡(jiǎn)直如同大海撈針,這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。


現(xiàn)代意義上的搜索引擎的祖先,是1990年由蒙特利爾大學(xué)學(xué)生Alan Emtage發(fā)明的Archie。雖然當(dāng)時(shí)World Wide Web還未出現(xiàn),但網(wǎng)絡(luò)中文件傳輸還是相當(dāng)頻繁的,而且由于大量的文件散布在各個(gè)分散的FTP主機(jī)中,查詢起來非常不便,因此Alan Emtage想到了開發(fā)一個(gè)可以以文件名查找文件的系統(tǒng),于是便有了Archie。


網(wǎng)絡(luò)蜘蛛即Web Spider,是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁(yè)的鏈接地址來尋找網(wǎng)頁(yè),從網(wǎng)站某一個(gè)頁(yè)面(通常是首頁(yè))開始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來。


蜘蛛工作原理


對(duì)于搜索引擎來說,要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)幾乎是不可能的,從目前公布的數(shù)據(jù)來看,容量最大的搜索引擎也不過是抓取了整個(gè)網(wǎng)頁(yè)數(shù)量的百分之四十左右。這其中的原因一方面是抓取技術(shù)的瓶頸,100億網(wǎng)頁(yè)的容量是100×2000G字節(jié),即使能夠存儲(chǔ),下載也存在問題(按照一臺(tái)機(jī)器每秒下載20K計(jì)算,需要340臺(tái)機(jī)器不停的下載一年時(shí)間,才能把所有網(wǎng)頁(yè)下載完畢)。同時(shí),由于數(shù)據(jù)量太大,在提供搜索時(shí)也會(huì)有效率方面的影響。因此,許多搜索引擎的網(wǎng)絡(luò)蜘蛛只是抓取那些重要的網(wǎng)頁(yè),而在抓取的時(shí)候評(píng)價(jià)重要性主要的依據(jù)是某個(gè)網(wǎng)頁(yè)的鏈接深度。


搜索引擎抓取策略


在抓取網(wǎng)頁(yè)的時(shí)候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先(如下圖所示)。廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)先抓取起始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè),然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè),繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。這是最常用的方式,因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)從起始頁(yè)開始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁(yè),繼續(xù)跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)蜘蛛在設(shè)計(jì)的時(shí)候比較容易。兩種策略的區(qū)別,下圖的說明會(huì)更加明確。


由于不可能抓取所有的網(wǎng)頁(yè),有些網(wǎng)絡(luò)蜘蛛對(duì)一些不太重要的網(wǎng)站,設(shè)置了訪問的層數(shù)。例如,在上圖中,A為起始網(wǎng)頁(yè),屬于0層,B、C、D、E、F屬于第1層,G、H屬于第2層,I屬于第3層。如果網(wǎng)絡(luò)蜘蛛設(shè)置的訪問層數(shù)為2的話,網(wǎng)頁(yè)I是不會(huì)被訪問到的。這也讓有些網(wǎng)站上一部分網(wǎng)頁(yè)能夠在搜索引擎上搜索到,另外一部分不能被搜索到。對(duì)于網(wǎng)站設(shè)計(jì)者來說,扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計(jì)有助于搜索引擎抓取其更多的網(wǎng)頁(yè)。


網(wǎng)頁(yè)權(quán)限



網(wǎng)絡(luò)蜘蛛在訪問網(wǎng)站網(wǎng)頁(yè)的時(shí)候,經(jīng)常會(huì)遇到加密數(shù)據(jù)和網(wǎng)頁(yè)權(quán)限的問題,有些網(wǎng)頁(yè)是需要會(huì)員權(quán)限才能訪問。當(dāng)然,網(wǎng)站的所有者可以通過協(xié)議讓網(wǎng)絡(luò)蜘蛛不去抓取,但對(duì)于一些出售報(bào)告的網(wǎng)站,他們希望搜索引擎能搜索到他們的報(bào)告,但又不能完全免費(fèi)的讓搜索者查看,這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶名和密碼。網(wǎng)絡(luò)蜘蛛可以通過所給的權(quán)限對(duì)這些網(wǎng)頁(yè)進(jìn)行網(wǎng)頁(yè)抓取,從而提供搜索。而當(dāng)搜索者點(diǎn)擊查看該網(wǎng)頁(yè)的時(shí)候,同樣需要搜索者提供相應(yīng)的權(quán)限驗(yàn)證。


上一篇:連云港網(wǎng)站建設(shè)風(fēng)格和細(xì)節(jié)都有哪些?         下一篇:連云港網(wǎng)站公司seo優(yōu)化技巧總結(jié)
   

Copyright© 2008-2019  連云港上云網(wǎng)絡(luò)技術(shù)有限公司  版權(quán)所有   蘇ICP備14032401號(hào)

主站蜘蛛池模板: 东兴市| 商城县| 丰都县| 揭西县| 宜黄县| 正定县| 贵港市| 金山区| 刚察县| 兴安县| 商都县| 昆明市| 安吉县| 大理市| 衢州市| 石棉县| 平顺县| 贵港市| 新平| 望江县| 灵台县| 乌拉特后旗| 万荣县| 英山县| 罗平县| 连南| 龙井市| 凯里市| 旅游| 辉南县| 新建县| 宜昌市| 和政县| 承德县| 调兵山市| 婺源县| 当阳市| 武鸣县| 屯昌县| 富民县| 文山县|