關(guān)于代理商模板
超值服務(wù)提供卓越產(chǎn)品
數(shù)量的數(shù)據(jù)需要搜索引擎去索引,索引后還是海量的數(shù)據(jù),要能精準(zhǔn)搜索到自己需要的信息,需要遵循一定的技巧和方法。
搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等。百度和谷歌等是搜索引擎的代表。
海量規(guī)模;
分散無序;
動態(tài)更新,不穩(wěn)定;
種類或形式多種多樣;
非結(jié)構(gòu)化或半結(jié)構(gòu)化;
主義冗余、質(zhì)量缺乏控制;
需求和使用方式個性化;
早期的搜索引擎:早期以AltaVista、Excite為代表,用于自動采集網(wǎng)頁的“機(jī)器人”程序相對較弱,一般只對網(wǎng)頁的標(biāo)題、URL等信息進(jìn)行自動索引,對返回的檢索結(jié)果有時也不排序;
全文搜索引擎的普及:對網(wǎng)頁的全文進(jìn)行自動采集與索引,支持全文檢索;
4.1 按內(nèi)容或數(shù)據(jù)收錄的范圍分
4.1.1 綜合類搜索引擎:如google、百度;
4.1.2 專業(yè)類搜索引擎
也叫垂直搜索引擎,是針對特定的行業(yè)、領(lǐng)域、主題的專門搜索引擎。由于只面對一個方面,垂直搜索提供的結(jié)果更加專業(yè)、深入、具體和有序。如mp3搜索,結(jié)果全是歌曲,有歌詞,能方便地試聽。除mp3搜索外,常用的有圖片搜索、視頻搜索、新聞搜索。如果想找圖片、視頻、了解新聞,那么直接用相應(yīng)的垂直搜索無疑更高效。如,Business
4.2 按信息的組織方式或檢索方式分:
4.2.1 索引式搜索引擎:如google、百度;
4.2.2 目錄式搜索引擎:Yahoo Galaxy go.com goguides
4.2.3 元搜索引擎:萬緯 MetaCrawler Mamma Search Dogpile ixquick; fefoo limmz
4.2.4 終端元搜索引擎軟件:WebFerret 颶風(fēng)
4.2.5 集合式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時調(diào)用多個搜索引擎進(jìn)行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。
4.2.6 門戶搜索引擎:AOLSearch、MSNSearch等雖然提供搜索服務(wù),但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他搜索引擎。
5.1 布爾邏輯檢索:嚴(yán)格意義上的布爾檢索法是指利用布爾邏輯運(yùn)算符連接各個檢索詞,然后由計算機(jī)進(jìn)行相應(yīng)邏輯運(yùn)算,以找出所需信息的方法。它使用面最廣、使用頻率最高。布爾邏輯運(yùn)算符的作用是把檢索詞連接起來,構(gòu)成一個邏輯檢索式。
5.2 截詞檢索(truncation searching):用截斷的詞的一個局部進(jìn)行檢索,并認(rèn)為凡滿足這個詞局部中的所有字符的資料,都為命中的資料;截詞是指用符號代替變化的部分。如“system?"、"comput?"、"wom?n"、"?ology";
5.3 字段限定檢索(limit searching):限定在數(shù)據(jù)庫記錄中的一個或幾個字段范圍內(nèi)查找檢索詞;
5.4 詞位置檢索:指限定檢索詞之間的位置關(guān)系;(proximate searching)
5.5 聚類檢索:首先要把將全部資料按相似度進(jìn)行聚類歸檔,檢索時直接在類目內(nèi)匹配;
5.6 相關(guān)反饋與提問式擴(kuò)展技術(shù):指系統(tǒng)對檢索詞進(jìn)行適當(dāng)?shù)男拚笤龠M(jìn)行檢索;
5.7 可視化檢索技術(shù):對檢索詞構(gòu)造、檢索過程、檢索結(jié)果都可考慮可視化;
6.1 網(wǎng)頁快照:是搜索引擎對該鏈接有效時在其服務(wù)器做的一個備份;
6.2 高級搜索:可以讓我們不輸入搜索引擎的語法就能使用搜索引擎支持的很多功能,以縮小搜索范圍、提供更精確的搜索結(jié)果。
6.3 搜索結(jié)果頁:用戶在輸入關(guān)鍵詞,單擊搜索按鈕后,搜索引擎進(jìn)入的頁面,顯示出根據(jù)關(guān)鍵詞做出的搜索結(jié)果列表。每一項內(nèi)容一般包括統(tǒng)計行、網(wǎng)頁標(biāo)題、網(wǎng)頁摘要、網(wǎng)址、網(wǎng)頁快照等內(nèi)容;
6.4 搜索語法:利用語法可以進(jìn)行更復(fù)雜的條件搜索,可大大提高搜索的效率和精度;需要注意的是,所有搜索引擎可能有一些共同的語法規(guī)則,也有自己的規(guī)則,另外,隨著某一搜索引擎的發(fā)展與完善,自身的語法規(guī)則可能也會有不斷的更新和完善;
6.5 搜索引擎默認(rèn)搜索類別,“網(wǎng)頁”:其實是搜索綜合的內(nèi)容,包括文本、圖片、視頻、音頻等,網(wǎng)頁是網(wǎng)絡(luò)基本的單元,一切內(nèi)容都可納入其中;“網(wǎng)頁”搜索內(nèi)容全面、豐富、包羅萬象,但往往也需要更多的時間去篩選需要的內(nèi)容;與之相對應(yīng)的是垂直搜索(也叫分類搜索,對應(yīng)于搜索引擎上的其它選項卡),由于只面對一個方面,垂直搜索提供的結(jié)果更加專業(yè)、深入、具體和有序。
谷歌的神秘面紗包括:一、軟件 二、硬件 三、集群平等處理機(jī)制。
谷歌軟件的3個核心要素:谷歌文件系統(tǒng)、谷歌的分布式存儲系統(tǒng)和處理龐大數(shù)據(jù)的程序設(shè)計模式。
硬件卻是一般的服務(wù)器、處理器、硬盤和內(nèi)存等。
服務(wù)器的集群能在半秒之內(nèi)回應(yīng)700至1000臺服務(wù)器的處理搜索請求。
Google作為全球排名第一的搜索引擎,面向全球提供多語種的搜索服務(wù),由其服務(wù)器規(guī)模,可以想像全球的數(shù)據(jù)規(guī)模的大小。
7.1 谷歌每天需要存儲驚人的數(shù)據(jù)量,需要上述的硬件增加和軟件匹配;
7.2 谷歌在全球多個一線國家和地區(qū)都有數(shù)據(jù)中心,只是規(guī)模有所區(qū)別而已;
7.3 谷歌到底擁有多少臺服務(wù)器?谷歌一直以來是秘而不宣,估計總共應(yīng)該是千萬臺級別的服務(wù)器規(guī)模
7.4 需要足夠的電力,其產(chǎn)生的熱量也是驚人的,所以要需要先進(jìn)的冷卻技術(shù)。