Matrix 是少數(shù)派的寫作社區(qū),我們主張分享真實(shí)的產(chǎn)品體驗(yàn),有實(shí)用價(jià)值的經(jīng)驗(yàn)與思考。我們會(huì)不定期挑選 Matrix 的優(yōu)質(zhì)文章,展示來(lái)自用戶的最真實(shí)的體驗(yàn)和觀點(diǎn)。 文章代表作者個(gè)人觀點(diǎn),少數(shù)派僅對(duì)標(biāo)題和排版略作修改。
要說(shuō)在中國(guó)知名度最高的網(wǎng)站,百度應(yīng)該是當(dāng)之無(wú)愧的第一名;要說(shuō)我們?nèi)粘J褂米铑l繁的網(wǎng)站,盡管每個(gè)人的使用習(xí)慣與工作需求不同,各大主流搜索引擎依舊名列前茅。
但是,你真的了解這些功能強(qiáng)大、在你的工作學(xué)習(xí)中不可或缺的互聯(lián)網(wǎng)「伴侶」嗎?你又真的會(huì)使用它們嗎?希望通過(guò)這篇小文章,帶領(lǐng)屏幕前的你們對(duì)目前主流搜索引擎的基本原理形成基本認(rèn)知,并在此承諾不會(huì)涉及過(guò)多專業(yè)知識(shí)(畢竟我也不太懂……),更重要的是,希望用我的一點(diǎn)點(diǎn)經(jīng)驗(yàn)和認(rèn)知,幫助大家學(xué)會(huì)更好使用搜索引擎進(jìn)行各種內(nèi)容的搜索。
▍搜索引擎的基本原理
(注意:這里所說(shuō)搜索引擎是指狹義上的搜索工具,例如谷歌、百度、微軟必應(yīng)等,并非廣義搜索引擎,如專門搜索特定類型文件的搜索引擎,或是各大應(yīng)用內(nèi)部檢索內(nèi)容帖子的搜索功能,僅對(duì)狹義搜索引擎的基本原理進(jìn)行敘述。)
先看定義,搜索引擎是指根據(jù)一定的策略,運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,并對(duì)所搜集到的信息進(jìn)行組織和處理,為用戶提供檢索服務(wù)的系統(tǒng)。從定義上來(lái)看,搜索引擎的功能實(shí)現(xiàn)主要經(jīng)歷以下三個(gè)步驟:
1. 從互聯(lián)網(wǎng)上獲取信息。搜索引擎主要通過(guò)特定計(jì)算機(jī)程序——蜘蛛系統(tǒng)程序(也就是人們通常所說(shuō)的爬蟲)在互聯(lián)網(wǎng)聯(lián)通的各大服務(wù)器中爬取網(wǎng)頁(yè),并沿著各種網(wǎng)頁(yè)中的所有 URL 爬到其他網(wǎng)頁(yè),不斷延伸爬取的「觸角」,并把所有爬到的網(wǎng)頁(yè)收集回來(lái)。
2. 對(duì)所搜集到的信息進(jìn)行組織處理并建立索引數(shù)據(jù)庫(kù)。由特定分析程序?qū)λ鸭降木W(wǎng)頁(yè)進(jìn)行分析,提取網(wǎng)頁(yè)上的相關(guān)信息(包括 URL、網(wǎng)頁(yè)內(nèi)容及其關(guān)鍵詞、與其他網(wǎng)頁(yè)的關(guān)系等),并根據(jù)一定的相關(guān)度算法進(jìn)行計(jì)算,得到網(wǎng)頁(yè)與特定關(guān)鍵詞的相關(guān)度,并依據(jù)相關(guān)度進(jìn)行排序后建立索引數(shù)據(jù)庫(kù)。這里的相關(guān)度和排序便是你在某個(gè)搜索引擎搜索內(nèi)容時(shí)呈現(xiàn)出的答案排列依據(jù),不同搜索引擎依據(jù)不同的指標(biāo)得出的內(nèi)容順序也不相同,例如某度前些年被曝出的廣告商可出錢購(gòu)買特定排序,廣受網(wǎng)友抨擊。因此,所呈現(xiàn)搜索內(nèi)容的排序也是判斷一個(gè)搜索引擎是否能提升我們搜索效率的重要指標(biāo)之一。
值得一提的是,現(xiàn)在的搜索引擎大多支持「超鏈分析」技術(shù),即不只是分析網(wǎng)頁(yè)本身內(nèi)容,還會(huì)分析索引數(shù)據(jù)庫(kù)中所有指向該網(wǎng)頁(yè)鏈接的 URL、標(biāo)題、正文內(nèi)容,甚至鏈接周圍的相關(guān)文字等。這也就是為什么有時(shí)會(huì)出現(xiàn),即使網(wǎng)頁(yè) A 中并沒(méi)有出現(xiàn)某個(gè)詞,但網(wǎng)頁(yè) B 有鏈接指向網(wǎng)頁(yè) A,且網(wǎng)頁(yè) B 中某一部分出現(xiàn)了該關(guān)鍵詞,那么網(wǎng)頁(yè) A 也會(huì)在用戶的搜索中被搜索引擎認(rèn)為具有一定相關(guān)度,從而呈現(xiàn)在搜索結(jié)果中。「超鏈分析」技術(shù)將用戶搜索所得結(jié)果的覆蓋范圍與廣度提升上了新的臺(tái)階。
3. 為用戶提供檢索服務(wù)。用戶在搜索框輸入關(guān)鍵詞進(jìn)行搜索后,搜索引擎依據(jù)數(shù)據(jù)庫(kù)中的索引將搜索結(jié)果的網(wǎng)頁(yè)鏈接和頁(yè)面內(nèi)容摘要組織起來(lái)呈現(xiàn)在用戶面前,用戶便可以依據(jù)摘要內(nèi)容點(diǎn)擊對(duì)應(yīng)鏈接,進(jìn)入相關(guān)網(wǎng)頁(yè)進(jìn)一步尋找自己想要的信息。
▍搜索引擎的分類
01 全文搜索引擎
我們?nèi)粘J褂米疃嗟模闶侨乃阉饕妫绻雀琛⑽④洷貞?yīng)、百度等。這些搜索引擎從互聯(lián)網(wǎng)上提取各個(gè)網(wǎng)站的信息,并建立自己的數(shù)據(jù)庫(kù),當(dāng)用戶輸入關(guān)鍵詞后檢索相匹配的信息,然后以一定的排列順序組織內(nèi)容將結(jié)果呈現(xiàn)于用戶電腦屏幕之上。

微軟必應(yīng)搜索引擎
02 目錄索引類搜索引擎
最具代表性的目錄索引類搜索引擎就是大名鼎鼎的 Yahoo!了,這一類搜索引擎與常規(guī)意義上我們使用的搜索引擎不同,它們并不是以上文講述的工作流程運(yùn)作,而僅僅是提供一系列按目錄分類的網(wǎng)站鏈接給用戶。用戶也可以不輸入任何關(guān)鍵詞進(jìn)行查詢,僅通過(guò)在特定目錄下瀏覽網(wǎng)站鏈接列表以及人為提供的摘要信息選擇自己想要的網(wǎng)站進(jìn)行深入查詢。通常而言,目錄索引類搜索引擎依托人工建立,并由人工對(duì)收錄網(wǎng)站進(jìn)行分類,也就導(dǎo)致其搜索范圍較小,更新速度也相對(duì)更慢。

Yahoo!
03 元搜索引擎
元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)搜索引擎上進(jìn)行搜索,并將結(jié)果以特定排列順序返回給用戶,其搜索結(jié)果通常較為綜合全面,但也導(dǎo)致內(nèi)容繁雜,搜索命中率也相對(duì)較低。著名的元搜索引擎包括 InfoSpace、Dogpile 等,不同元搜索引擎所采用的對(duì)搜索結(jié)果的排列依據(jù)也各有特色。
除以上三類搜索引擎外,還有以下幾種搜索引擎類型:集合式搜索引擎、門戶搜索引擎、免費(fèi)鏈接目錄等,篇幅有限就不在此贅述了,感興趣的朋友可以自行深入了解。
▍提升搜索效率的小技巧
01 選擇合適的搜索引擎
不同的搜索引擎對(duì)同一關(guān)鍵詞得到的搜索結(jié)果大為不同,也就造成了使用不同搜索引擎時(shí)帶來(lái)的搜索效率的高低之分。一般而言,對(duì)于不同搜索引擎,目前廣受認(rèn)可的搜索效率與準(zhǔn)確性排序?yàn)椋汗雀?> 微軟必應(yīng) > 百度 > 其他一眾搜索引擎。
當(dāng)然,正如「白菜蘿卜各有所愛(ài)」,對(duì)于搜索引擎的排序也沒(méi)有絕對(duì)的標(biāo)準(zhǔn)答案,不同用戶可依據(jù)各自的使用習(xí)慣和內(nèi)容偏好選擇適合自己的搜索引擎,所謂的搜索引擎「鄙視鏈」也不過(guò)是一句玩笑話。
只是,本著希望幫助到大家的初衷,我還是想依據(jù)個(gè)人體驗(yàn)向大家提一些小小的建議:能用谷歌就用谷歌,用不了谷歌微軟必應(yīng)也是一個(gè)不錯(cuò)的選擇,下面的內(nèi)容里我也將以微軟必應(yīng)為使用主體介紹一些搜索技巧。
注意:以下搜索技巧在谷歌、微軟必應(yīng)、百度等主流搜索引擎中均可使用。
02 關(guān)鍵詞 + 特定符號(hào)
其實(shí)我們大多數(shù)人都在或多或少使用一些搜索技巧,其中是所有最為廣泛的便是「關(guān)鍵詞搜索」,即用關(guān)鍵詞替代一整句話進(jìn)行搜索,以獲得我們想要的信息。比如,你想查北京今天的天氣情況,只要搜索「北京 天氣」就行,而不用搜索「北京今天天氣怎么樣」。
而特定符號(hào),則可以讓搜索引擎「讀懂」我們的話,常用的符號(hào)有下面這些:
「+」:查找包含前面帶「+」號(hào)的所有關(guān)鍵詞的網(wǎng)頁(yè)。例如,想要搜索少數(shù)派中關(guān)于 RSS 內(nèi)容,則可以使用「少數(shù)派 +RSS」,搜索結(jié)果會(huì)返回所有包含 RSS 關(guān)鍵詞并與少數(shù)派相關(guān)的網(wǎng)頁(yè)。注意:「+」號(hào)后面最好緊接著關(guān)鍵詞,中間盡量不出現(xiàn)空格。

「""」:在短語(yǔ)中查找完全匹配的字詞。如果你在搜索框中輸入這樣一段話:「微軟必應(yīng)中有哪些高級(jí)搜索技巧」,搜索引擎會(huì)將這段話自動(dòng)拆分為若干個(gè)關(guān)鍵詞進(jìn)行匹配。但是,如果我就是想要完全匹配輸入的內(nèi)容該如何是好呢?答案是使用「""」將想搜索的內(nèi)容框起來(lái),即「" 你吃飯了嗎 "」。
此外,我在進(jìn)行試驗(yàn)的時(shí)候發(fā)現(xiàn),如果是用中文的「""」,微軟必應(yīng)依舊將輸入內(nèi)容切分為關(guān)鍵詞進(jìn)行搜索,但如果使用英文中的「""」, 微軟必應(yīng)才會(huì)將輸入內(nèi)容視為一個(gè)不可分割的整體進(jìn)行搜索,然后告訴我沒(méi)有我想要的內(nèi)容……

「AND 或 &」:查找包含所有關(guān)鍵詞的網(wǎng)頁(yè)。其實(shí)我們?nèi)粘K阉鲿r(shí)在不同關(guān)鍵詞中間敲的「空格」鍵就發(fā)揮著上述作用。也就是說(shuō),當(dāng)你用「空格」或「AND」或「&」連接一系列關(guān)鍵詞時(shí),搜索引擎會(huì)盡可能返回包含所有關(guān)鍵詞的網(wǎng)頁(yè)內(nèi)容。一般情況下,這個(gè)技巧都用不上,因?yàn)樗阉饕嬉呀?jīng)十分貼心地將「空格」設(shè)置為了此功能。

「NOT 或 -」:排除包含某個(gè)關(guān)鍵詞的網(wǎng)頁(yè)。當(dāng)你不希望搜索結(jié)果中包含某個(gè)特定關(guān)鍵詞時(shí),「NOT 或 -」便派上了用場(chǎng)。你只需要在你希望排除的關(guān)鍵詞前加上「-」,搜索引擎將會(huì)返回給你不包含這個(gè)關(guān)鍵詞的網(wǎng)頁(yè)內(nèi)容。例如,你不想看到關(guān)于少數(shù)派的搜索內(nèi)容中看見(jiàn) RSS 的影子,那你只需要輸入「少數(shù)派 -RSS」,即可得到已排除 RSS 后你想要的答案。

「OR 或 |」:查找包含某個(gè)關(guān)鍵詞的網(wǎng)頁(yè)。「OR 或 |」與「AND 或 &」的不同是,前者希望根據(jù)多個(gè)關(guān)鍵詞中的任意一個(gè)進(jìn)行搜索,而后者希望搜索結(jié)果中盡量包括所有多個(gè)輸入的關(guān)鍵詞。例如,輸入「少數(shù)派 OR RSS」后,搜索引擎將返回給你包括「少數(shù)派」或包括「RSS」的網(wǎng)頁(yè)內(nèi)容。
「 ( ) 」:查找或排除包含一組關(guān)鍵詞的網(wǎng)頁(yè)。當(dāng)我希望搜索結(jié)果中包含或排除一大串關(guān)鍵詞時(shí),難道要都加上「+」或「-」嗎?當(dāng)然不用,「 ( ) 」可以幫助你解決這一困境,你只需要將你想要的關(guān)鍵詞用「 ( ) 」括起來(lái),然后再前面加上你想要的符號(hào),便可實(shí)現(xiàn)上述效果。因此,「 ( ) 」通常其他技巧搭配使用,從而讓你的搜索效率更高一點(diǎn)點(diǎn)。

對(duì)了,微軟的官方文檔中還給出了以下注意事項(xiàng):
NOT 和 OR 都必須大寫,否則搜索引擎將選擇忽略以加速全文搜索;
只有輸入的前 10 個(gè)關(guān)鍵詞可用于獲取搜索結(jié)果;
以上符號(hào)根據(jù)以下順序確定優(yōu)先級(jí):「()」「""」「- 或 +」「&」「|」;
由于「OR」是優(yōu)先級(jí)最低的運(yùn)算符,當(dāng)其與其他運(yùn)算符連用時(shí),請(qǐng)為「OR」加上引號(hào)。
03 使用特定關(guān)鍵字
與使用特定符號(hào)對(duì)搜索內(nèi)容進(jìn)行限定相同,微軟必應(yīng)還提供了若干個(gè)關(guān)鍵字用于更加強(qiáng)大的搜索定制過(guò)程。這些關(guān)鍵字與符號(hào)的主要區(qū)別在于,符號(hào)更多是向你提供輸入關(guān)鍵詞進(jìn)行搜索時(shí)對(duì)關(guān)鍵詞的組合,而關(guān)鍵字則針對(duì)網(wǎng)頁(yè)內(nèi)容的某一具體特征進(jìn)行限制。
看到這里或許你也不太明白是什么意思,我相信接下來(lái)的內(nèi)容可以解答你的困惑。以下是對(duì)各關(guān)鍵字作用的解讀與效果展示。注意:以下關(guān)鍵字的冒號(hào)后不需要加入空格。
「contains:」:確保搜索結(jié)果鎖定到帶有指定文件類型鏈接的網(wǎng)頁(yè)。例如,如果你想搜索包含 pdf 格式電子書的網(wǎng)站,你可以輸入「book contains:pdf」, 搜索引擎將返回給你所有包含 pdf 格式電子書的網(wǎng)站。

「ext:」:僅返回帶有指定文件擴(kuò)展名的網(wǎng)頁(yè)。例如,如果你想搜索 pdf 格式的文檔,可以在輸入關(guān)鍵詞后輸入「ext:pdf」,搜索引擎將返回給你包含 pdf 格式該文檔的網(wǎng)頁(yè)。但是我在實(shí)測(cè)過(guò)程中發(fā)現(xiàn),這一技巧在微軟必應(yīng)中似乎并不好用,而在谷歌中支持度要更高一些,不過(guò)希望在微軟必應(yīng)中使用此技巧的朋友也不用擔(dān)心,下面要講的「filetype:」關(guān)鍵字同樣可以達(dá)到較好的效果。

在 Google 中使用「ext:」
「filetype:」:僅返回以指定文件類型創(chuàng)建的網(wǎng)頁(yè)。與「ext:」不同的是,使用「filetype:」關(guān)鍵字將得到特定文檔鏈接,而非包含該文檔的網(wǎng)頁(yè),提升了某些搜索過(guò)程的搜索效率。

「inanchor: 或 inbody: 或 intitle:」:這些關(guān)鍵字分別返回元數(shù)據(jù)包含指定術(shù)語(yǔ)(如站點(diǎn)的錨點(diǎn)、正文或標(biāo)題)的網(wǎng)頁(yè)。每個(gè)關(guān)鍵字只能指定一個(gè)術(shù)語(yǔ),可以根據(jù)需要串聯(lián)多個(gè)關(guān)鍵字條目。網(wǎng)頁(yè)中的錨點(diǎn)屬于超鏈接的一種,只不過(guò)我們?nèi)粘=佑|到的超鏈接可能更多是指向特定關(guān)鍵詞,用于跳轉(zhuǎn)頁(yè)面至其他關(guān)鍵詞的解釋網(wǎng)頁(yè)中;而錨點(diǎn)則是網(wǎng)頁(yè)內(nèi)部的超鏈接,在網(wǎng)頁(yè)中標(biāo)記具體位置后,在特定位置設(shè)置錨點(diǎn)快速跳轉(zhuǎn)至該位置。例如,「回到頂部」按鈕就是可以快速跳轉(zhuǎn)至網(wǎng)頁(yè)最頂部位置的錨點(diǎn)。言歸正傳,當(dāng)你希望指定網(wǎng)頁(yè)內(nèi)部特定元素時(shí),可以使用上述三個(gè)關(guān)鍵字進(jìn)行搜索限制。
「ip:」:查找指定 IP 地址托管的網(wǎng)站。IP 地址必須由點(diǎn)分隔為四部分。例如,想查詢 180.149.132.47 IP 地址下托管的網(wǎng)頁(yè),只需輸入「ip:180.149.132.47」即可。
「language:」:返回指定語(yǔ)言的網(wǎng)頁(yè),在「language:」關(guān)鍵字之后指定語(yǔ)言代碼。例如,輸入「RSS language:cn」以搜索語(yǔ)言為中文的 RSS 相關(guān)信息網(wǎng)頁(yè)。必應(yīng)提供了可使用的語(yǔ)言代碼列表:
https://help.bing.microsoft.com/#apex/bing/zh-CHS/10004/-1

「loc: 或 location:」:返回來(lái)自指定國(guó)家或地區(qū)的網(wǎng)頁(yè)。可直接在「loc:」之后指定國(guó)家或地區(qū)代碼(代碼列表見(jiàn)前文語(yǔ)言代碼列表)。若要同時(shí)指定多個(gè)國(guó)家或地區(qū),可使用「OR」來(lái)組織語(yǔ)言。例如,想要搜索來(lái)自美國(guó)或英國(guó)有關(guān) RSS 的網(wǎng)頁(yè),輸入「RSS ( loc:US OR loc:GB ) 」。
「prefer:」:為搜索關(guān)鍵詞添加重點(diǎn),以幫助鎖定搜索結(jié)果。例如,若要查詢籃球的相關(guān)網(wǎng)頁(yè),但搜索內(nèi)容主要限定在洛杉磯湖人球隊(duì)方面,可以輸入「basketball prefer:Los Angeles Lakers」。

「site:」:返回屬于指定站點(diǎn)的網(wǎng)頁(yè),若要關(guān)注兩個(gè)或多個(gè)域,可以用「OR」來(lái)組織域。例如,要在少數(shù)派網(wǎng)站上查找關(guān)于 RSS 的網(wǎng)頁(yè),可以輸入「RSS site:sspai.com」進(jìn)行搜索。

「feed:」:查找輸入關(guān)鍵詞的 RSS 或 Atom 源。沒(méi)錯(cuò),微軟必應(yīng)甚至針對(duì) RSS 源的查找定義了特殊的關(guān)鍵字用于搜索,可見(jiàn) RSS 地位之重要。如果你想搜索有關(guān)籃球的 RSS 源,只需輸入「feed:basketball」。對(duì)于 RSS 用戶來(lái)說(shuō)可以極大提升尋找心儀 RSS 源的搜索效率。
「hasfeed:」:在互聯(lián)網(wǎng)上查找包含有關(guān)搜索關(guān)鍵詞的 RSS 或 Atom 源的網(wǎng)頁(yè)。同樣也是一個(gè)用于搜索有關(guān)內(nèi)容 RSS 源的關(guān)鍵字。例如,如果你想搜索少數(shù)派中包含 RSS 源的網(wǎng)頁(yè),可以輸入「site:sspai.com hasfeed:basketball」。
「url:」:檢查列出的域或網(wǎng)址是否在必應(yīng)的索引內(nèi)。由搜索引擎的基本原理我們可以得知,搜索引擎會(huì)將互聯(lián)網(wǎng)上爬取到的網(wǎng)頁(yè)按特定策略組織起來(lái),建立索引數(shù)據(jù)庫(kù)。該關(guān)鍵字的作用便是幫助我們查詢某一網(wǎng)站是否被微軟必應(yīng)收錄進(jìn)了索引數(shù)據(jù)庫(kù)中。例如,如果你想要驗(yàn)證少數(shù)派是否在微軟必應(yīng)的索引數(shù)據(jù)庫(kù)中,可以輸入「url:sspai.com」進(jìn)行查詢。
注:以上關(guān)鍵字用法均來(lái)自于微軟必應(yīng)官方文檔,其中介紹的某些特性和功能可能會(huì)因地區(qū)不同而無(wú)法使用,請(qǐng)根據(jù)實(shí)際情況取用。
▍寫在最后
以上內(nèi)容僅僅是使用搜索引擎進(jìn)行內(nèi)容搜索過(guò)程中可能可以用于提升效率的一些小技巧,關(guān)于「搜索」本身則有更多實(shí)用技巧供我們發(fā)現(xiàn)與選擇,例如,在特定網(wǎng)站搜集想要的數(shù)據(jù),找一些功能強(qiáng)大的網(wǎng)站尋找各種資源,還可以用合適的上網(wǎng)方式擴(kuò)大互聯(lián)網(wǎng)搜索范圍等。
「搜索」的世界很大,其本身就有許多技巧與方法供我們探索發(fā)現(xiàn),歡迎大家在評(píng)論區(qū)積極留言,向大家分享自己在多年搜索信息過(guò)程中總結(jié)的奇技淫巧。
原文地址:http://www.myzaker.com/article/62ea0d1f8e9f09103547dde0
轉(zhuǎn)載請(qǐng)注明:在網(wǎng)上高效搜索的「秘密」,我想推薦這 3 個(gè)小技巧 | 快導(dǎo)航網(wǎng)






川公網(wǎng)安備51012402001058號(hào)