二月初,珍妮·杰克遜()因?yàn)樽吖馐录仙秊樗阉鞯娜藲夤谲姡渌阉髡埱筮_(dá)到總數(shù)的,創(chuàng)下了搜索關(guān)鍵詞的歷史最高記錄。這一數(shù)字是艷星曾經(jīng)所創(chuàng)記錄的倍,是歌星小甜甜布萊妮的倍。
互聯(lián)網(wǎng)上的搜索引擎已經(jīng)成為反映大眾趣味和關(guān)注焦點(diǎn)的最好工具,
也許比任何其他調(diào)查統(tǒng)計(jì)都更為真實(shí)。
高頻詞與社會熱點(diǎn)
縱觀歷史,熱門詞匯反映了短期內(nèi)大眾關(guān)注的焦點(diǎn),長期來看可以連綴出世事的發(fā)展脈絡(luò)。美國康奈爾大學(xué)的研究人員曾經(jīng)做過一項(xiàng)調(diào)查,通過統(tǒng)計(jì)年后每年的美國國情咨文的用詞,發(fā)現(xiàn)了不同歷史時期的熱門詞匯。例如美國獨(dú)立戰(zhàn)爭期間出現(xiàn)頻率最高的是“民兵”和“英軍”;而在年到年這段時間內(nèi),“原子彈”則被反復(fù)地提起。
如今,搜索引擎聲稱自己知道大眾心中的秘密。搜索引擎不只是被動地答疑解惑;事實(shí)上,各大搜索引擎提供了包羅萬象的統(tǒng)計(jì)數(shù)據(jù),這些結(jié)果也許十分有趣。認(rèn)為:雖然計(jì)算機(jī)并不懂歷史,但是可以通過統(tǒng)計(jì)(網(wǎng)頁訪問記錄)、和網(wǎng)
……(新文秘網(wǎng)http://120pk.cn省略679字,正式會員可完整閱讀)……
列入搜索目錄,在結(jié)果頁面中直接提供了相關(guān)鏈接。
搜索如何實(shí)現(xiàn)
“已向英特網(wǎng)搜索。共有項(xiàng)查詢結(jié)果,這是第~項(xiàng)。搜索用時秒!泵,體現(xiàn)著以為代表的搜索引擎的快捷和高效。這一切,又是如何實(shí)現(xiàn)的呢?
通常情況下,一間機(jī)房只能擺放臺服務(wù)器,但是的機(jī)房內(nèi)可以容納臺服務(wù)器,因?yàn)樗鼈兌际遣鸬袅藱C(jī)殼和部分零件的裸機(jī)。和他們將機(jī)器的外殼拆掉,再卸下沒用的芯片和零件使整機(jī)體積縮小,而且容易維護(hù),當(dāng)然也節(jié)省了租用機(jī)房的花銷。使用了超過一萬臺的服務(wù)器,并將其分散到五個不同地區(qū)的機(jī)房內(nèi),用以應(yīng)付浩如煙海的網(wǎng)絡(luò)信息。
為了對每一次搜索請求做出快速的反應(yīng),搜索引擎在前期下足了功夫。它們在后臺不停地重復(fù)三步操作。第一步,搜索引擎會不斷的利用爬蟲()程序搜集互聯(lián)網(wǎng)上所有可達(dá)的網(wǎng)頁,無論是公開的還是隱藏的—只要曾被訪問過,就會招致“爬蟲”上身。這樣,定期外出的“爬蟲”就為搜索引擎囤積起一個海量數(shù)據(jù)庫。由于“爬蟲”外出遵循一定的周期,有時可能跟不上網(wǎng)頁更新的速度,所以的“網(wǎng)頁快照”會出現(xiàn)與目標(biāo)頁面不盡相同的情況。第二步,另一個程序會統(tǒng)計(jì)出緩存網(wǎng)頁()中各個字詞出現(xiàn)的頻率。第三步,根據(jù)詞頻概括出頁面的中心思想和段落大意,再按照不同的關(guān)鍵詞提煉出索引目錄。用戶的每一次搜索請求都是基于這些索引計(jì)算而得,因此響應(yīng)異常迅速。
無論的專利技術(shù),還是百度全球獨(dú)有的“超鏈分析”技術(shù),其大致想法都差不多:統(tǒng)計(jì)每個網(wǎng)頁被其它網(wǎng)頁鏈接指向的情況,次數(shù)越多則級別越高,排名也就越靠前。有的搜索引擎專家指出,搜索算法上比更為準(zhǔn)確。指的是根據(jù)用戶點(diǎn)擊搜索結(jié)果而再次做出的統(tǒng)計(jì)。有的頁面可能通過開始的計(jì)算被排在結(jié)果的第八頁,但是通過查看每條鏈接的屬性,引擎可以將用戶點(diǎn)擊多而且瀏覽成功的頁面提到前面來。、和百度等搜索引擎都老老實(shí)實(shí)地統(tǒng)計(jì)了每一次點(diǎn)擊,而則非常直接,不做任何再次統(tǒng)計(jì)。
很多服務(wù)網(wǎng)站認(rèn)同這樣一個觀點(diǎn),用戶是懶惰的。根據(jù)點(diǎn)擊情況做出的統(tǒng)計(jì),很多用戶一般只看完搜索結(jié)果的第一頁,并不瀏覽后續(xù)頁面。因此一些網(wǎng)站把更多的搜索結(jié)果顯示在第一頁上,比如,它的“第一頁”有項(xiàng)。而新浪則把“和盤托出”的服務(wù)形式發(fā)展到了登峰造極,在情人節(jié)當(dāng)天搜索“鮮花”,一下子就跳出了個網(wǎng)站鏈接。但是、和百度等搜索引擎依然堅(jiān)持簡潔的作風(fēng),每頁只顯示條搜索結(jié)果。
除了搜索算法的不同,各家搜索引擎也在細(xì)化服務(wù),推出了日趨豐富的搜索功能,比如大家鐘愛的圖像搜索。其實(shí),的圖像功能也十分優(yōu)秀,它還同時支持音頻、視頻以及下載站點(diǎn)的搜索。
整合搜索引擎
那么,用戶是否不得不逐一訪問每個搜索引擎以得到最好的搜索結(jié)果呢?也許不必。搜索整合技術(shù)可以一次性地提供盡可能多的信息。
搜索整合()如果譯作“后搜索”,可能聽起來更時髦一些,不過這就無法體現(xiàn)其重新梳理搜索結(jié)果這一標(biāo)志性的功能。通常的搜索是從龐雜的網(wǎng)絡(luò)資源中按照某個線索分門別類的提取信息,而則是在其他搜索引擎的發(fā)現(xiàn)結(jié)果之上進(jìn)行再加工,可謂是搜索的搜索。
當(dāng)用戶向搜索整合引擎輸入關(guān)鍵詞之后,它即向若干個獨(dú)立工作的搜索引擎同時發(fā)送搜索請求,并從它們的網(wǎng)頁數(shù)據(jù)庫中檢索出所需的信息。搜索整合引擎沒有建立自己的網(wǎng)頁數(shù)據(jù)庫,它的一切數(shù)據(jù)都來自其他的搜索引擎;所以,整合的結(jié)果也不會比其他任何一家搜索引擎的結(jié)果更好。但是,它可以將用戶從重復(fù)性勞動中解放出來,同時提供更有條理的搜索結(jié)果—這也是研發(fā)之初的理想。
目前搜 ……(未完,全文共2998字,當(dāng)前僅顯示1905字,請閱讀下面提示信息。
收藏《搜索引擎調(diào)查報(bào)告探測大眾心中的秘密隱私》)