科技风云
谷歌開發實時索引系統:數秒內抓取內容更新
发表于 2010-03-05 08:31 谷歌正在開發一套系統,使得任何規模的網站發布者都能夠向谷歌自動提交內容,從而使其內容在發布後幾秒鐘內被谷歌索引。美國搜索引擎技術網站SearchEngineLand主編丹尼・蘇利文(Danny Sullivan)認為,這將為谷歌掀開新的篇章。
来源:IT新視點
谷歌PubSubHubbub(以下簡稱“PuSH”)實時同步協議開發主管布倫特・斯拉特金(Brett Slatkin)去年秋天曾表示,他希望谷歌有朝一日能夠用PuSH協議來索引網絡內容,而不再借助已經使用多年的爬蟲技術。谷歌高級產品經理狄倫・凱西(Dylan Casey)周二在加州聖克拉拉舉行的搜索營銷大會(Search Marketing Expo)上表示,該公司很快就將為網站所有者提供一種標准的方式,使之可以獲得與PuSH類似的效果。
運作方式
PuSH是一種基於ATOM格式的同步系統。使用該系統時,網站首先要公布一個Hub,每當有內容更新時,該網站便會通過這個Hub發出通知。而用戶注冊後就相當於告訴該Hub:“當該網站有內容更新時,請將立刻將其發送給我。”這樣一來,注冊用戶就無需不停地訪問原始網站來查看是否有內容更新,只需要等待Hub的通知即可。當網站發布了新的內容後,便會自動告知Hub,而Hub則會將這些內容發送給所有的注冊用戶。整個過程只需幾秒鐘。
如果谷歌借助PuSH來部署一套索引程序,便可以要求所有網站部署這一技術,並申報各自所使用的Hub,這就像在傳統RSS服務中提供RSS feed一樣。之後,谷歌便可以借助這些Hub來獲知網站是否有內容更新。
但業內人士認為,PuSH協議不太可能代替現有的爬蟲程序。事實上,必須要通過爬蟲技術來獲取網站的PuSH feed,但這種實時協議卻能夠對谷歌現有的索引技術起到極大的促進作用。
蘇利文認為,谷歌必須要部署一種垃圾信息控制機制,而不能不加審查地收錄所有實時信息。他表示,這種情況曾在搜索引擎發展初期出現過,而且造成了極大的問題。
優勢所在
從運算角度來講,PuSH將為谷歌帶來更高的效率。但斯拉特金認為,更重要的在於此舉對於小型網站的影響。目前,谷歌爬蟲對許多小型網站的抓取頻率僅為一周一次。而有了PuSH系統,這些網站便可以將新內容實時提交給谷歌。
內容更為豐富、速度更快、效率更高的互聯網將對所有人有益,而從中獲益的搜索引擎也不止谷歌一家。PuSH是一種開放協議,雅虎和必應也可以訪問。斯拉特金說:“我的主管一直在告訴我,要對這一協議采取開放的推廣方式,即使對競爭對手也要如此。”
推荐阅读
本类热门
评论 (0人参与)
最新评论