在線客服
24小時免費咨詢電話:18978941786
客服時間:上午9:30~下午6點
網站搜索引擎優化之爬蟲篇
收藏 分享 發布日期:2012-2-12 16:33:01 編輯:admin 文章來源: 點擊率:
下面就讓我們來介紹一下今天的主角——爬蟲(crawler)。爬蟲是搜索引擎獲取網絡資源的重要途徑。通過網絡爬蟲,搜索引擎可以有機的獲取當前互聯網上最新的網頁,為接下來分析關鍵詞,排序等等提供素材。既然爬蟲如此的重要,那么我們就應該針對爬蟲給他提供一些適合他的“食物”(筆者在此不想提過多的技術分析,比如說廣度優先,深度優先,內容相關,網頁重要性等等,那些是留給各個研發人員去關心的事情,在這里筆者只想描述些概念性的觀點,適合大家理解討論)。但是在這里有個非常重要的概念就是爬蟲是很有禮貌的,它不會不告而訪。它會在自己的“user agent”聲稱“我是某某搜索引擎的爬蟲”。這就為我們提用一個很好的機會,因為機器畢竟和人不一樣,要達到人類最好的視覺效果可能會對搜索引擎對頁面的分析不利,反之亦然。通過探測爬蟲的方法,可以把一個完全只適合給機器看的頁面交給爬蟲但是一點也不影響到自己真正用戶的用戶體驗。而且,隨著時間的發展,爬蟲開始變的越來越聰明,有些爬蟲比如說google,已經可以理解頁面本身中的javascript(但不是包括<script type=”text/javascript” src=”XXX”>這樣外部的javascript),這樣如果你不想讓爬蟲去某個鏈接的話完全可以把它寫進javascript中。至于說html里面的各個標簽應該怎么寫對搜索引擎有益,互聯網上已經有很多文章闡述了,本文就不贅述了。
爬蟲還有一個重要但是很無奈的特點就是爬蟲的資源是有限的。特別是對于一些規模較小的搜索引擎,他們會設計自己的一套算法來決定是否要讓爬蟲訪問某個頁面。如果這個頁面不夠“重要”(由各個引擎自己定義),而且資源也不夠的情況下,這個頁面就會被忽略。我們不妨來做個實驗,去百度的網站輸入“site: cn.alexa.com”,會顯示有“約694,000篇”,再去sogou的網頁嘗試,你會看見“找到 6 個網頁”。這也給各位希望做搜索引擎優化的諸位提個警鐘,不要太在意這個時候在(小規模搜索引擎的)結果。如果資金允許的話,在這個時候在小規模引擎上買些關鍵詞的效果會來的更好。
本文章由南寧網站建設、南寧網站優化、南寧網絡公司整理,轉載請注明出處:http://m.lidajijin.com/