在線客服

24小時免費咨詢電話：18978941786

客服時間：上午9：30~下午6點

當前位置：首頁>>服務中心 >> 網站優化 >> 網站搜索引擎優化之爬蟲篇

網站搜索引擎優化之爬蟲篇

收藏分享發布日期:2012-2-12 16:33:01 編輯:admin 文章來源: 點擊率:

眾所周知，一個網站的流量能大致分成三個部分：直接訪問（direct）、引用頁（referer）和搜索（search engine）。其實搜索那一部分也能屬于引用頁的范疇，但是它太重要了，讓我們不能不單獨拿出來作為一個獨立的分析模塊。總體來說，根據網站的性質和發展，這三部分的比例會有所不同。比如說，對于門戶網站來說，直接訪問的百分比應該一般網站高，不然“門戶”一詞就失去了意義。同樣，對于一些提供服務性質的網站，搜索部分就應該高一點，因為當用戶需要尋找某項服務的時候，第一站往往是百度或谷歌。對于這三部分的流量，會有不同的策略和方法去提高自己網站的訪問量。在本文中，筆者側重于搜索引擎。

下面就讓我們來介紹一下今天的主角——爬蟲（crawler）。爬蟲是搜索引擎獲取網絡資源的重要途徑。通過網絡爬蟲，搜索引擎可以有機的獲取當前互聯網上最新的網頁，為接下來分析關鍵詞,排序等等提供素材。既然爬蟲如此的重要，那么我們就應該針對爬蟲給他提供一些適合他的“食物”（筆者在此不想提過多的技術分析，比如說廣度優先，深度優先，內容相關，網頁重要性等等，那些是留給各個研發人員去關心的事情，在這里筆者只想描述些概念性的觀點，適合大家理解討論）。但是在這里有個非常重要的概念就是爬蟲是很有禮貌的，它不會不告而訪。它會在自己的“user agent”聲稱“我是某某搜索引擎的爬蟲”。這就為我們提用一個很好的機會，因為機器畢竟和人不一樣，要達到人類最好的視覺效果可能會對搜索引擎對頁面的分析不利，反之亦然。通過探測爬蟲的方法，可以把一個完全只適合給機器看的頁面交給爬蟲但是一點也不影響到自己真正用戶的用戶體驗。而且，隨著時間的發展，爬蟲開始變的越來越聰明，有些爬蟲比如說google,已經可以理解頁面本身中的javascript(但不是包括<script type=”text/javascript” src=”XXX”>這樣外部的javascript),這樣如果你不想讓爬蟲去某個鏈接的話完全可以把它寫進javascript中。至于說html里面的各個標簽應該怎么寫對搜索引擎有益，互聯網上已經有很多文章闡述了，本文就不贅述了。

爬蟲還有一個重要但是很無奈的特點就是爬蟲的資源是有限的。特別是對于一些規模較小的搜索引擎，他們會設計自己的一套算法來決定是否要讓爬蟲訪問某個頁面。如果這個頁面不夠“重要”（由各個引擎自己定義），而且資源也不夠的情況下，這個頁面就會被忽略。我們不妨來做個實驗，去百度的網站輸入“site: cn.alexa.com”，會顯示有“約694,000篇”，再去sogou的網頁嘗試，你會看見“找到 6 個網頁”。這也給各位希望做搜索引擎優化的諸位提個警鐘，不要太在意這個時候在（小規模搜索引擎的）結果。如果資金允許的話，在這個時候在小規模引擎上買些關鍵詞的效果會來的更好。
本文章由南寧網站建設、南寧網站優化、南寧網絡公司整理，轉載請注明出處：http://m.lidajijin.com/

99久久免费国产精品-天天爽夜夜爽夜夜爽-色噜噜久久综合伊人一本-国产无遮挡又黄又爽免费视频

「南寧煙寒網絡」提供南寧網站建設、網站策劃、南寧網頁制作、網站設計、網站改版、南寧SEO優化、網站維護、南寧網站優化、南寧網站推廣、廣告設計等服務..

在線客服

網站搜索引擎優化之爬蟲篇