發新話題
打印

教你建立Google網頁地圖Sitemap.xml

::: 一按馬上把這個話題放上你的facebook!! :::

教你建立Google網頁地圖Sitemap.xml

Sitemap.xml是google搞出來的,也就是網頁地圖,不過這個網頁地圖是用xml寫的,而且要按google的標準來寫,並且要將寫出來的這個檔sitemap.xml上傳到自己的伺服器空間中去。目前,Google, Yahoo, MSN都已經聲明支援這種格式,Baidu還沒有聲明支持,但估計走這一步也是大勢所趨。這將是向眾多搜索引擎提供你網頁資訊的一種很好的方法。

提交sitemap一是有利於搜索抓取一些正常抓取過程中無法抓取的網址,比如動態網頁,包含大量AJAX的網頁或者flash的頁面。二是為搜索蜘蛛指明“工作方向”。Sitemap就是你網頁上頁面的列表,googlebot就按照這個去一個個的抓取收錄頁面,顯然比它自己去找會效率高,而且要全。Google網頁上有完整的關於sitemap.xml的詳細說明:

http://www.google.com/support/webmasters/bin/answer.py?answer=40318&hl=zh_TW

但很多網頁經營看後仍然不會操作,下面這個教程就是手把手教會你創建Sitemap.xml。

<!--[if !supportLists]-->1.         <!--[endif]-->Sitemap.XML 的格式

完整格式如下:

<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.google.com/schemas/sitemap/0.84" >

       <url>

              <loc>http://www.yrtrip.com/default.asp<;/loc>

              <lastmod>2008-07-17</lastmod>

              <changefreq>daily</changefreq>

              <priority>1.0</priority>

       </url>

       <url>

              <loc> http://www.yrtrip.com/search2.asp?id=32003044&;amp;sq=1</loc>

              <lastmod>2008-07-17</lastmod>

              <changefreq>weekly</changefreq>

              <priority>0.9</priority>

       </url>

       …

       …

</urlset>

下面,對以上標籤分別加以解釋

<!--[if !supportLists]-->a)       <!--[endif]--><?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.google.com/schemas/sitemap/0.84" >

這兩行就相當於網頁文件中的<html>標籤一樣的作用。不必管這兩行什麼意思,照抄即可。

切記:一個字元也不能錯,即使多一個空格,google網頁採集時也會報錯。另外,千萬別忘了在檔的末尾加上</urlset>標籤。
<!--[if !supportLists]-->

b) url:每個標籤包含一個網頁位址,是以下標籤的父標籤。

c) http://www.yrtrip.com/default.asp

這堿O頁面鏈結位址,也就是你希望蜘蛛訪問的位址。

切記:在位址中出現的某些特殊字元需要使用轉義字元,否則,google也會報錯。最典型的就是 & 號,經常在動態網址中出現,在提交地址中必須寫成 & 如:提交http://www.yrtrip.com/search2.asp?id=32003044&;sq=1,google管理員工具就會報錯,而改為 http://www.yrtrip.com/search2.asp?id=32003044&;sq=1提交後就沒有問題了。我看到網上有人說sitemap.xml只能提交一個參數的網頁的說法,其實多半是因為沒有使用轉義字元而導致出錯的。其他的轉義字元就不一一列出了,大家可以在網上查。

d) lastmod:頁面最後修改時間

這個很重要。Google的機器人會在索引此鏈結前先和上次索引記錄的最後更新時間進行 比較,如果時間一樣就會跳過不再索引。所以如果你的鏈結內容基於上次Google索引時的內容有所改變,應該更新該時間,讓Google下次索引時會重新 對該鏈結內容進行分析和提取關鍵字。這堨眸極呰SO 8601中指定的時間格式進行描述,格式化的時間格式如下:

年:YYYY(2008)

年和月:YYYY-MM(2008-06)

年月日:YYYY-MM-DD(2008-06-04)

年月日小時分鐘:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37+08:00)

年月日小時分鐘秒:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37:30+08:00)

這婸搌`意的是TZD,TZD指定就是本地時間區域標記,像中國就是+08:00了

切記:其他格式可能引起出錯,比如將2008-08-08 寫成2008-8-8就會出問題。

e) changefreq:頁面內容更新頻率。

這堨i以用來描述的單詞共這幾個:"always", "hourly", "daily", "weekly", "monthly", "yearly",具體含義我就不用解釋了吧,光看單詞的意思就明白了。

f) priority:相對於其他頁面的優先權

定於0.0 - 1.0之間 。

切記:建議將各類網頁根據重要性給出不同的數值,以方便蜘蛛的採集,不要耍小聰明全部寫1.0,google管理工具會報錯的。

2. Sitemap.xml製作方式

製作方式無非兩種,自動方式和手動方式。

自動方式一般使用生成工具自動生成,只需輸入自己的網址,就可以得到完整的xml檔。這種方式一般適用於靜態網頁,在此不再贅述。但需要提醒的是,網上的工具良莠不齊,生成的檔經常有錯誤,不一定能通過google的校驗,使用者需認真辨別。

手工方式則是由網頁經營手工填寫或寫程式完成均可,代碼很簡單,大家可以到網上查找。

3. 提交

Sitemap.xml製作完成後,就需要將xml檔提交到相關搜索引擎。

Google提交網址:http://www.google.com/webmasters/sitemaps/?hl=zh-TW

Yahoo提交網址:http://sitemap.cn.yahoo.com/

提交後,一般在幾個小時之內,系統就開始下載處理了。

4. Sitemap.xml的校驗

至於你的網頁地圖是否符合標準,最方便的手段就是使用google的管理員工具了。

在他下載你的sitemap.xml後幾天內,這個工具就會將詳細的分析結果回饋回來,包括:sitemap.xml中包含了多少位址,google已將多少位元址加入索引,sitemap.xml中出現了哪些錯誤,甚至蜘蛛採集過程中遇到的各種問題,比如哪些網頁有404,500錯誤都會詳細的羅列出來,非常方便。

如果你提交的xml檔一切無誤,那麼接下來,你就是等著讓它的搜索蜘蛛來爬了,sitemap的檔告知了檔更新的頻率,這樣搜索蜘蛛來得更勤快,頁面被收錄當然也就更快。

TOP

發新話題