Google 的網站管理員工具推出了一項新功能 - 索引狀態
Google 的網站管理員工具推出了一項新功能:索引狀態 (Index Status),這個新功能可以在「健康狀態」下找到。新功能可以把過去一年之內,網站中的已建立索引的網頁數字繪成圖表。這個功能應該是筆者有印象中Google首次對其索引資料提供一丁點資訊,不竟這個索引是Google最重要的資產,亦是SEO界一直最希望知道的秘密。

Total Indexed(已經建立索引的網頁總數)
Google 表示數字相比起 site: search operator準確,兼且是規範後的結果。換言之,如果您的網站有大量重覆的 URLs(例如由於追蹤參數)和具有規範屬性的網頁,Google 會識別出重覆的 URLs,而這裡顯示的總數只計算規範網頁,重覆網頁被排除在外。您也可以透過提交 XML 網站地圖 (XML Sitemap) 取得這些數據,但如果您的網站地圖是綜合式的,您得到的數字便只會是全索引數字。另外,Google 也會把過去一年的數據以圖表顯示出來。不過,Google 指這些數據可能會滯後兩三個星期。因此,與其依據這些數據作出即時行動,不如從它們看出網站的發展走向,還比較有用。
此外,如果您查 domain.com,您會查到所有子網域的統計數字,但如果您查 www.domain.com,您查到的只有 www 子網域的統計數字。這表示,如果你的網站沒有加上 www,你要很不容易才能查到排除了子網域資料的數據。
進階狀態
「進階」選項會提供更多詳情:

要理解這些數據,最好先不理會 檢索過的網頁數 (Ever Crawled) 的數字(這個稍後再看),現在,剩下的有:
- 已建立索引的網頁數 (total indexed)
- 未選取 (not selected)
- 遭 robots.txt 封鎖 (blocked by robots)
這三個數字的總和,就是 Google 現正考量的 URLs 數目。Google 表明所有數字只包括 HTML 檔案,其他檔案類型如圖片、CSS 檔案或 JavaScript 檔案不會列入計算之內。在上面的例子,Google 現正查看的有 482,241 個 URLs,其中有 330 個被 robots.txt 封鎖。然而,要列出這些 URLs 有甚麼網頁,就變得困難了。在這個用戶介面上,再沒有列出封鎖了的 URLs 的報告功能,但你仍然可以透過 API 取得這些資料。只看這些數字而沒有背景資料,很難決定這些數字是否表示網站出現問題。假設這個例子中的網站有 2000 個可供建立索引的網頁,Google 是否只爬找了 957 個獨特網頁,並且都替它們建立了索引?(在這個情況,所有不獲選取的會是那些沒有規範化的 URLs ,例如在追蹤代碼之類上出現差異)或者,會不會是Google 雖然爬找了全部 2000 個網頁(包括非規範網頁),但卻認為只有其中的 957 值得建立索引? 又或者,可能只有 500 個建立了索引的 URLs 是獨特網頁,但由於規範化出了問題,很多重覆了的網頁也建立了索引。
如果沒有大量的其他資料點作背景資料,這個問題很難解答。Google 表示一個 URL 之所以在建立索引時不獲選取,有很多原因,包括:
- 它重新導向至另一網頁
- 它有 rel="canonical",去了另一網頁
- 我們的演算法偵測到它的內容跟另一個 URL 非常相似,而我們選擇了另一個 URL 來顯示這個內容。
如果要了解為何 Google 不建立索引的網頁,情況便比較複雜。但無論如何,今次的資料大概可以讓我們網頁設計公司或者SEO公司知道大概的成績表,在制造內容的時候定期留意一下這個數字,相信大概也知道 Google 的口味,到時再進一步對症下藥。
原文網址:
http://www.aveego.com/html/o_57927_/google-的網站管理員工具推出了一項新功能-索引狀態.html
原文作者︰
Jeff Chan
更多網頁設計新聞
Total Indexed(已經建立索引的網頁總數)
Google 表示數字相比起 site: search operator準確,兼且是規範後的結果。換言之,如果您的網站有大量重覆的 URLs(例如由於追蹤參數)和具有規範屬性的網頁,Google 會識別出重覆的 URLs,而這裡顯示的總數只計算規範網頁,重覆網頁被排除在外。您也可以透過提交 XML 網站地圖 (XML Sitemap) 取得這些數據,但如果您的網站地圖是綜合式的,您得到的數字便只會是全索引數字。另外,Google 也會把過去一年的數據以圖表顯示出來。不過,Google 指這些數據可能會滯後兩三個星期。因此,與其依據這些數據作出即時行動,不如從它們看出網站的發展走向,還比較有用。
此外,如果您查 domain.com,您會查到所有子網域的統計數字,但如果您查 www.domain.com,您查到的只有 www 子網域的統計數字。這表示,如果你的網站沒有加上 www,你要很不容易才能查到排除了子網域資料的數據。
進階狀態
「進階」選項會提供更多詳情:
要理解這些數據,最好先不理會 檢索過的網頁數 (Ever Crawled) 的數字(這個稍後再看),現在,剩下的有:
- 已建立索引的網頁數 (total indexed)
- 未選取 (not selected)
- 遭 robots.txt 封鎖 (blocked by robots)
這三個數字的總和,就是 Google 現正考量的 URLs 數目。Google 表明所有數字只包括 HTML 檔案,其他檔案類型如圖片、CSS 檔案或 JavaScript 檔案不會列入計算之內。在上面的例子,Google 現正查看的有 482,241 個 URLs,其中有 330 個被 robots.txt 封鎖。然而,要列出這些 URLs 有甚麼網頁,就變得困難了。在這個用戶介面上,再沒有列出封鎖了的 URLs 的報告功能,但你仍然可以透過 API 取得這些資料。只看這些數字而沒有背景資料,很難決定這些數字是否表示網站出現問題。假設這個例子中的網站有 2000 個可供建立索引的網頁,Google 是否只爬找了 957 個獨特網頁,並且都替它們建立了索引?(在這個情況,所有不獲選取的會是那些沒有規範化的 URLs ,例如在追蹤代碼之類上出現差異)或者,會不會是Google 雖然爬找了全部 2000 個網頁(包括非規範網頁),但卻認為只有其中的 957 值得建立索引? 又或者,可能只有 500 個建立了索引的 URLs 是獨特網頁,但由於規範化出了問題,很多重覆了的網頁也建立了索引。
如果沒有大量的其他資料點作背景資料,這個問題很難解答。Google 表示一個 URL 之所以在建立索引時不獲選取,有很多原因,包括:
- 它重新導向至另一網頁
- 它有 rel="canonical",去了另一網頁
- 我們的演算法偵測到它的內容跟另一個 URL 非常相似,而我們選擇了另一個 URL 來顯示這個內容。
如果要了解為何 Google 不建立索引的網頁,情況便比較複雜。但無論如何,今次的資料大概可以讓我們網頁設計公司或者SEO公司知道大概的成績表,在制造內容的時候定期留意一下這個數字,相信大概也知道 Google 的口味,到時再進一步對症下藥。
原文網址:
http://www.aveego.com/html/o_57927_/google-的網站管理員工具推出了一項新功能-索引狀態.html
原文作者︰

更多網頁設計新聞