網址規範化(URL Canonicalization)指的是搜尋引擎挑選最合適的 URL 作為真正(規範化的)網址的過程。
造成網址不規範的原因
舉例來說,下面這幾個 URL 一般指的是同一個檔案(頁面):
-
example.com
-
www.example.com
-
example.com/index.html
-
www.example.com/index.html
但是從技術上來講,這幾個 URL 都是不同的網址,搜尋引擎也確實把它們當作不同的網址。雖然在絕大部分情況下這些網址所返回的是相同的檔案,也就是網站首頁,但是從技術上說,主機完全可以對這幾個網址返回不同的內容。
除了上面因為帶與不帶 www 以及結尾是否帶 index.html 檔名造成的不規範網址,網址規範化問題還可能由於以下原因出現:
-
CMS 系統原因,使同一篇文章(也可以是產品、貼文等)可以通過不同的 URL 存取。
-
URL 靜態化設定錯誤,同一篇文章中有多個靜態化URL。
-
URL 靜態化後,靜態和動態URL共存,都有連結,也都可以存取。
網址不規範對 SEO 的影響
網站出現多個不規範網址會給搜尋引擎收錄和排名帶來很多麻煩。比如,網站首頁應該是固定的,只有一個,但很多站長在連結回首頁時所使用的 URL 並不是唯一的,一會兒連到 http://www.example.com,一會兒連到 http://www.example.com/index.html。
雖然不會給使用者造成什麼麻煩,因為這些網址其實是同一個檔案,但是給搜尋引擎造成了困惑,哪一個網址是真正的首頁呢?哪一個網址應該被當作首頁返回呢?
如果網站上不同版本的網址同時出現,那麼兩個或更多版本的 URL 都可能被搜尋引擎收錄,這就會造成複製內容。搜尋引擎計算排名時必須找到所謂的規範化網址,也就是搜尋引擎認為的最合適的 URL 版本。
網址規範化造成幾個問題:
-
CMS 系統在不同地方連結到不同的 URL,分散了頁面權重,不利於排名。
-
外部連結可能指向不同 URL,分散權重。
-
搜尋引擎判斷的規範化網址不是我們想要的那個網址。
-
如果網址規範化問題太嚴重,就可能影響收錄。一個權重不是很高的域名能收錄的總頁面數和蜘蛛總爬行時間是有限的。搜尋引擎把資源花在收錄不規範的網址上,留下給獨特內容的資源就減少了。
-
複製內容過多,搜尋引擎可能認為有作弊嫌疑。
如何解決網址規範化問題
要解決 URL 規範化問題有很多方法,比如:
-
確保使用的 CMS 系統只產生規範化網址,無論是否有靜態化。
-
所有內部連結保持統一,都指向規範化網址。以帶與不帶 www 為例,確定一個版本為規範化網址,網站內連接統一使用這個版本。這樣搜尋引擎就能明白哪一個是站長希望的規範化網址。由於使用者習慣,通常選擇帶 www 的版本為規範化網址。
-
在 Google 管理員工具中設定首選域。
-
使用 301 轉向,把不規範化 URL 全部轉向規範化 URL,下一節將深入討論。
-
使用 canonical 標籤,後面將深入討論。
-
提交給搜尋引擎的 XML 網站地圖中全部使用規範化網址。
但這些方法都各有局限:
-
Google 管理員工具不適用於其他搜尋引擎。
-
有的網站因為技術原因做不了 301 轉向。
-
CMS 系統經常不受自己控制。
-
內部連結自己可以控制,但外部連結不受控制。
去除域名後的 index.html
1) Windows 伺服器(VPS 或雲主機)
使用本地電腦“遠端桌面連線”連線到伺服器,在伺服器桌面找到並開啟“Internet資訊服務(IIS)管理器”,找到自己的網站,右擊“屬性→文件”,將 index.html 上移到頂部,如圖1所示。
圖1:IIS 伺服器去除域名後的 index.html