重複性內容之簡介
重複性內容(duplicate content)指的是不同的網址顯示極為相似、甚至一模一樣的內容,對SEO來講是大忌,除了浪費Google索引網站的資源(就像我們浪費錢買兩本一模一樣的書)也會分散網站累積的SEO成績。
精確來說,重複性內容造成的問題不能算是Google給的懲罰,但實務上它確實會造成網站的SEO成績分散、無法集中在單一頁面獲取最好的成果,也會讓Google浪費資源爬取無用頁面,所以處理這個問題向來是SEO的重要工作。
處理重複性內容不外乎四種手段:標準網址、robots.txt、以404代碼處理、轉址,但以下的問題需要以前三種方式解決,無法使用轉址。為何不能使用轉址呢?因為以下的重複性內容,其多出來的網址就行銷面或使用者面有其必要,只是會造成SEO問題,這時使用301轉址會衍生其他問題。
這篇網站會針對電商網站常遇到的重複性內容問題提出建議,若使用WordPress則不用太擔心、搭配SEO外掛就可以輕易解決。文章目錄:
先說一下…這邊不會說明何謂標準網址、robots.txt跟轉址、有興趣請先看這些文章:標準網址|robots.txt|轉址,需要先理解這三個概念才能看懂本文。另…這邊也不會說明Page Title、Meta描述一樣造成的潛在重複性內容問題,或者商品規劃不佳、上架偷懶導致不同商品顯示類似、重複內容的問題。至於網域有無www都可以連線、HTTP沒有轉址到HPPS等等原因造成的整站重複性內容,嚴重性就不用多提了吧!
清單頁排版
通常電商的商品列表頁可以切換每頁顯示的商品數或者版面(格狀、條列式),而這些版面的變化都會反映到網址上,也就可能造成重複性內容問題。以格狀/條列式為例,頁面不管以哪種版面顯示商品清單,網站內容都是一樣、只是排版不一樣,如果沒處理到這種重複性內容很容易造成Google爬取大量的無用內容。
這個問題的處理方式很簡單,先列出會造成這些問題的參數並確保即使網址沒有這些參數依然可以正確帶出內容,然後以下列方式擇一處理:
- 標準網址:將這些參數由標準網址中排除
- Robots.txt:由這個設定排除爬蟲爬取含這些參數的網址
清單頁排序
這個問題跟上述問題也蠻類似的,只是一個是版面相關的參數造成,這個則是跟排序功能有關。通常電商網站可讓使用者根據價格、熱門度、上架日期等等方式來排序,而這些排序準則就會反應到網址上,雖然不同的排序代表「可能」會帶出不同的內容,但極有可能內容是重複的。
舉例來說:商品清單一頁10筆,某個分類的商品只有8筆,這時候不管怎樣排序該頁面就只顯示這8筆商品、只是順序不一樣!
就SEO來講,我們只需要讓Google索引需要操作SEO的內容,不同的排序所產出的網址通常沒有操作SEO的意義而且有不小的機會讓不同的排序顯示同樣的商品,所以我會建議要處理清單頁排序造成的重複性內容問題。處理方式同「清單頁排版」的方式,就不贅述了。
跨分類問題
跨分類指的是商品/文章擁有超過一個的同一階分類,舉例來說這一篇遊記有三個分類,歐洲、德國/荷蘭,這時候在國家這一層的分類就有跨分類問題。跨分類的問題會反映在兩個地方:網址、麵包屑。
網址
如果網址會帶出該頁面的分類,當該頁面有兩個同階層分類該怎樣處理呢?如果因為有多個同階層分類而產出多個網址,那就會造成重複性內容,因為這些頁面的內容幾乎一模一樣,只是分類不一樣。
遇到這個問題可以考慮以「主要分類」的方式處理,如果某個頁面有多個同一階層的分類,則需要由這些分類中挑出一個作為主要分類,在網址或標準網址中只顯示這個分類、不顯示其他同一階層的分類,也這個方式來處理跨分類造成的網址問題。
如果網站的商品或文章有跨分類但是網址不會帶出分類,那就不用處理跨分類造成的重複性內容問題。
導覽標記
導覽標記(BreadcrumbList)有個更廣為人知的名稱:麵包屑,用途就是顯示該頁面的上層分類,讓使用者很明確的知道他在看什麼、如何看更多相關內容(即同分類內容),也可讓Google知道該內容屬於哪一個分類、協助它解讀資訊架構。
既然導覽標記是顯示該網址的分類階層,當所在網址有跨分類問題時,就會導致導覽標記在同一個階層出現兩個分類,第一個問題當然就是不佳的使用者體驗,第二個問題是…如果該導覽標記有對應的結構化資料,在結構化資料中出現同一個階層有兩個分類,很可能會被判定為無效標記。
這問題的解決方式很簡單,還是使用主要分類讓系統知道遇到跨分類問題時該挑選哪個分類顯示在導覽標記中。
行銷相關參數
什麼是行銷參數呢?舉凡UTM、gclid(Google廣告的參數)、fbclid(FB用的參數)追蹤或分析版位點擊用的參數都可以歸類為行銷參數,這些參數不會影響到網站內容,如果沒有留心處理包含這些參數的網址就會造成重複性問題。在WordPress不會有這種問題,如果是使用其他系統來經營網站就要特別注意。
對了,聯盟行銷通常也需要特定的參數來追蹤成效,這些參數也要記得處理!
沒有內容的網址
網址多多少少都會存在幾乎沒有內容的網址,例如:404頁面、無法搜出任何結果的內部搜尋結果頁等等,這些沒有內容的頁面網址不一樣但內容卻非常類似:幾乎沒有任何內容,是非常典型的重複性內容。
如果網站有這種頁面一定要正確處理,例如404頁面就要給404回應代碼、讓Google知道這個網址不存在,不要回代碼200;搜尋結果頁有許多做法,但我都會統一在「所有」搜尋結果頁加上noindex或於robots.txt封鎖、不讓Google索引,如果有需要讓Google索引的搜尋結果頁,請將它轉換成分類頁或標籤頁。
還有一種重複性內容也很常見:沒有內容的標籤頁,就是我們新增一個標籤卻沒有將其套用到任何文章,結果這個標籤就沒有內容,這種標籤一多也會造成嚴重的重複性內容問題。這時候應該要刪除這種一點意義都沒有的標籤,並且訂定標籤使用規範,這是內容網站的超級大雷!
還有一種沒有內容的網址比較難處理:需要依賴執行JavaScript來產生的內容,如果Google沒有執行JavaScript就看不到內容,這時對它來講也是每個頁面都一樣:沒有內容的空白頁面,這問題就難處理了,不在本文探討!
總結
在進行大型電商SEO優化的時候有一件非常重要的工具:觀察各種版位的網址(包含標準網址),從中了解網址可能會帶哪些參數、標準網址又是如何設定,並自行測試刪除特定參數是否會影響到網頁內容,藉此來評估是否需要以標準網址或者robots.txt處理這個參數潛在的重複性內容問題。
當然,跟IT好好討論也是必要的,畢竟他們應該會比SEO人員更清楚系統架構,但我還是強烈建議兩者都該進行,才能清楚網站各種參數的用途、盡力減輕網站的重複性內容問題。至於沒有內容的網址,除非是JavaScript造成的,不然都容易處理,只是還是要請IT人員幫忙。
最後提醒一點,如以網址參數來切換顏色、尺寸、容量等等,也會造成重複性內容問題,只是這幾個問題現在比較少見了我就沒特別提,實務上還是要仔細確認是否有因此產生的重複性內容問題。