使用Screaming Frog爬取網站前你該知道的設定重點：爬取模式、進階設定、排除網址

Screaming Frog基本設定

Screaming Frog（尖叫青蛙或….哀號青蛙）是一套運行於本機端的SEO網站分析工具，安裝完成後輸入你想分析的網站 / 網址，它的爬蟲－Screaming Frog Spider（以下簡稱為Spider）就會開始爬取網站內容、進行眾多on page的SEO分析，例：

Page Title、Meta Description的文案分析
是否存在失效的內 / 外部連結，可找出下架的導購連結
是否存在過大的圖檔
是否有錯誤的noindex、canonical tag設定

這篇Screaming Frog教學文講的是設定重點，報表分析請參考這篇文章。它可調整的選項很多，建議詳讀之後再開始爬取、分析，不然很可能因爬取的資料有問題而得到錯誤的結論。文章目錄：

Spider的設定
API串接
爬取時排除特定網址
爬取模式
生成XML Sitemap
其他設定
儲存設定檔

以下內容對應的軟體版本是Screaming Frog 19.4（發布日期：2023 / 11 / 7）、付費版，並沒有免費版的諸多限制。關於付費與免費的差別請參考官網說明，免費版只能爬取500個網址、無法調整Configuration！

Spider的設定

設定路徑：主選單「Configuration」－「Spider」。

這是很重要的設定，建議開始爬取前要先調整好。這邊列出的設定是我會特別注意的，並不是全部功能，完整的功能請參考官方文件。

Crawal

這邊分成是否爬取跟是否儲存，我會注意的地方：

Images

是否爬取、儲存圖片？如果你只是要爬取Title、Meta描述等資料，其實可以不用爬取圖片，節省處理時間，這時候可以勾選。但它只會排除<img src=””>中的圖片連結，如圖片是放在背景或者是<img srcset=””>，就還是會被爬取，等等會說明如何排除

Follow External “nofollow”：視情況而定

如果沒勾取這個設定，加上rel=”nofollow”的外部連結會被Spider忽略，這會導致你的外部連結資料不完整。以我為例，Booking.com的導購連結都被我加上nofollow，如果沒勾選這選項，Spider就不會爬取這些連結，我便不會知道這些連結是否有問題！

若只是想分析自己的網站，並不在意是否爬取網站完整的外部連結，可以不要勾選這個選項、加快爬取速度。

Extraction

這邊的意思就是擷取哪些資料顯示在報告，通常H1、H2、Meta Description、Page Title、Indexability是必要的，Meta Keywords、Hash Value則可以忽略。但還是要看情況，例如….想知道哪些網頁塞了早就被棄用的Meta Keywords，就要擷取這個資訊。

Advanced

Always Follow Redirects：建議勾選

這個建議勾選，這樣Spider遇到網頁被轉址時，才會一路爬下去看這個網址被轉幾次、被轉去哪、最後的response code是什麼、是否造成redirect loop。簡而言之，就是轉址設定是否有誤、需要修正，需要搭配Redirection Chains的報告來判斷。

Always Follow Canonicals：建議勾選

意義同上述的「Always Follow Redirects」，只是這是用來判斷Canonical（標準網址）的設定。正常來說如果A是某個網頁的標準網址，它的標準網址也要是自己才對，如果A是B的標準網址，但A的標準網址是Ｃ，這時候應該要將Ｂ的標準網址設定為C，而不是A。更慘的是….B的標準網址是A、Ａ的標準網址是B，變成一個無限迴圈。

建議勾選這個設定再搭配Canonical Chains的報告來判斷。

建議勾選這兩個功能，後續才好進行Redirection Chains跟Canonical Chains的分析

Preferences

顧名思義，這邊就是偏好設定，指的是可以調整Page Title、Meta描述過長或過短的定義值、何謂Thin content等等，建議使用前看一下、根據自己的需求調整。後面會說明如何將這些調整存為預設值、避免每次開啟都要調整。

這邊還有個很有趣的設定：跟系統說怎樣的錨文字算是沒有描述性的錨文字、怎樣的內容算是soft 404，是很貼心的功能。Soft 404指的是網頁沒有內容、status code該回應404，卻回200，例如網頁內容說明該網頁不存在但status code卻是200。

API串接

設定路徑：主選單「Configuration」－「API Access」。

Screaming Frog也有提供API，爬取時可以順便取得其他工具（例：Google Analytics、Google Search Console、MOZ等等）的資料，當然…須先完成帳號驗證程序。最特別的是自16.6版起，可以串接Google Search Console網址檢查工具API。要使用這功能，除了要串接Google Search Console，還要在頁籤「URL Inspection」勾選「Enable URL Inspection」。如果想要以排程定期檢測，記得這個要勾起來再儲存設定檔，不然排程不會去跑網址檢查工具API。

爬取時排除特定網址

設定路徑：主選單「Configuration」－「Exclude」。

前面有提到如果只是想分析Page Title、Meta Description等文字資料，可以不要爬取圖片，減輕系統負擔、加快處理速度。而上述說明排除圖片的設定有所限制，所以呢….就可由這功能處理！

排除圖檔：.*jpg$
排除特定資料夾
- 以排除WordPress的/wp-content/目錄為例：https://www.wpandseo.tw/wp-content/.*（網域請替換成你想爬取的目標）
- 若想爬取的網站是以WordPress架站，你只想分析Page Title、Meta Description等文字資料，可用這方式加快處理速度
更多運用方式請參考官方文件

爬取模式

設定路徑：主選單的「Mode」，分成「Spider」、「List」、「SERP」，詳情請看官方文件（最下方的「Mode」）。

Spider：預設的模式，會爬取網站所有網址，也可爬取根網域或子目錄，請參考官方文件
List：只爬取特定網址，需手動輸入網址或上傳檔案，蠻好用的
- 應用 1 – 爬取特定網頁生成XML Sitemap：可先用List模式爬取，再使用生成XML Sitemap的功能（為何要做這件事？請參考這一篇文章）
- 應用 2 -確認特定外部連結是否失效：
  - 先取得外部連結清單再用這模式爬取，然後看Redirection Chains報表。爬取時要注意前面提到的「Always Follow Redirects」設定
  - 官方文件寫得很清楚，值得一看！
SERP：我沒用過
Compare：比較兩次爬取結果的內容，我沒用過

生成XML Sitemap

設定路徑：主選單的「Sitemaps」，除了一般網址的XML Sitemap，也提供圖片的。

我是使用WordPress架站，很少使用這功能，除非….我需要生成一份只含特定連結的XML Sitemap（實際案例）。注意事項：

須先完成爬取才能生成XML Sitemap
生成XML Sitemap之後要上傳到主機空間再提交到Google Search Console（相關教學）
Screaming Frog的XML Sitemap並不會伴隨網站自動更新，網站有變動就需要再執行一次，所以….這只是應急的做法！

其他設定

這篇Screaming Frog教學無法講完所有的設定，太多了！下列功能也蠻有趣的，可以看一下：

Storage Mode：預設是Memory Storage，如果爬取大量網頁可能會出問題，可考慮切換到Database Storage（官方說明）
封鎖Screaming Frog的爬蟲：如果你的網站不想被Screaming Frog爬取，可在Robots.txt加上設定，想爬取時要記得修改（官方說明）

儲存設定檔

Screaming Frog可設定的功能很多，每次使用都要重新設定會很煩人，所以它提供了儲存設定檔的功能，有兩種：

主選單「Configuration」－「Profiles」－「Save As」

這個功能會將你在主選單「Configuration」中調整的設定，包含上述的Spider設定、排除網址等等，存成一個設定檔，之後想使用時要「開啟」這個檔案。除了節省調整設定的時間，Screaming Frog的排程功能（Scheduling）也需要這個設定檔，時間到了它才知道該怎樣爬取網站，可參考官網說明。

主選單「Configuration」－「Profiles」－「Save Current Configuration as Default」

這個功能會將你在主選單「Configuration」中調整的設定，包含上述的Spider設定、排除網址等等，設定為「預設值」，之後開啟Screaming Frog就會自動套用該設定，不用像上面方式還需要開啟設定檔。想清除該預設值就點主選單「Configuration」－「Profiles」－「Clear Default Configuration」。

這兩種方式各有優缺，第一個的缺點當然就是需要手動開啟設定檔，好處是可以儲存很多個設定檔供不同情境下套用，而且Screaming Frog的排程功能（Scheduling）也需要這個設定檔，時間到了它才知道該怎樣爬取網站（官網說明）。

第二個方式的好處就是快速、不用多一個開啟設定檔的動作，壞處就是….預設值只能有一個，而且排程功能一定要搭配一個設定檔，無法使用預設值。

所以比較好的方式就是將最常用的設定指定為預設值、將其他會重複使用的設定存為設定檔，如果你的排程想要套用預設值，也要將它存為設定檔。

排程設定

除了強大的爬取功能，Screaming Frog還可以設定排程來定期檢測網站狀態，更重要的是…可以產出Data Studio所需要的資料源、建立視覺化報表。重點功能：

爬取頻率：單次、每天、每週、每月
爬取模式：爬取網域或者特定網址
輸出模式：可於本機端儲存資料，或者將資料匯到Google Drive，可搭配Google Drive製作Data Studio報表

心得

雖然Screaming Frog價格高昂而且是每年付費，卻是我的必用SEO工具之一，利用它再搭配Google Search Console可以處理很多SEO問題。這篇Screaming Frog教學介紹的是我用它經營內容網站時的常用設定，更進階的功能如串接API、設定排程等等也很有用，但建議先摸熟基本功能且對SEO具備基礎知識，才能好好運用！

它可以分析的報表有很多，常用報表可參考Screaming Frog報表分析教學，更進階的以Data Studio製作數據儀表版請參考這一篇文章。開始爬取前要注意一件事：若是用來爬取公司網站，建議先跟網管人員溝通一下，以免突然間有爬蟲爬取大量網頁他們卻不知道發生何事。如果遇到網站無法爬取請參考這一篇文章，會說明如何繞過障礙、爬取網站。

最後還是要提醒一下，Screaming Frog是著重在on page SEO的分析，對它有基本的理解便可以更清楚這工具的神奇之處。關於on page SEO可參考：2021年SEO元素週期表分享－內容、架構、HTML三大面向。

其他SEO相關文章

標籤： Screaming Frog SEO工具網站索引

Screaming Frog教學｜設定篇：進階設定、排除網址、XML Sitemap

WordPress｜內容網站SEO – 網域與索引、重點功能、內容編輯等七大主題教學

Screaming Frog教學｜報表篇：索引狀態、Meta文案、失效連結等四大項目

WP & SEO

Screaming Frog教學｜報表篇：索引狀態、Meta文案、失效連結等四大項目

最新文章

贊助商廣告

文章分類