Screaming Frog基本設定
Screaming Frog(尖叫青蛙或….哀號青蛙)是一套運行於本機端的SEO網站分析工具,安裝完成後輸入你想分析的網站 / 網址,它的爬蟲-Screaming Frog Spider(以下簡稱為Spider)就會開始爬取網站內容、進行眾多on page的SEO分析,例:
- Page Title、Meta Description的文案分析
- 是否存在失效的內 / 外部連結,可找出下架的導購連結
- 是否存在過大的圖檔
- 是否有錯誤的noindex、canonical tag設定
這篇Screaming Frog教學文講的是設定重點,報表分析請參考這篇文章。它可調整的選項很多,建議詳讀之後再開始爬取、分析,不然很可能因爬取的資料有問題而得到錯誤的結論。文章目錄:
以下內容對應的軟體版本是Screaming Frog 19.4(發布日期:2023 / 11 / 7)、付費版,並沒有免費版的諸多限制。關於付費與免費的差別請參考官網說明,免費版只能爬取500個網址、無法調整Configuration!
Spider的設定
設定路徑:主選單「Configuration」-「Spider」。
這是很重要的設定,建議開始爬取前要先調整好。這邊列出的設定是我會特別注意的,並不是全部功能,完整的功能請參考官方文件。
Crawal
這邊分成是否爬取跟是否儲存,我會注意的地方:
Images
是否爬取、儲存圖片?如果你只是要爬取Title、Meta描述等資料,其實可以不用爬取圖片,節省處理時間,這時候可以勾選。但它只會排除<img src=””>中的圖片連結,如圖片是放在背景或者是<img srcset=””>,就還是會被爬取,等等會說明如何排除
Follow External “nofollow”:視情況而定
如果沒勾取這個設定,加上rel=”nofollow”的外部連結會被Spider忽略,這會導致你的外部連結資料不完整。以我為例,Booking.com的導購連結都被我加上nofollow,如果沒勾選這選項,Spider就不會爬取這些連結,我便不會知道這些連結是否有問題!
若只是想分析自己的網站,並不在意是否爬取網站完整的外部連結,可以不要勾選這個選項、加快爬取速度。
Extraction
這邊的意思就是擷取哪些資料顯示在報告,通常H1、H2、Meta Description、Page Title、Indexability是必要的,Meta Keywords、Hash Value則可以忽略。但還是要看情況,例如….想知道哪些網頁塞了早就被棄用的Meta Keywords,就要擷取這個資訊。
Advanced
Always Follow Redirects:建議勾選
這個建議勾選,這樣Spider遇到網頁被轉址時,才會一路爬下去看這個網址被轉幾次、被轉去哪、最後的response code是什麼、是否造成redirect loop。簡而言之,就是轉址設定是否有誤、需要修正,需要搭配Redirection Chains的報告來判斷。
Always Follow Canonicals:建議勾選
意義同上述的「Always Follow Redirects」,只是這是用來判斷Canonical(標準網址)的設定。正常來說如果A是某個網頁的標準網址,它的標準網址也要是自己才對,如果A是B的標準網址,但A的標準網址是C,這時候應該要將B的標準網址設定為C,而不是A。更慘的是….B的標準網址是A、A的標準網址是B,變成一個無限迴圈。
建議勾選這個設定再搭配Canonical Chains的報告來判斷。
Preferences
顧名思義,這邊就是偏好設定,指的是可以調整Page Title、Meta描述過長或過短的定義值、何謂Thin content等等,建議使用前看一下、根據自己的需求調整。後面會說明如何將這些調整存為預設值、避免每次開啟都要調整。
這邊還有個很有趣的設定:跟系統說怎樣的錨文字算是沒有描述性的錨文字、怎樣的內容算是soft 404,是很貼心的功能。Soft 404指的是網頁沒有內容、status code該回應404,卻回200,例如網頁內容說明該網頁不存在但status code卻是200。
API串接
設定路徑:主選單「Configuration」-「API Access」。
Screaming Frog也有提供API,爬取時可以順便取得其他工具(例:Google Analytics、Google Search Console、MOZ等等)的資料,當然…須先完成帳號驗證程序。最特別的是自16.6版起,可以串接Google Search Console網址檢查工具API。要使用這功能,除了要串接Google Search Console,還要在頁籤「URL Inspection」勾選「Enable URL Inspection」。如果想要以排程定期檢測,記得這個要勾起來再儲存設定檔,不然排程不會去跑網址檢查工具API。
爬取時排除特定網址
設定路徑:主選單「Configuration」-「Exclude」。
前面有提到如果只是想分析Page Title、Meta Description等文字資料,可以不要爬取圖片,減輕系統負擔、加快處理速度。而上述說明排除圖片的設定有所限制,所以呢….就可由這功能處理!
- 排除圖檔:.*jpg$
- 排除特定資料夾
- 以排除WordPress的/wp-content/目錄為例:https://www.wpandseo.tw/wp-content/.*(網域請替換成你想爬取的目標)
- 若想爬取的網站是以WordPress架站,你只想分析Page Title、Meta Description等文字資料,可用這方式加快處理速度
- 更多運用方式請參考官方文件
爬取模式
設定路徑:主選單的「Mode」,分成「Spider」、「List」、「SERP」,詳情請看官方文件(最下方的「Mode」)。
- Spider:預設的模式,會爬取網站所有網址,也可爬取根網域或子目錄,請參考官方文件
- List:只爬取特定網址,需手動輸入網址或上傳檔案,蠻好用的
- SERP:我沒用過
- Compare:比較兩次爬取結果的內容,我沒用過
生成XML Sitemap
設定路徑:主選單的「Sitemaps」,除了一般網址的XML Sitemap,也提供圖片的。
我是使用WordPress架站,很少使用這功能,除非….我需要生成一份只含特定連結的XML Sitemap(實際案例)。注意事項:
- 須先完成爬取才能生成XML Sitemap
- 生成XML Sitemap之後要上傳到主機空間再提交到Google Search Console(相關教學)
- Screaming Frog的XML Sitemap並不會伴隨網站自動更新,網站有變動就需要再執行一次,所以….這只是應急的做法!
其他設定
這篇Screaming Frog教學無法講完所有的設定,太多了!下列功能也蠻有趣的,可以看一下:
- Storage Mode:預設是Memory Storage,如果爬取大量網頁可能會出問題,可考慮切換到Database Storage(官方說明)
- 封鎖Screaming Frog的爬蟲:如果你的網站不想被Screaming Frog爬取,可在Robots.txt加上設定,想爬取時要記得修改(官方說明)
儲存設定檔
Screaming Frog可設定的功能很多,每次使用都要重新設定會很煩人,所以它提供了儲存設定檔的功能,有兩種:
主選單「Configuration」-「Profiles」-「Save As」
這個功能會將你在主選單「Configuration」中調整的設定,包含上述的Spider設定、排除網址等等,存成一個設定檔,之後想使用時要「開啟」這個檔案。除了節省調整設定的時間,Screaming Frog的排程功能(Scheduling)也需要這個設定檔,時間到了它才知道該怎樣爬取網站,可參考官網說明。
主選單「Configuration」-「Profiles」-「Save Current Configuration as Default」
這個功能會將你在主選單「Configuration」中調整的設定,包含上述的Spider設定、排除網址等等,設定為「預設值」,之後開啟Screaming Frog就會自動套用該設定,不用像上面方式還需要開啟設定檔。想清除該預設值就點主選單「Configuration」-「Profiles」-「Clear Default Configuration」。
這兩種方式各有優缺,第一個的缺點當然就是需要手動開啟設定檔,好處是可以儲存很多個設定檔供不同情境下套用,而且Screaming Frog的排程功能(Scheduling)也需要這個設定檔,時間到了它才知道該怎樣爬取網站(官網說明)。
第二個方式的好處就是快速、不用多一個開啟設定檔的動作,壞處就是….預設值只能有一個,而且排程功能一定要搭配一個設定檔,無法使用預設值。
所以比較好的方式就是將最常用的設定指定為預設值、將其他會重複使用的設定存為設定檔,如果你的排程想要套用預設值,也要將它存為設定檔。
排程設定
除了強大的爬取功能,Screaming Frog還可以設定排程來定期檢測網站狀態,更重要的是…可以產出Data Studio所需要的資料源、建立視覺化報表。重點功能:
- 爬取頻率:單次、每天、每週、每月
- 爬取模式:爬取網域或者特定網址
- 輸出模式:可於本機端儲存資料,或者將資料匯到Google Drive,可搭配Google Drive製作Data Studio報表
相關文章:Screaming Frog教學|排程篇:排程建立、串接Google Drive、輸出爬取資料
心得
雖然Screaming Frog價格高昂而且是每年付費,卻是我的必用SEO工具之一,利用它再搭配Google Search Console可以處理很多SEO問題。這篇Screaming Frog教學介紹的是我用它經營內容網站時的常用設定,更進階的功能如串接API、設定排程等等也很有用,但建議先摸熟基本功能且對SEO具備基礎知識,才能好好運用!
它可以分析的報表有很多,常用報表可參考Screaming Frog報表分析教學,更進階的以Data Studio製作數據儀表版請參考這一篇文章。開始爬取前要注意一件事:若是用來爬取公司網站,建議先跟網管人員溝通一下,以免突然間有爬蟲爬取大量網頁他們卻不知道發生何事。如果遇到網站無法爬取請參考這一篇文章,會說明如何繞過障礙、爬取網站。
最後還是要提醒一下,Screaming Frog是著重在on page SEO的分析,對它有基本的理解便可以更清楚這工具的神奇之處。關於on page SEO可參考:2021年SEO元素週期表分享-內容、架構、HTML三大面向 。
其他SEO相關文章
- SEO小教室|Google Search Console簡介、基本功能說明、成效與索引報告使用建議
- SEO小教室|網站地圖Sitemap用途說明、產出與提交方式、特殊網址處理心得
- SEO小教室|數據分析神器-Looker Studio視覺化報表核心功能與用途分享
- SEO小教室|流量下滑分析-步驟一:以「指標」、「管道」、「時間段」釐清問題
- SEO小教室|電商網站常見重複性內容問題與建議處理方式
- SEO小教室|如何用標準網址Canonical Tag處理重複性內容、與301轉址的差異
- SEO小教室|301轉址懶人包-轉址簡介、開發注意事項、評估方式、替代方案
- SEO小教室|SEO成效評估重點指標與推薦工具分享
- WordPress|內容網站SEO – 網域與索引、重點功能、內容編輯等七大主題教學
- WordPress|必裝SEO外掛 – 超完整Yoast SEO設定教學
- SEO小教室|Screaming Frog報表教學:索引狀態、Meta文案、失效連結等四大項目
- SEO小教室|排名追蹤工具SE Ranking介紹:專案設定、關鍵字排名報表、篩選功能
- SEO小教室|2024年SEO元素週期表分享-主要項目介紹以及重點內容解析
- SEO小教室|Rand Fishkin(蘭德.費希金)2019年SEO排名要素研究報告讀後心得