Screaming Frog教學｜報表篇：以Looker Studio製作索引狀態與Search Console監控報表

在前一篇文章說明過如何設定Screaming Frog排程、定期將資料匯至Google Drive之後，這篇文章會說明如何以這些資料來製作Looker Studio報表（前身為Data Studio）、監控網站狀態。進入正題前，先簡單介紹Looker Studio，Google推出的免費視覺化報表工具。

Looker Studio簡介：

Looker Studio是Google於2016年推出的免費視覺化報表服務（2022年由Data Studio更名為Looker Studio），簡而言之，使用者可以使用Looker Studio獲取各種服務的數據，再以這些數據搭配Looker Studio的視覺化報表製作功能，產出一目了然的視覺化報表。除了報表功能強大，還能彙整來自四面八方的資料於一份報表中，非常方便。

Looker Studio這個服務本身是免費的，Google也提供獲取Google Analytics、Google Search Console、Google Ads等等資料的免費連結器（connector），但如果想取得Facebook廣告、Google My Business等資料，就需要購買付費的連結器才能取用資料。

看到這邊應該會有一個疑問：什麼是連結器？簡而言之，它是一個中介服務，Looker Studio本身沒有儲存我們使用服務的資料，必須要透過連結器跟Google Analytics、Google Search Console、Google Ads等服務取用資料才能製作報表，就姑且想成…Looker Studio跟資料源間的橋梁吧！

如果想更理解Looker Studio請參考這篇文章，本文會把重點放在跟Screaming Frog相關的功能、報表。

Looker Studio資料取用：

在上一篇文章已經說明如何將Screaming Frog的爬取結果匯至Google Drive，這些結果是以Google Sheets保存在Google Drive中，而Looker Studio提供了Google試算表的連結器，我們便是要以Google試算表的連結器取用保存於Google Drive中的Screaming Frog相關Google Sheets來製作報表。

通常我們保存於Google Drive的試算表有不少檔案，我建議直接於Looker Studio的介面中輸入想用來製作報表的Google Sheets網址，不要用瀏覽的方式，那真是曠日廢時。Screaming Frog爬取的資料很多，以下只說明如何以「Internal:HTML」、「External:HTML」、「Custom Crawl Overview」來製作Looker Studio報表。

Looker Studio報表製作：

Internal:HTML：

這檔案是Screaming Frog最重要的輸出資料，可以看到所有內部HTML（就是所有內部網頁，不含圖片、CSS等等）的可索引性、主機回應代碼、標準網址、網頁標題與Meta描述等等，如有串接Google Search Console，也會看到相關資料。

這張報表在Google Sheet的檔名是「internal_html」，成功取用資料後便可用來製作很多報表，例如索引監控、網頁回應碼監控等等，如果有串接Google Search Console，這邊也會顯示爬取資料。

找出無法被索引的網址：

在製作Looker Studio報表時前要先規劃想監控哪些異常數據或資訊，以我來說…只需要監控哪些網址無法被索引（noindex、301轉址、網頁不存在等等），所以就會使用「internal_html」搭配Looker Studio的篩選器，找出「可能」有問題的網頁。以下圖為例，我是要找出「Indexability」不是「Indexable」的網頁（即排除「Indexability」等於「Indexable」），看看這些網頁是否可以索引、為何不能索引、伺服器回應的代碼是什麼。

通常一個網站會有許多網頁，但不是每一個網頁都需要進行SEO，以WordPress部落格來說，SEO的主力頁面是部落格文章，只要監控這些頁面即可，以負面表列的方式來篩選便是排除網址含tag、category的頁面。

監控Google Search Console的索引狀態：

Google在2022年1月底釋出Google Search Console的網址檢查工具API後（相關連結），Screaming Frog便火速整合到它的服務中（官方說明），讓使用者可以一次取得大量的網址檢查工具結果、不用再一一查詢（但還是有使用量限制，請參考前面的相關連結）。如果要於排程工具使用這個API，在儲存排程設定檔時需勾選前述Screaming Frog官方說明中的「Enable URL Inspection」，並於排程設定畫面勾選使用Google Search Console API，兩者皆須完成！

如果有順利取得Google Search Console的網址檢查工具資料，可於「internal_html」看到「Summary」、「Coverage」、「Last Crawl」、「Days Since Last Crawled」等資料。這邊的重點當然就是找出沒被Google索引的頁面（Summary包含is not），然後根據「Coverage」（即「涵蓋範圍」）來確認問題點。

另一個很有趣的資料是「Days Since Last Crawled」，即Google上次爬取是幾天前，這數據沒有絕對的好壞…如果很頻繁更新資料但Google卻經常2－3周才爬取一次，這就很有問題；反之，如果網站2－3個月才偶爾更新，那即使Google一個月爬取一次也不用太擔心。總之…這數據的解讀要搭配網站實際運作的狀況，以我來說，是會挑出上次爬取時間超過兩周的頁面，看看是否有問題。

DEMO：找出沒被Google索引的報表（URL is not on Google）

Custom Crawl Overview：

這報表的用途是建立索引統計狀態的趨勢圖，根據例外管理原則，我是用這個資料源來觀察XML Sitemap無法索引的網址，正常的數據是「０」，即XML Sitemap不該存在這種網址。即使在WordPress這種對SEO非常友善的系統，還是很容易發生這種狀況，例如：網址被以301轉址轉到其他頁面卻沒下架、購物車網頁被設定noindex卻沒由XML Sitemap排除。

這個報表對應的Google Sheets檔案其檔名結尾為「custom_summary_report」，需要於Screaming Frog的排程設定仔細調整才能於Google Sheets產出檔案，詳情請參考這一篇文章。

正確的產出Custom Crawl Overview的Google Sheets之後，便可用它來製作索引異常網址數量趨勢圖，索引異常包含「Response Codes:Blocked by Robots.txt」「Response Codes:Redirection (3xx)」「Response Codes:Client Error (4xx)」「Canonicals:Canonicalised」等等。

如果排程爬取的對象是XML Sitemap檔案，則這些檔案也會納入爬取的網址，以我為例…我是爬取XML Sitemap的索引檔、總共有五個XML Sitemap檔案，這些檔案都是noindex，所以…無法被索引的連結數就只能是5，超過就有問題！

External:HTML：

這邊可以看到所有Screaming Frog爬取的外部HTML的資料，在Google Sheets的檔名是「external_html」，我是用來檢查是否存在失效的外部連結（Sttus Code等於404）。相較於上面的報表，這重要性低多了，但我的網站有置放大量外部連結，需監控失效外部連結的狀態，以免影響使用者體驗。找到之後可開啟Screaming Frog的爬取結果，找出置放這些連結的網址並修正。

要注意的是…找到這些連結後還要自己再測試一次，有時候會誤判，如果被認定為404但我可以正常連線，我就會忽略它！

心得：

Screaming Frog的排程搭配Looker Studio便可以產出監控報表，提早察覺網站的問題並快速修正。以我重視的索引監控為例，Google Search Console顯示的已經是結果，當那邊的結果不如預期問題可能存在很久了，因為還有時間差，善加利用Screaming Frog便可快速調整！除了監控索引相關設定與狀態，當然也可用來監控圖檔大小、文案設定等等，就看自己需求應變吧！

話說回來，不管是排程或者Looker Studio報表都算是進階功能，建議先熟悉基本設定與報表，並具備基本的SEO知識，才能好好使用，所以…建議先好好閱讀下列文章來了解Screaming Frog可以做什麼。

Screaming Frog教學｜報表篇：以Looker Studio製作索引狀態與Search Console監控報表

SEO小工具｜免費Chrome排名查詢應用程式：SEO Search Simulator by Nightwatch

內容這條路－Part 1｜濫觴與轉型－我覺得你很會寫文件、神祕數字2798

WP & SEO

內容這條路－Part 1｜濫觴與轉型－我覺得你很會寫文件、神祕數字2798

最新文章

贊助商廣告

文章分類