運用 AI 輔助工具排解資料庫負載過高的疑難問題

本文件說明如何使用 Cloud SQL 的 AI 輔助功能,排解 Cloud SQL 中資料庫負載過高的情形。您可以使用 Cloud SQL 和 Gemini Cloud Assist 的 AI 輔助功能,進行調查、分析、取得建議,並最終實作這些建議,以便在 Cloud SQL 中改善查詢。

您可以存取 Google Cloud 控制台中的「查詢深入分析」資訊主頁,分析資料庫並排解系統發生資料庫負載高於平均值的事件。Cloud SQL 會使用所選時間範圍前 24 小時的資料,計算資料庫的預期負載。您可以查看負載事件增加的原因,並分析成效降低的證據。最後,Cloud SQL 會提供最佳化資料庫的最佳化建議,以提升效能。

事前準備

如要透過 AI 輔助功能排解資料庫負載過高的情形,請執行下列操作:

  1. 查看 AI 輔助疑難排解機制的限制
  2. 啟用 AI 輔助的疑難排解機制

必要角色和權限

如要瞭解使用 AI 協助排解資料庫負載過高的相關角色和權限,請參閱「使用 AI 進行觀察和疑難排解」一文。

使用 AI 輔助功能

如要使用 AI 協助功能排解資料庫負載過高的情況,請前往 Google Cloud 控制台的「執行個體總覽」頁面或「查詢深入分析」資訊主頁。

執行個體總覽頁面

如要透過 AI 協助功能在「執行個體總覽」頁面中排解資料庫負載過高的情況,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「Cloud SQL 執行個體」頁面。

    前往 Cloud SQL 執行個體

  2. 如要開啟執行個體的「總覽」頁面,請按一下執行個體名稱。
  3. 在「總覽」頁面的「圖表」選單中,選取資料庫的指標。您可以選取任何指標。
  4. 選用:如要選取特定分析時間範圍,請使用「時間範圍」篩選器,選取 1 小時、6 小時、1 天、7 天、30 天或自訂範圍。
  5. 總覽頁面上的資料庫效能圖表,顯示 24 小時內的 CPU 使用率,以及分析執行個體效能的選項。

    您可以放大圖表的特定區域,找出要分析的高負載區域。舉例來說,負載量高的區域可能會顯示 CPU 使用率接近 100%。如要放大圖表,請按一下並選取圖表的一部分。

    放大檢視資料庫效能圖表。
  6. 按一下「分析執行個體效能」,即可開始透過 AI 協助排除資料庫負載過高的情況。系統會產生「分析資料庫負載」頁面。

查詢洞察資訊主頁

請按照下列步驟,在查詢深入分析資訊主頁中使用 AI 協助功能,排解資料庫負載過高的情況:

  1. 前往 Google Cloud 控制台的「Cloud SQL 執行個體」頁面。

    前往 Cloud SQL 執行個體

  2. 如要開啟執行個體的「總覽」頁面,請按一下執行個體名稱。
  3. 按一下「查詢洞察」,開啟「查詢洞察」資訊主頁。
  4. 選用:使用「時間範圍」篩選器,選取 1 小時、6 小時、1 天、7 天、30 天或自訂範圍。
  5. 「查詢洞察」圖表中的「資料庫負載」圖表,顯示 24 小時內的查詢延遲時間,以及分析執行個體效能的選項。

    您可以將圖表縮放至特定區域,以便查看哪些區域的資料庫負載較高,進而縮短查詢執行時間。如要放大圖表,請按一下並選取圖表的一部分。

  6. 在「資料庫負載圖表」中,按一下「分析執行個體效能」,即可開始透過 AI 協助排除資料庫負載過高的情況。系統會產生「分析資料庫負載」頁面。

分析資料庫負載過高

您可以使用 AI 協助功能,分析及排解資料庫負載的詳細資料。

在「Analyzing database load」(分析資料庫負載)頁面中,您可以查看 Cloud SQL 執行個體的下列詳細資料:

  • 分析時間範圍
  • CPU 使用率 (p99)
  • 記憶體使用率 (p99)

Cloud SQL 會顯示「交易/秒」圖表,您可以查看所選時間範圍內的交易活動。您可以查看特定時間範圍內的活動是否突然激增。

分析 PostgreSQL 適用的 Cloud SQL 資料庫效能頁面

資料分析時間範圍

Cloud SQL 會分析資料庫在您在資料庫負載圖表中選取的時間範圍,這項資訊來自「查詢深入分析」資訊主頁或「執行個體總覽」頁面。如果選取的時間範圍少於 24 小時,Cloud SQL 會分析整個時間範圍。如果選取的時間範圍超過 24 小時,Cloud SQL 只會選取該時間範圍內的最後 24 小時進行分析。

為計算資料庫的基準成效分析,Cloud SQL 會在分析時間範圍內加入 24 小時的基準時間範圍。如果所選時間範圍發生在星期一以外的日期,Cloud SQL 會使用所選時間範圍前24 小時的基線時間範圍。如果所選時間範圍發生在星期一,Cloud SQL 會使用前 7 天的基準時間範圍,與所選時間範圍相比較。

情況

Cloud SQL 啟動分析時,會檢查下列重要指標是否有重大變化:

  • 每秒查詢次數 (QPS)
  • CPU
  • 記憶體
  • 磁碟 I/O

Cloud SQL 會比較資料庫在分析時間範圍內的效能資料,如果 Cloud SQL 偵測到關鍵指標的閾值出現重大變化,就會指出資料庫可能出現問題。這項狀況可能說明資料庫在所選時間範圍內負荷過高的原因。

舉例來說,資料庫負載過高的原因之一可能會被視為「鎖定爭用」

在分析期間,Cloud SQL 可能會判斷鎖定等待比率大幅增加。Cloud SQL 可能會列出其他情況,其中主要指標顯示有大幅增加。舉例來說,您可能也會看到下列情況:

  • 爭用系統資源
  • 緩衝區不足
  • 過度記錄

PostgreSQL 適用的 Cloud SQL 的情況和證據

證據

針對每種情況,Cloud SQL 都會提供證據清單,以支持相關發現。Cloud SQL 會根據從執行個體收集到的指標提供證據。

每種情況都會提供輔助證據,用於偵測系統效能異常。當系統效能超出特定門檻或符合特定時間限制條件時,Cloud SQL 就會偵測到異常情況。Cloud SQL 會為每種情況定義這些門檻或條件。

如要支援鎖定爭用的情況,您可能會看到下列證據:

  • 鎖定等待比率:相較於偵測到的基準觀察期間,鎖定等待比率增加了 40,786.04%。

如要查看分析期間擷取的證據,請按一下各個情況。證據會顯示在窗格中,位於相應情況旁邊。

建議

根據分析的所有情況,Cloud SQL 會提供一或多項可行建議,協助您解決資料庫負載過高的相關問題。Cloud SQL 會提供建議,並附上成本效益分析,讓您在決定是否採用建議前,能先參考相關資訊。

在某些情況下,系統可能不會根據分析資料提供建議。

最佳化建議表

舉例來說,您可能會收到以下最佳化建議:

  • 找出阻礙項目:找出並檢查可能造成阻礙的查詢,瞭解是否有可最佳化之處。

如要瞭解如何實作這項第一個建議,請點按「瞭解詳情」連結。

如果您想繼續進行疑難排解,或需要進一步的系統效能協助,也可以開啟 Gemini Cloud Assist。詳情請參閱「使用 AI 協助功能觀察及排解問題」。

後續步驟