Multimodale Einbettungen generieren und suchen

In dieser Anleitung wird gezeigt, wie Sie mit BigQuery und Vertex AI multimodale Einbettungen für Bilder und Text generieren und diese Einbettungen dann für eine semantische Text-zu-Bild-Suche verwenden.

In dieser Anleitung werden die folgenden Aufgaben behandelt:

In dieser Anleitung werden die öffentlichen Kunstbilder aus dem The Metropolitan Museum of Art verwendet, die im öffentlichen Cloud Storage gcs-public-data--met-Bucket verfügbar sind.

Erforderliche Rollen

Zum Ausführen dieser Anleitung benötigen Sie die folgenden IAM-Rollen (Identity and Access Management):

  • BigQuery-Datasets, ‑Verbindungen, ‑Modelle und ‑Notebooks erstellen und verwenden: BigQuery Studio Admin (roles/bigquery.studioAdmin).
  • Gewähren Sie dem Dienstkonto der Verbindung Berechtigungen: „Projekt-IAM-Administrator“ (roles/resourcemanager.projectIamAdmin).

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Ausführen der Aufgaben in diesem Dokument erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

  • Dataset erstellen: bigquery.datasets.create
  • Verbindung erstellen, delegieren und verwenden: bigquery.connections.*
  • Standardverbindung festlegen: bigquery.config.*
  • Dienstkontoberechtigungen festlegen: resourcemanager.projects.getIamPolicy und resourcemanager.projects.setIamPolicy
  • Objekttabelle erstellen: bigquery.tables.create und bigquery.tables.update
  • Modell erstellen und Inferenz ausführen:
    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
    • bigquery.models.updateMetadata
  • Notebooks erstellen und verwenden:
    • resourcemanager.projects.get
    • resourcemanager.projects.list
    • bigquery.config.get
    • bigquery.jobs.create
    • bigquery.readsessions.create
    • bigquery.readsessions.getData
    • bigquery.readsessions.update
    • dataform.locations.get
    • dataform.locations.list
    • dataform.repositories.create

      .
    • dataform.repositories.list
    • dataform.collections.create
    • dataform.collections.list
    • aiplatform.notebookRuntimeTemplates.apply
    • aiplatform.notebookRuntimeTemplates.get
    • aiplatform.notebookRuntimeTemplates.list
    • aiplatform.notebookRuntimeTemplates.getIamPolicy
    • aiplatform.notebookRuntimes.assign
    • aiplatform.notebookRuntimes.get
    • aiplatform.notebookRuntimes.list
    • aiplatform.operations.list
    • aiplatform.notebookRuntimeTemplates.apply

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

  • BigQuery ML: You incur costs for the data that you process in BigQuery.
  • Vertex AI: You incur costs for calls to the Vertex AI service that's represented by the remote model.

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.

Neuen Google Cloud Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Weitere Informationen zu den Preisen von BigQuery finden Sie unter BigQuery: Preise in der BigQuery-Dokumentation.

Weitere Informationen zu den Preisen für Vertex AI finden Sie auf der Seite Vertex AI: Preise.

Hinweise

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Verify that billing is enabled for your Google Cloud project.

  3. Enable the BigQuery, BigQuery Connection, and Vertex AI APIs.

    Enable the APIs

Dataset erstellen

Erstellen Sie ein BigQuery-Dataset zum Speichern Ihres ML-Modells.

Console

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    Zur Seite "BigQuery"

  2. Klicken Sie im Bereich Explorer auf den Namen Ihres Projekts.

  3. Klicken Sie auf Aktionen ansehen > Dataset erstellen.

    Die Menüoption „Dataset erstellen“

  4. Führen Sie auf der Seite Dataset erstellen die folgenden Schritte aus:

    • Geben Sie unter Dataset-ID bqml_tutorial ein.

    • Wählen Sie als Standorttyp die Option Mehrere Regionen und dann USA (mehrere Regionen in den USA) aus.

    • Übernehmen Sie die verbleibenden Standardeinstellungen unverändert und klicken Sie auf Dataset erstellen.

bq

Wenn Sie ein neues Dataset erstellen möchten, verwenden Sie den Befehl bq mk mit dem Flag --location. Eine vollständige Liste der möglichen Parameter finden Sie in der bq mk --dataset-Befehlsreferenz.

  1. Erstellen Sie ein Dataset mit dem Namen bqml_tutorial, wobei der Datenspeicherort auf US und die Beschreibung auf BigQuery ML tutorial dataset festgelegt ist:

    bq --location=US mk -d \
     --description "BigQuery ML tutorial dataset." \
     bqml_tutorial

    Anstelle des Flags --dataset verwendet der Befehl die verkürzte Form -d. Wenn Sie -d und --dataset auslassen, wird standardmäßig ein Dataset erstellt.

  2. Prüfen Sie, ob das Dataset erstellt wurde:

    bq ls

API

Rufen Sie die Methode datasets.insert mit einer definierten Dataset-Ressource auf.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

BigQuery DataFrames

Bevor Sie dieses Beispiel ausprobieren, folgen Sie den Schritten zur Einrichtung von BigQuery DataFrames in der BigQuery-Kurzanleitung: BigQuery DataFrames verwenden. Weitere Informationen finden Sie in der Referenzdokumentation zu BigQuery DataFrames.

Richten Sie zur Authentifizierung bei BigQuery die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter ADC für eine lokale Entwicklungsumgebung einrichten.

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

Objekttabelle erstellen

Erstellen Sie eine Objekttabelle für die Kunstbilder im öffentlichen Cloud Storage-gcs-public-data--met-Bucket. Mit der Objekttabelle können Sie die Bilder analysieren, ohne sie aus Cloud Storage zu verschieben.

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Führen Sie im Abfrageeditor folgende Abfrage aus:

    CREATE OR REPLACE EXTERNAL TABLE `bqml_tutorial.met_images`
    WITH CONNECTION DEFAULT
    OPTIONS
      ( object_metadata = 'SIMPLE',
        uris = ['gs://gcs-public-data--met/*']
      );

Bilddaten analysieren

Erstellen Sie ein Colab Enterprise-Notebook in BigQuery, um die Bilddaten zu analysieren.

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Notebook mit dem BigQuery-Editor erstellen

  3. Notebook mit der Standardlaufzeit verbinden

  4. Notebook einrichten:

    1. Fügen Sie dem Notebook eine Codezelle hinzu.
    2. Kopieren Sie den folgenden Code in die Codezelle:

      #@title Set up credentials
      
      from google.colab import auth
      auth.authenticate_user()
      print('Authenticated')
      
      PROJECT_ID='PROJECT_ID'
      from google.cloud import bigquery
      client = bigquery.Client(PROJECT_ID)
      

      Ersetzen Sie PROJECT_ID durch den Namen des Projekts, das Sie für diese Anleitung verwenden.

    3. Führen Sie die Codezelle aus.

  5. Tabellenanzeige aktivieren:

    1. Fügen Sie dem Notebook eine Codezelle hinzu.
    2. Kopieren Sie den folgenden Code in die Codezelle:

      #@title Enable data table display
      %load_ext google.colab.data_table
      
    3. Führen Sie die Codezelle aus.

  6. Funktion zum Anzeigen der Bilder erstellen:

    1. Fügen Sie dem Notebook eine Codezelle hinzu.
    2. Kopieren Sie den folgenden Code in die Codezelle:

      #@title Util function to display images
      import io
      from PIL import Image
      import matplotlib.pyplot as plt
      import tensorflow as tf
      
      def printImages(results):
       image_results_list = list(results)
       amt_of_images = len(image_results_list)
      
       fig, axes = plt.subplots(nrows=amt_of_images, ncols=2, figsize=(20, 20))
       fig.tight_layout()
       fig.subplots_adjust(hspace=0.5)
       for i in range(amt_of_images):
         gcs_uri = image_results_list[i][0]
         text = image_results_list[i][1]
         f = tf.io.gfile.GFile(gcs_uri, 'rb')
         stream = io.BytesIO(f.read())
         img = Image.open(stream)
         axes[i, 0].axis('off')
         axes[i, 0].imshow(img)
         axes[i, 1].axis('off')
         axes[i, 1].text(0, 0, text, fontsize=10)
       plt.show()
      
    3. Führen Sie die Codezelle aus.

  7. Bilder anzeigen:

    1. Fügen Sie dem Notebook eine Codezelle hinzu.
    2. Kopieren Sie den folgenden Code in die Codezelle:

      #@title Display Met images
      
      inspect_obj_table_query = """
      SELECT uri, content_type
      FROM bqml_tutorial.met_images
      WHERE content_type = 'image/jpeg'
      Order by uri
      LIMIT 10;
      """
      printImages(client.query(inspect_obj_table_query))
      
    3. Führen Sie die Codezelle aus.

      Die Antwort sollte in etwa so aussehen:

      Bilder von Objekten aus dem Metropolitan Museum of Art.

  8. Speichern Sie das Notebook als met-image-analysis.

Remote-Modell erstellen

Erstellen Sie ein Remote-Modell, das ein gehostetes multimodales Einbettungsmodell von Vertex AI darstellt:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Führen Sie im Abfrageeditor folgende Abfrage aus:

    CREATE OR REPLACE MODEL `bqml_tutorial.multimodal_embedding_model`
      REMOTE WITH CONNECTION DEFAULT
      OPTIONS (ENDPOINT = 'multimodalembedding@001');

    Die Abfrage dauert mehrere Sekunden. Anschließend wird das Modell multimodal_embedding_model im bqml_tutorial-Dataset des Bereichs Explorer angezeigt. Da die Abfrage eine CREATE MODEL-Anweisung zum Erstellen eines Modells verwendet, gibt es keine Abfrageergebnisse.

Bildeinbettungen generieren

Generieren Sie mit der Funktion ML.GENERATE_EMBEDDING Einbettungen aus den Bildern in der Objekttabelle. Schreiben Sie sie in einem folgenden Schritt dann zur Verwendung in eine Tabelle. Die Generierung der Einbettung ist ein teurer Vorgang. Daher verwendet die Abfrage eine Unterabfrage, einschließlich der LIMIT-Klausel, um die Generierung der Einbettung auf 10.000 Bilder zu beschränken, anstatt das vollständige Dataset von 601.294 Bildern einzubetten. Dies trägt auch dazu bei, die Anzahl der Bilder unter dem Limit von 25.000 für die ML.GENERATE_EMBEDDING-Funktion zu halten. Diese Abfrage dauert ca. 40 Minuten.

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Führen Sie im Abfrageeditor folgende Abfrage aus:

    CREATE OR REPLACE TABLE `bqml_tutorial.met_image_embeddings`
    AS
    SELECT *
    FROM
      ML.GENERATE_EMBEDDING(
        MODEL `bqml_tutorial.multimodal_embedding_model`,
        (SELECT * FROM `bqml_tutorial.met_images` WHERE content_type = 'image/jpeg' LIMIT 10000))

Fehler bei der Einbettungserstellung beheben

Prüfen Sie, ob Fehler bei der Generierung von Einbettungen aufgetreten sind, und beheben Sie sie. Die Generierung von Einbettungen kann aufgrund von Kontingenten für generative KI in Vertex AI oder der Nichtverfügbarkeit von Diensten fehlschlagen.

Die Funktion ML.GENERATE_EMBEDDING gibt Fehlerdetails in der Spalte ml_generate_embedding_status zurück. Diese Spalte ist leer, wenn die Einbettung erfolgreich generiert wurde. Andernfalls enthält sie eine Fehlermeldung.

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Führen Sie im Abfrageeditor die folgende Abfrage aus, um zu prüfen, ob Fehler bei der Generierung von Einbettungen aufgetreten sind:

    SELECT DISTINCT(ml_generate_embedding_status),
      COUNT(uri) AS num_rows
    FROM bqml_tutorial.met_image_embeddings
    GROUP BY 1;
  3. Wenn Zeilen mit Fehlern zurückgegeben werden, entfernen Sie alle Zeilen, in denen die Einbettungserstellung fehlgeschlagen ist:

    DELETE FROM `bqml_tutorial.met_image_embeddings`
    WHERE ml_generate_embedding_status = 'A retryable error occurred: RESOURCE_EXHAUSTED error from remote service/endpoint.';

Vektorindex erstellen

Optional können Sie die Anweisung CREATE VECTOR INDEX verwenden, um den Vektorindex met_images_index für die Spalte ml_generate_embedding_result der Tabelle met_images_embeddings zu erstellen. Mit einem Vektorindex können Sie eine Vektorsuche schneller durchführen, mit dem Kompromiss, dass der Recall reduziert wird und somit ungefähre Ergebnisse zurückgegeben werden.

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Führen Sie im Abfrageeditor folgende Abfrage aus:

    CREATE OR REPLACE
      VECTOR INDEX `met_images_index`
    ON
      bqml_tutorial.met_image_embeddings(ml_generate_embedding_result)
      OPTIONS (
        index_type = 'IVF',
        distance_type = 'COSINE');
  3. Der Vektorindex wird asynchron erstellt. Um zu prüfen, ob der Vektorindex erstellt wurde, fragen Sie die Ansicht INFORMATION_SCHEMA.VECTOR_INDEXES ab und bestätigen, dass der Wert coverage_percentage größer als 0 ist und der Wert last_refresh_time nicht NULL ist:

    SELECT table_name, index_name, index_status,
      coverage_percentage, last_refresh_time, disable_reason
    FROM bqml_tutorial.INFORMATION_SCHEMA.VECTOR_INDEXES
    WHERE index_name = 'met_images_index';

Einbettung für den Suchtext generieren

Wenn Sie nach Bildern suchen möchten, die einem bestimmten Textsuchstring entsprechen, müssen Sie zuerst eine Texteinbettung für diesen String erstellen. Verwenden Sie dasselbe Remote-Modell, um die Texteinbettung zu erstellen, die Sie zum Erstellen der Bildeinbettungen verwendet haben, und schreiben Sie die Texteinbettung dann zur Verwendung in einem folgenden Schritt in eine Tabelle. Der Suchstring ist pictures of white or cream colored dress from victorian era.

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Führen Sie im Abfrageeditor folgende Abfrage aus:

    CREATE OR REPLACE TABLE `bqml_tutorial.search_embedding`
    AS
    SELECT * FROM ML.GENERATE_EMBEDDING(
      MODEL `bqml_tutorial.multimodal_embedding_model`,
      (
        SELECT 'pictures of white or cream colored dress from victorian era' AS content
      )
    );

Verwenden Sie die VECTOR_SEARCH-Funktion, um eine semantische Suche nach Bildern durchzuführen, die am besten dem durch die Texteinbettung repräsentierten Suchstring entsprechen.

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Führen Sie im Abfrageeditor die folgende Abfrage aus, um eine semantische Suche durchzuführen und die Ergebnisse in eine Tabelle zu schreiben:

    CREATE OR REPLACE TABLE `bqml_tutorial.vector_search_results` AS
    SELECT base.uri AS gcs_uri, distance
    FROM
      VECTOR_SEARCH(
        TABLE `bqml_tutorial.met_image_embeddings`,
        'ml_generate_embedding_result',
        TABLE `bqml_tutorial.search_embedding`,
        'ml_generate_embedding_result',
        top_k => 3);

Semantische Suchergebnisse visualisieren

Semantische Suchergebnisse mit einem Notebook visualisieren

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Öffnen Sie das Notebook met-image-analysis, das Sie zuvor erstellt haben.

  3. Vektorsuchergebnisse visualisieren:

    1. Fügen Sie dem Notebook eine Codezelle hinzu.
    2. Kopieren Sie den folgenden Code in die Codezelle:

      query = """
        SELECT * FROM `bqml_tutorial.vector_search_results`
        ORDER BY distance;
      """
      
      printImages(client.query(query))
      
    3. Führen Sie die Codezelle aus.

      Die Antwort sollte in etwa so aussehen:

      Bilder, die von einer multimodalen Vektorsuche zurückgegeben wurden.

Bereinigen

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.