Questo tutorial mostra come eseguire il deployment di un job che replica continuamente i dati modificati da un database Oracle a un set di dati BigQuery utilizzando la replica di Cloud Data Fusion. Questa funzionalità è basata su Datastream.
Obiettivi
In questo tutorial:
- Configura il database Oracle per abilitare il logging supplementare.
- Crea ed esegui un job di replica Cloud Data Fusion.
- Visualizza i risultati in BigQuery.
Costi
In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il calcolatore prezzi.
Quando viene eseguita la replica, ti vengono addebitati i costi per il cluster Dataproc e Cloud Storage e vengono addebitati i costi di elaborazione per Datastream e BigQuery. Per ottimizzare questi costi, ti consigliamo vivamente di utilizzare i prezzi a tariffa fissa di BigQuery.
Prima di iniziare
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.
- Crea un'istanza Cloud Data Fusion pubblica nella versione 6.3.0 o successive. Se
crei un'istanza
privata, configura il peering di rete VPC.
- Quando crei l'istanza, abilita la replica facendo clic su Aggiungi acceleratori e selezionando la casella di controllo Replica.
- Per abilitarla in un'istanza esistente, vedi Abilitare la replica.
- Dataproc Worker (
roles/dataproc.worker
) sul account di servizio Dataproc nel progetto che contiene il cluster - Cloud Data Fusion Runner sull'account di servizio Dataproc nel progetto che contiene il cluster
- Amministratore DataStream (
roles/datastream.admin
) sull'account di servizio Cloud Data Fusion e sull'account di servizio Dataproc Scarica un'immagine Docker di Oracle Server.
Per le limitazioni di questa immagine di Oracle Express Edition 11g, vedi Oracle Database Editions.
Esegui il deployment dell'immagine Docker su una nuova istanza VM.
Nella pagina Dischi di Compute Engine, modifica le dimensioni del disco in
500 GB
e riavvia la VM.Installa lo schema di esempio HR.
Nell'interfaccia web di Cloud Data Fusion, fai clic su Replicazione.
Fai clic su
Crea un job di replica.Nella pagina Crea nuovo job di replica, specifica un Nome per il job di replica e fai clic su Avanti.
Configura l'origine:
Seleziona Oracle (by Datastream) come origine.
Per Metodo di connettività, se il server Oracle consente il traffico in entrata dagli IP pubblici di Datastream, scegli Lista consentita IP. Altrimenti, per Nome connessione privata, scegli Connettività privata (peering VPC) e inserisci il nome del peering VPC che hai creato nella sezione Crea peering di rete VPC o regola firewall per il tuo server Oracle.
In Host, inserisci il nome host del server Oracle da leggere.
In Porta, inserisci la porta da utilizzare per connetterti a Oracle Server: 1521.
In Identità di sistema, inserisci
xe
(il nome del database di esempio del server Oracle).Nella sezione delle credenziali, inserisci il nome utente e la password per accedere a Oracle Server.
Lascia invariate tutte le altre proprietà.
Fai clic su Avanti.
Configura il target:
Seleziona la destinazione BigQuery.
L'ID progetto e la chiave dell'account di servizio vengono rilevati automaticamente. Mantieni i valori predefiniti così come sono.
(Facoltativo) Nella sezione Avanzate, puoi configurare quanto segue:
- Nome e posizione del bucket di staging
- Intervallo di caricamento
- Prefisso tabella di gestione temporanea
- Comportamento quando vengono eliminate tabelle o database
Fai clic su Avanti.
Se la connessione viene stabilita, viene visualizzato un elenco di tabelle. Per questo tutorial, seleziona alcune tabelle.
Fai clic su Avanti.
Nella pagina Esamina valutazione, fai clic su Visualizza mappature in una delle tabelle per ottenere una valutazione dei problemi dello schema, delle funzionalità mancanti o dei problemi di connettività che potrebbero verificarsi durante la replica.
In caso di problemi, devi risolverli prima di procedere. Per questo tutorial, se una delle tabelle presenta problemi, procedi nel seguente modo:
- Torna al passaggio in cui hai selezionato le tabelle.
- Seleziona una tabella o un evento (inserimenti, aggiornamenti o eliminazioni) senza problemi.
Per ulteriori informazioni sulle conversioni dei tipi di dati dal database di origine alla destinazione BigQuery, consulta la sezione Tipi di dati di replica.
Fai clic su Back (Indietro).
Fai clic su Avanti.
Esamina i dettagli del job di replica del riepilogo e poi fai clic su Deploy replication job.
Nell'interfaccia web di Cloud Data Fusion, vai alla pagina Dettagli del job di replica.
Fai clic su Avvia.
Nella pagina Replicazione, fai clic sul nome del job di replicazione scelto.
Fai clic su Monitoraggio.
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro a sinistra, fai clic sul nome del progetto per espandere un elenco di set di dati.
Seleziona il set di dati
xe
, quindi seleziona una tabella da visualizzare.Nella console Google Cloud , vai alla pagina Istanze VM.
Seleziona la casella di controllo per l'istanza da eliminare.
Per eliminare l'istanza, fai clic su Elimina.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
- Scopri di più su Datastream.
- Scopri di più sulla replica in Cloud Data Fusion.
- Consulta il riferimento API di replica.
- Consulta il riferimento alla replica Oracle
- Segui il tutorial per la replica dei dati da MySQL a BigQuery.
- Segui il tutorial per replicare i dati da SQL Server a BigQuery.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per connetterti a un database Oracle, chiedi all'amministratore di concederti i seguenti ruoli IAM:
Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
(Facoltativo) Installa Oracle in Compute Engine
Questa sezione mostra come configurare un database di esempio. Se hai già installato un database Oracle, puoi saltare questa sezione.
Crea il peering di rete VPC o la regola firewall per il tuo server Oracle
Se il tuo database Oracle non consente il traffico in entrata dagli indirizzi IP pubblici, configura il peering di rete VPC tra il VPC Datastream e il VPC in cui è possibile accedere al tuo database Oracle. Per ulteriori informazioni, vedi Creare una configurazione di connettività privata.
Se il tuo database Oracle consente il traffico in entrata da indirizzi IP pubblici, crea una regola firewall per la VM per consentire il traffico in entrata da IP pubblici di Datastream.
Configura il server Oracle per attivare il logging supplementare
Segui i passaggi per configurare il database Oracle di origine.
Crea ed esegui un job di replica Cloud Data Fusion
Crea il lavoro
Avviare il job
Il job di replica passa dallo stato In fase di provisioning a In fase di avvio a In esecuzione. Nello stato di esecuzione, il job di replica carica uno snapshot iniziale dei dati della tabella selezionata in BigQuery. In questo stato, lo stato della tabella è elencato come Snapshotting. Dopo il caricamento dello snapshot iniziale in BigQuery, tutte le modifiche apportate alla tabella vengono replicate in BigQuery e lo stato della tabella viene visualizzato come Replica in corso.
Monitorare il job
Puoi avviare e interrompere il job di replica, rivedere la sua configurazione e i log e monitorare il job di replica.
Puoi monitorare le attività del job di replica dalla pagina Dettagli job di replica.
Visualizza i risultati in BigQuery
Il job di replica crea un set di dati e una tabella replicati in BigQuery, con nomi ereditati dal database e dalla tabella Oracle corrispondenti.
Per ulteriori informazioni, consulta la documentazione di BigQuery.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Al termine del tutorial, elimina le risorse che hai creato suGoogle Cloud in modo che non occupino quota e non ti vengano addebitate in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.
Elimina l'istanza VM
Elimina l'istanza Cloud Data Fusion.
Segui le istruzioni per eliminare l'istanza Cloud Data Fusion.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto creato per il tutorial.
Per eliminare il progetto: