Membuat, menggunakan, dan mengelola pengklasifikasi dokumen kustom

Gunakan pengklasifikasi kustom untuk mengklasifikasikan dokumen. Bangun dari awal dengan dokumen Anda sendiri dan kelas kustom. Aspek AI generatifnya memungkinkan pelatihan dan penyesuaian multi-shot. Hal ini meningkatkan akurasi dengan lebih sedikit sampel dan koreksi dengan pelabelan otomatis iteratif.

Pengklasifikasi kustom mencakup tiga kasus penggunaan umum ini.

  • Memanggil model dasar: Gunakan model dasar AI generatif yang telah dilatih sebelumnya untuk mengklasifikasikan dokumen dengan cepat menggunakan label yang Anda berikan.
  • Penyesuaian: Tingkatkan akurasi dengan melatih model dasar AI generatif menggunakan data dan label Anda sendiri.
  • Melatih model kustom: Latih pengekstrak kustom AI non-generatif menggunakan data dan label Anda sendiri.

Versi model pengklasifikasi kustom

Versi model Deskripsi Saluran rilis Pemrosesan ML di Amerika Serikat/Uni Eropa Penyesuaian di Amerika Serikat/Uni Eropa Tanggal rilis
pretrained-foundation-model-v1.4-2025-06-16 Kandidat rilis yang didukung oleh LLM Gemini 2.0 Flash. Juga mencakup fitur OCR lanjutan. Kandidat Rilis Ya Amerika Serikat, Uni Eropa (Pratinjau) 16 Juni 2025

Membuat pengklasifikasi kustom di konsol Google Cloud

Anda dapat membuat pengklasifikasi kustom yang secara khusus cocok dengan dokumen Anda, serta dilatih dan dievaluasi dengan data Anda. Pemroses ini mengidentifikasi kelas dokumen dari serangkaian kelas yang ditentukan pengguna. Kemudian, Anda dapat menggunakan prosesor terlatih ini pada dokumen tambahan. Biasanya, Anda akan menggunakan pengklasifikasi kustom pada dokumen yang memiliki jenis berbeda, lalu menggunakan identifikasi untuk meneruskan dokumen ke pemroses ekstraksi guna mengekstrak entitas.

Untuk proses umum dalam membuat dan menggunakan prosesor, lihat bagian Cara.

Anda dapat membuat pilihan konfigurasi sendiri yang sesuai dengan alur kerja Anda.


Untuk mengikuti panduan langkah demi langkah tugas ini langsung di Google Cloud konsol, klik Pandu saya:

Pandu saya


Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  8. Membuat pemroses

    Selesaikan langkah-langkah berikut.

    1. Buka Workbench

    2. Untuk pengklasifikasi dokumen kustom, pilih Buat prosesor.

      custom-classifier-1

    3. Di menu Buat pemroses, masukkan nama untuk pemroses Anda, seperti my-custom-document-classifier.

      custom-classifier-2

    4. Pilih wilayah yang terdekat dengan Anda.

    5. Pilih Create. Tab Processor Details akan muncul.

    Mengonfigurasi set data

    Untuk melatih prosesor baru ini, Anda harus membuat set data dengan data pelatihan dan pengujian untuk membantu prosesor mengidentifikasi dokumen yang ingin Anda pisahkan dan klasifikasikan. Set data ini memerlukan lokasi baru. Ini dapat berupa bucket Cloud Storage atau folder kosong, atau Anda dapat mengizinkan lokasi yang dikelola secara internal.

    Setelah tab Detail Pemroses muncul, Anda dapat:

    1. Pilih Penyimpanan yang dikelola Google jika Anda ingin menggunakan Cloud Storage.
    2. Pilih Saya akan menentukan lokasi penyimpanan saya sendiri jika Anda ingin menggunakan penyimpanan Anda sendiri untuk menggunakan Kunci Enkripsi yang Dikelola Pelanggan (CMEK), dan ikuti prosedur di Membuat set data.

    custom-classifier-3

    Mengimpor dokumen ke dalam set data

    Selanjutnya, Anda mengimpor dokumen ke dalam set data.

    1. Di tab Build, pilih Impor dokumen.

      custom-classifier-6

    2. Saat memilih untuk menggunakan bucket penyimpanan, Anda harus memasukkan Jalur Sumber untuk bucket tersebut. Untuk contoh pelatihan ini, masukkan nama bucket ini di Jalur sumber. Link ini langsung menuju ke satu dokumen.

      cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
      
    3. Untuk Pemisahan data, pilih Tidak ditetapkan. Dokumen dalam folder ini tidak ditetapkan ke set pengujian atau pelatihan. Biarkan Impor dengan pemberian label otomatis tidak dicentang.

    4. Pilih Impor Document AI membaca dokumen dari bucket ke dalam set data. Tidak mengubah bucket impor atau membaca dari bucket setelah impor selesai.

    5. Opsional: Untuk menghapus dokumen yang diimpor, di tab Build, buka Manage dataset > pilih dokumen > klik Delete.

    Saat mengimpor dokumen, Anda dapat secara opsional menetapkan dokumen ke set Pelatihan atau Pengujian saat diimpor, atau menunggu untuk menetapkannya nanti.

    Untuk mengetahui informasi selengkapnya tentang cara menyiapkan data untuk diimpor, lihat Panduan persiapan data.

    Tentukan skema pemroses

    Anda dapat membuat skema pemroses sebelum atau setelah mengimpor dokumen ke dalam set data. Skema ini menyediakan label yang Anda gunakan untuk menganotasi dokumen.

    1. Di tab Build, pilih Manage Dataset > Edit Schema. Halaman Edit skema akan terbuka.

    2. Pilih Buat label.

    3. Masukkan nama untuk label.

    4. Pilih Create. Lihat Menentukan skema pemroses untuk mengetahui petunjuk mendetail tentang cara membuat dan mengedit skema.

    5. Buat setiap label berikut untuk skema prosesor.

      • computer_vision
      • crypto
      • med_tech
      • other
    6. Pilih Simpan setelah label selesai.

      custom-classifier-7

    Memberi label dokumen

    Proses memilih teks dalam dokumen dan menerapkan label dikenal sebagai anotasi.

    1. Kembali ke tab Build, lalu pilih dokumen untuk membuka konsol Manage Dataset.

    2. Di antara opsi, pilih label yang sesuai untuk dokumen. Jika Anda menggunakan dokumen contoh yang disediakan, pilih computer_vision.

      Setelah diberi label, dokumen akan terlihat seperti ini: custom-classifier-8

    3. Pilih Tandai sebagai Berlabel setelah Anda selesai memberi anotasi pada dokumen.

      Di tab Manage Dataset, panel Document menunjukkan bahwa satu dokumen telah diberi label.

    Menetapkan dokumen beranotasi ke set pelatihan

    Setelah memberi label pada contoh dokumen ini, Anda dapat menetapkannya ke set pelatihan.

    1. Di tab Kelola Set Data, centang kotak Pilih Semua.

    2. Dari daftar Tetapkan ke Set, pilih Training.

    Di panel Dokumen, Anda dapat menemukan bahwa satu dokumen telah ditetapkan ke set pelatihan.

    Mengimpor data yang telah diberi label ke set pelatihan dan pengujian

    Dalam panduan ini, Anda akan diberikan data yang telah diberi label. Jika mengerjakan proyek Anda sendiri, Anda harus menentukan cara memberi label pada data Anda. Lihat Opsi pemberian label.

    Prosesor kustom Document AI memerlukan minimal satu dokumen dalam set pelatihan dan pengujian untuk setiap jenis dokumen yang akan diberi label. Sebaiknya Anda memiliki minimal 10 dokumen untuk setiap label agar mendapatkan performa terbaik. Untuk 5 label, Anda memerlukan 50 dokumen untuk pelatihan dan 50 dokumen untuk pengujian. Makin banyak data pelatihan, biasanya makin tinggi akurasinya.

    1. Pilih Impor dokumen.

    2. Masukkan jalur berikut di Source path. Bucket ini berisi dokumen yang telah diberi label sebelumnya dalam format JSON Dokumen.

      cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
      
    3. Dari daftar Data split, pilih Auto-split. Hal ini akan otomatis membagi dokumen menjadi 80% di set pelatihan dan 20% di set pengujian. Abaikan bagian Terapkan label.

    4. Pilih Impor Proses impor mungkin memerlukan waktu beberapa menit.

    Setelah impor selesai, Anda akan menemukan dokumen di tab Kelola Set Data.

    Memberi label pada dokumen dalam batch saat mengimpor

    Secara opsional, setelah skema dikonfigurasi, Anda dapat memberi label pada semua dokumen yang ada di direktori tertentu saat mengimpor untuk menghemat waktu pelabelan.

    custom-classifier-9

    1. Pilih Impor dokumen.

    2. Masukkan jalur berikut di Source path. Bucket ini berisi dokumen tanpa label dalam format PDF.

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
      
    3. Dari daftar Data split, pilih Auto-split. Hal ini akan otomatis membagi dokumen menjadi 80% di set pelatihan dan 20% di set pengujian.

    4. Di bagian Terapkan label, pilih Pilih label.

    5. Untuk dokumen contoh ini, pilih other.

    6. Pilih Impor dan tunggu hingga proses selesai. Anda dapat keluar dari halaman ini dan kembali lagi nanti. Setelah selesai, Anda akan menemukan dokumen di tab Manage Dataset dengan label yang diterapkan.

    Melatih pemroses

    Setelah mengimpor data pelatihan dan pengujian, Anda dapat melatih prosesor. Karena pelatihan mungkin memerlukan waktu beberapa jam, pastikan Anda telah menyiapkan pemroses dengan data dan label yang sesuai sebelum memulai pelatihan.

    Anda dapat melatih model yang disesuaikan dan model kustom dengan data berlabel Anda. Model yang dioptimalkan menggunakan AI generatif. Model kustom melatih Model bahasa besar (LLM) unik menggunakan data berlabel Anda. Anda memerlukan minimal dua label dalam skema, dengan rekomendasi sepuluh dokumen pelatihan dan 10 dokumen pengujian (minimal 1).

    1. Pilih Train New Version.
    custom-classifier-10
    1. Di kolom Nama versi, masukkan nama untuk versi pemroses ini, seperti my-cdc-version-1.

    2. Opsional: Pilih Lihat Statistik Label untuk menemukan informasi tentang label dokumen yang dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.

    3. Pilih Mulai pelatihan. Anda dapat memeriksa statusnya di panel samping.

    Men-deploy versi pemroses

    1. Setelah pelatihan selesai, buka tab Kelola Versi. Anda dapat melihat detail tentang versi yang baru saja Anda latih.

    2. Pilih di samping versi yang ingin Anda deploy, lalu pilih Deploy versi.

    3. Pilih Deploy dari jendela dialog.

      Proses deployment memerlukan waktu beberapa menit hingga selesai.

    Mengevaluasi dan menguji pemroses

    1. Setelah deployment selesai, buka tab Evaluate & Test.

      Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, presisi, dan perolehan untuk dokumen lengkap, dan masing-masing label. Untuk mengetahui informasi selengkapnya tentang evaluasi dan statistik, lihat Mengevaluasi prosesor.

    2. Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya agar Anda dapat menggunakannya untuk mengevaluasi versi pemroses. Jika menggunakan data Anda sendiri, Anda akan menggunakan dokumen yang disisihkan untuk tujuan ini.

      Download PDF

    3. Pilih Upload Test Document , lalu pilih dokumen yang baru saja Anda download.

      Halaman Analisis Pengklasifikasi Dokumen Kustom akan terbuka. Output menunjukkan seberapa baik dokumen diklasifikasikan.

      Anda juga dapat menjalankan kembali evaluasi terhadap set pengujian atau versi prosesor yang berbeda.

    Otomatis melabeli dokumen yang baru diimpor

    Setelah menerapkan versi prosesor terlatih, Anda dapat menggunakan Pelabelan otomatis untuk menghemat waktu pelabelan saat mengimpor dokumen baru.

    1. Di halaman Kelola Set Data, Impor dokumen.

    2. Salin dan tempel jalur Cloud Storage berikut. Direktori ini berisi lima PDF paten tanpa label. Dari daftar drop-down Data split, pilih Training.

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
      
    3. Di bagian Terapkan label, pilih Pemberian label otomatis.

    4. Pilih versi prosesor yang ada untuk melabeli dokumen.

      • Contoh: 2af620b2fd4d1fcf
    5. Pilih Impor dan tunggu hingga proses selesai. Anda dapat keluar dari halaman ini dan kembali lagi nanti. Setelah selesai, dokumen akan muncul di bagian Auto-labeled di halaman Manage Dataset.

    6. Anda tidak dapat menggunakan dokumen berlabel otomatis untuk pelatihan atau pengujian tanpa menandainya sebagai berlabel. Buka bagian Berlabel otomatis untuk melihat dokumen berlabel otomatis.

    7. Pilih dokumen pertama untuk masuk ke konsol pelabelan.

    8. Verifikasi label untuk memastikan keakuratannya. Sesuaikan jika salah.

    9. Pilih Tandai sebagai Berlabel setelah selesai.

    10. Ulangi verifikasi label untuk setiap dokumen yang diberi label otomatis, lalu kembali ke halaman Kelola Set Data untuk menetapkan data untuk pelatihan.

    Menggunakan prosesor

    Anda dapat mengelola versi prosesor yang dilatih kustom seperti versi prosesor lainnya. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.

    Anda juga dapat Mengirim permintaan pemrosesan ke prosesor kustom, dan respons dapat ditangani sama seperti prosesor pengklasifikasi lainnya.

    Pembersihan

    Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

    1. Di menu navigasi konsol Google Cloud , pilih Document AI, lalu My Processors.

    2. Pilih Tindakan lainnya di baris yang sama dengan pemroses yang ingin Anda hapus.

    3. Pilih Hapus pemroses, masukkan nama pemroses, lalu pilih Hapus lagi untuk mengonfirmasi.

    Langkah berikutnya