Membuat, menggunakan, dan mengelola pengklasifikasi dokumen kustom
Gunakan pengklasifikasi kustom untuk mengklasifikasikan dokumen. Bangun dari awal dengan dokumen Anda sendiri dan kelas kustom. Aspek AI generatifnya memungkinkan pelatihan dan penyesuaian multi-shot. Hal ini meningkatkan akurasi dengan lebih sedikit sampel dan koreksi dengan pelabelan otomatis iteratif.
Pengklasifikasi kustom mencakup tiga kasus penggunaan umum ini.
- Memanggil model dasar: Gunakan model dasar AI generatif yang telah dilatih sebelumnya untuk mengklasifikasikan dokumen dengan cepat menggunakan label yang Anda berikan.
- Penyesuaian: Tingkatkan akurasi dengan melatih model dasar AI generatif menggunakan data dan label Anda sendiri.
- Melatih model kustom: Latih pengekstrak kustom AI non-generatif menggunakan data dan label Anda sendiri.
Versi model pengklasifikasi kustom
Versi model | Deskripsi | Saluran rilis | Pemrosesan ML di Amerika Serikat/Uni Eropa | Penyesuaian di Amerika Serikat/Uni Eropa | Tanggal rilis |
---|---|---|---|---|---|
pretrained-foundation-model-v1.4-2025-06-16 |
Kandidat rilis yang didukung oleh LLM Gemini 2.0 Flash. Juga mencakup fitur OCR lanjutan. | Kandidat Rilis | Ya | Amerika Serikat, Uni Eropa (Pratinjau) | 16 Juni 2025 |
Membuat pengklasifikasi kustom di konsol Google Cloud
Anda dapat membuat pengklasifikasi kustom yang secara khusus cocok dengan dokumen Anda, serta dilatih dan dievaluasi dengan data Anda. Pemroses ini mengidentifikasi kelas dokumen dari serangkaian kelas yang ditentukan pengguna. Kemudian, Anda dapat menggunakan prosesor terlatih ini pada dokumen tambahan. Biasanya, Anda akan menggunakan pengklasifikasi kustom pada dokumen yang memiliki jenis berbeda, lalu menggunakan identifikasi untuk meneruskan dokumen ke pemroses ekstraksi guna mengekstrak entitas.
Untuk proses umum dalam membuat dan menggunakan prosesor, lihat bagian Cara.
Anda dapat membuat pilihan konfigurasi sendiri yang sesuai dengan alur kerja Anda.
Untuk mengikuti panduan langkah demi langkah tugas ini langsung di Google Cloud konsol, klik Pandu saya:
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Buka Workbench
Untuk pengklasifikasi dokumen kustom, pilih
Buat prosesor .Di menu Buat pemroses, masukkan nama untuk pemroses Anda, seperti
my-custom-document-classifier
.Pilih wilayah yang terdekat dengan Anda.
Pilih Create. Tab Processor Details akan muncul.
- Pilih Penyimpanan yang dikelola Google jika Anda ingin menggunakan Cloud Storage.
- Pilih Saya akan menentukan lokasi penyimpanan saya sendiri jika Anda ingin menggunakan penyimpanan Anda sendiri untuk menggunakan Kunci Enkripsi yang Dikelola Pelanggan (CMEK), dan ikuti prosedur di Membuat set data.
Di tab Build, pilih
Impor dokumen .Saat memilih untuk menggunakan bucket penyimpanan, Anda harus memasukkan Jalur Sumber untuk bucket tersebut. Untuk contoh pelatihan ini, masukkan nama bucket ini di
Jalur sumber . Link ini langsung menuju ke satu dokumen.cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
Untuk Pemisahan data, pilih Tidak ditetapkan. Dokumen dalam folder ini tidak ditetapkan ke set pengujian atau pelatihan. Biarkan Impor dengan pemberian label otomatis tidak dicentang.
Pilih Impor Document AI membaca dokumen dari bucket ke dalam set data. Tidak mengubah bucket impor atau membaca dari bucket setelah impor selesai.
Opsional: Untuk menghapus dokumen yang diimpor, di tab Build, buka Manage dataset > pilih dokumen > klik Delete.
Di tab Build, pilih Manage Dataset > Edit Schema. Halaman Edit skema akan terbuka.
Pilih
Buat label .Masukkan nama untuk label.
Pilih Create. Lihat Menentukan skema pemroses untuk mengetahui petunjuk mendetail tentang cara membuat dan mengedit skema.
Buat setiap label berikut untuk skema prosesor.
computer_vision
crypto
med_tech
other
Pilih
Simpan setelah label selesai.Kembali ke tab Build, lalu pilih
dokumen untuk membuka konsol Manage Dataset.Di antara
opsi , pilih label yang sesuai untuk dokumen. Jika Anda menggunakan dokumen contoh yang disediakan, pilihcomputer_vision
.Setelah diberi label, dokumen akan terlihat seperti ini:
Pilih
Tandai sebagai Berlabel setelah Anda selesai memberi anotasi pada dokumen.Di tab Manage Dataset, panel Document menunjukkan bahwa satu dokumen telah diberi label.
Di tab Kelola Set Data, centang kotak
Pilih Semua .Dari daftar
Tetapkan ke Set , pilih Training.Pilih
Impor dokumen .Masukkan jalur berikut di
Source path . Bucket ini berisi dokumen yang telah diberi label sebelumnya dalam format JSON Dokumen.cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
Dari daftar Data split, pilih Auto-split. Hal ini akan otomatis membagi dokumen menjadi 80% di set pelatihan dan 20% di set pengujian. Abaikan bagian Terapkan label.
Pilih Impor Proses impor mungkin memerlukan waktu beberapa menit.
Pilih
Impor dokumen .Masukkan jalur berikut di
Source path . Bucket ini berisi dokumen tanpa label dalam format PDF.cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
Dari daftar Data split, pilih Auto-split. Hal ini akan otomatis membagi dokumen menjadi 80% di set pelatihan dan 20% di set pengujian.
Di bagian Terapkan label, pilih Pilih label.
Untuk dokumen contoh ini, pilih
other
.Pilih Impor dan tunggu hingga proses selesai. Anda dapat keluar dari halaman ini dan kembali lagi nanti. Setelah selesai, Anda akan menemukan dokumen di tab Manage Dataset dengan label yang diterapkan.
- Pilih
Train New Version . Di kolom
Nama versi , masukkan nama untuk versi pemroses ini, sepertimy-cdc-version-1
.Opsional: Pilih Lihat Statistik Label untuk menemukan informasi tentang label dokumen yang dapat membantu menentukan cakupan Anda. Pilih Tutup untuk kembali ke penyiapan pelatihan.
Pilih
Mulai pelatihan. Anda dapat memeriksa statusnya di panel samping.Setelah pelatihan selesai, buka tab
Kelola Versi . Anda dapat melihat detail tentang versi yang baru saja Anda latih.Pilih
di samping versi yang ingin Anda deploy, lalu pilih Deploy versi. Pilih
Deploy dari jendela dialog.Proses deployment memerlukan waktu beberapa menit hingga selesai.
Setelah deployment selesai, buka tab
Evaluate & Test .Di halaman ini, Anda dapat melihat metrik evaluasi termasuk skor F1, presisi, dan perolehan untuk dokumen lengkap, dan masing-masing label. Untuk mengetahui informasi selengkapnya tentang evaluasi dan statistik, lihat Mengevaluasi prosesor.
Download dokumen yang belum pernah digunakan dalam pelatihan atau pengujian sebelumnya agar Anda dapat menggunakannya untuk mengevaluasi versi pemroses. Jika menggunakan data Anda sendiri, Anda akan menggunakan dokumen yang disisihkan untuk tujuan ini.
Pilih
Upload Test Document , lalu pilih dokumen yang baru saja Anda download.Halaman Analisis Pengklasifikasi Dokumen Kustom akan terbuka. Output menunjukkan seberapa baik dokumen diklasifikasikan.
Anda juga dapat menjalankan kembali evaluasi terhadap set pengujian atau versi prosesor yang berbeda.
Di halaman Kelola Set Data,
Impor dokumen .Salin dan tempel jalur Cloud Storage berikut. Direktori ini berisi lima PDF paten tanpa label. Dari daftar drop-down Data split, pilih Training.
cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
Di bagian Terapkan label, pilih Pemberian label otomatis.
Pilih versi prosesor yang ada untuk melabeli dokumen.
- Contoh:
2af620b2fd4d1fcf
- Contoh:
Pilih Impor dan tunggu hingga proses selesai. Anda dapat keluar dari halaman ini dan kembali lagi nanti. Setelah selesai, dokumen akan muncul di bagian Auto-labeled di halaman Manage Dataset.
Anda tidak dapat menggunakan dokumen berlabel otomatis untuk pelatihan atau pengujian tanpa menandainya sebagai berlabel. Buka bagian
Berlabel otomatis untuk melihat dokumen berlabel otomatis.Pilih dokumen pertama untuk masuk ke konsol pelabelan.
Verifikasi label untuk memastikan keakuratannya. Sesuaikan jika salah.
Pilih
Tandai sebagai Berlabel setelah selesai.Ulangi verifikasi label untuk setiap dokumen yang diberi label otomatis, lalu kembali ke halaman Kelola Set Data untuk menetapkan data untuk pelatihan.
Di menu navigasi konsol Google Cloud , pilih Document AI, lalu My Processors.
Pilih
Tindakan lainnya di baris yang sama dengan pemroses yang ingin Anda hapus.Pilih Hapus pemroses, masukkan nama pemroses, lalu pilih Hapus lagi untuk mengonfirmasi.
- Untuk mengetahui detail selengkapnya, lihat Panduan.
- Tinjau daftar pemroses.
- Pisahkan dokumen menjadi bagian-bagian yang mudah dibaca dengan Layout Parser.
- Gunakan Enterprise Document OCR untuk mendeteksi dan mengekstrak teks.
Membuat pemroses
Selesaikan langkah-langkah berikut.
Mengonfigurasi set data
Untuk melatih prosesor baru ini, Anda harus membuat set data dengan data pelatihan dan pengujian untuk membantu prosesor mengidentifikasi dokumen yang ingin Anda pisahkan dan klasifikasikan. Set data ini memerlukan lokasi baru. Ini dapat berupa bucket Cloud Storage atau folder kosong, atau Anda dapat mengizinkan lokasi yang dikelola secara internal.
Setelah tab Detail Pemroses muncul, Anda dapat:
Mengimpor dokumen ke dalam set data
Selanjutnya, Anda mengimpor dokumen ke dalam set data.
Saat mengimpor dokumen, Anda dapat secara opsional menetapkan dokumen ke set Pelatihan atau Pengujian saat diimpor, atau menunggu untuk menetapkannya nanti.
Untuk mengetahui informasi selengkapnya tentang cara menyiapkan data untuk diimpor, lihat Panduan persiapan data.
Tentukan skema pemroses
Anda dapat membuat skema pemroses sebelum atau setelah mengimpor dokumen ke dalam set data. Skema ini menyediakan label yang Anda gunakan untuk menganotasi dokumen.
Memberi label dokumen
Proses memilih teks dalam dokumen dan menerapkan label dikenal sebagai anotasi.
Menetapkan dokumen beranotasi ke set pelatihan
Setelah memberi label pada contoh dokumen ini, Anda dapat menetapkannya ke set pelatihan.
Di panel Dokumen, Anda dapat menemukan bahwa satu dokumen telah ditetapkan ke set pelatihan.
Mengimpor data yang telah diberi label ke set pelatihan dan pengujian
Dalam panduan ini, Anda akan diberikan data yang telah diberi label. Jika mengerjakan proyek Anda sendiri, Anda harus menentukan cara memberi label pada data Anda. Lihat Opsi pemberian label.
Prosesor kustom Document AI memerlukan minimal satu dokumen dalam set pelatihan dan pengujian untuk setiap jenis dokumen yang akan diberi label. Sebaiknya Anda memiliki minimal 10 dokumen untuk setiap label agar mendapatkan performa terbaik. Untuk 5 label, Anda memerlukan 50 dokumen untuk pelatihan dan 50 dokumen untuk pengujian. Makin banyak data pelatihan, biasanya makin tinggi akurasinya.
Setelah impor selesai, Anda akan menemukan dokumen di tab Kelola Set Data.
Memberi label pada dokumen dalam batch saat mengimpor
Secara opsional, setelah skema dikonfigurasi, Anda dapat memberi label pada semua dokumen yang ada di direktori tertentu saat mengimpor untuk menghemat waktu pelabelan.
Melatih pemroses
Setelah mengimpor data pelatihan dan pengujian, Anda dapat melatih prosesor. Karena pelatihan mungkin memerlukan waktu beberapa jam, pastikan Anda telah menyiapkan pemroses dengan data dan label yang sesuai sebelum memulai pelatihan.
Anda dapat melatih model yang disesuaikan dan model kustom dengan data berlabel Anda. Model yang dioptimalkan menggunakan AI generatif. Model kustom melatih Model bahasa besar (LLM) unik menggunakan data berlabel Anda. Anda memerlukan minimal dua label dalam skema, dengan rekomendasi sepuluh dokumen pelatihan dan 10 dokumen pengujian (minimal 1).

Men-deploy versi pemroses
Mengevaluasi dan menguji pemroses
Otomatis melabeli dokumen yang baru diimpor
Setelah menerapkan versi prosesor terlatih, Anda dapat menggunakan Pelabelan otomatis untuk menghemat waktu pelabelan saat mengimpor dokumen baru.
Menggunakan prosesor
Anda dapat mengelola versi prosesor yang dilatih kustom seperti versi prosesor lainnya. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.
Anda juga dapat Mengirim permintaan pemrosesan ke prosesor kustom, dan respons dapat ditangani sama seperti prosesor pengklasifikasi lainnya.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.