Mengotomatiskan pemrosesan dokumen dengan menggunakan Kecerdasan Dokumen AI

Pencarian Azure AI
Azure AI services
Azure Cosmos DB
Kecerdasan Dokumen Azure AI
Azure Machine Learning

Artikel ini menguraikan solusi yang dapat diskalakan dan aman untuk membangun alur pemrosesan dokumen otomatis. Solusi ini menggunakan Kecerdasan Dokumen AI untuk ekstraksi data terstruktur. Model pemrosesan bahasa alami (NLP) dan model kustom memperkaya data.

Sistem

Diagram arsitektur yang menunjukkan bagaimana data mengalir melalui tahap ekstraksi, pengayaan, dan analitik pemrosesan dokumen.

Unduh file Visio arsitektur ini.

Aliran data

Bagian berikut menjelaskan berbagai tahap proses ekstraksi data.

Penyerapan dan ekstraksi data

  1. Dokumen diserap melalui browser di ujung depan aplikasi web. Dokumen berisi gambar atau dalam format PDF. Azure App Service menghosting aplikasi back-end. Solusi merutekan dokumen ke aplikasi tersebut melalui Azure Application Gateway. Load balancer ini berjalan dengan Azure Web Application Firewall, yang membantu melindungi aplikasi dari serangan dan kerentanan umum.

  2. Aplikasi back-end memposting permintaan ke titik akhir REST API Kecerdasan Dokumen Azure AI yang menggunakan salah satu model ini:

    Respons dari Azure AI Document Intelligence berisi data pengenalan karakter optik mentah (OCR) dan ekstraksi terstruktur. Kecerdasan Dokumen Azure AI juga menetapkan [nilai keyakinan][Karakteristik dan batasan Form Recognizer - Evaluasi pelanggan] ke data yang diekstrak.

  3. Aplikasi back-end App Service menggunakan nilai keyakinan untuk memeriksa kualitas ekstraksi. Jika kualitas di bawah ambang yang ditentukan, aplikasi menandai data untuk verifikasi manual. Ketika kualitas ekstraksi memenuhi persyaratan, data memasuki Azure Cosmos DB untuk konsumsi aplikasi hilir. Aplikasi ini juga dapat mengembalikan hasilnya ke browser front-end.

  4. Sumber lain menyediakan gambar, file PDF, dan dokumen lainnya. Sumber termasuk lampiran email dan server Protokol Transfer File (FTP). Alat seperti Azure Data Factory dan AzCopy mentransfer file-file ini ke Azure Blob Storage. Azure Logic Apps menawarkan alur untuk mengekstrak lampiran secara otomatis dari email.

  5. Saat dokumen memasuki Blob Storage, fungsi Azure dipicu. Fungsi :

    • Memposting permintaan ke titik akhir bawaan Azure AI Document Intelligence yang relevan.
    • Menerima respons.
    • Mengevaluasi kualitas ekstraksi.
  6. Data yang diekstrak memasuki Azure Cosmos DB.

Pengayaan data

Alur yang digunakan untuk pengayaan data tergantung pada kasus penggunaan.

  1. Pengayaan data dapat mencakup kemampuan NLP berikut:

    • Pengenalan Entitas Karakter (NER)
    • Ekstraksi informasi pribadi, frasa kunci, informasi kesehatan, dan entitas tergantung domain lainnya

    Untuk memperkaya data, aplikasi web:

  2. Model kustom melakukan deteksi penipuan, analisis risiko, dan jenis analisis lainnya pada data:

    • Layanan Azure Pembelajaran Mesin melatih dan menyebarkan model kustom.
    • Data yang diekstrak diambil dari Azure Cosmos DB.
    • Model mendapatkan wawasan dari data.

    Kemungkinan ini ada untuk inferensi:

  3. Data yang diperkaya memasuki Azure Cosmos DB.

Analitik dan visualisasi

  1. Aplikasi menggunakan OCR mentah, data terstruktur dari titik akhir Azure AI Document Intelligence, dan data yang diperkaya dari NLP:

    • Power BI menampilkan data dan menyajikan laporan di dalamnya.
    • Data berfungsi sebagai sumber untuk Azure Cognitive Search.
    • Aplikasi lain mengonsumsi data.

Komponen

  • App Service adalah penawaran platform as a service (PaaS) di Azure. Anda dapat menggunakan App Service untuk menghosting aplikasi web yang dapat Anda skalakan atau peluasan skala secara manual atau otomatis. Layanan ini mendukung berbagai bahasa dan kerangka kerja, seperti ASP.NET, ASP.NET Core, Java, Ruby, Node.js, PHP, dan Python.

  • Application Gateway adalah load balancer lapisan-7 (lapisan aplikasi) yang mengelola lalu lintas ke aplikasi web. Anda dapat menjalankan Application Gateway dengan Azure Web Application Firewall untuk membantu melindungi aplikasi web dari eksploitasi dan kerentanan umum.

  • Azure Functions adalah platform komputasi tanpa server yang dapat Anda gunakan untuk membangun aplikasi. Dengan Functions, Anda dapat menggunakan pemicu dan pengikatan untuk bereaksi terhadap perubahan dalam layanan Azure seperti Blob Storage dan Azure Cosmos DB. Fungsi dapat menjalankan tugas terjadwal, memproses data secara real time, dan memproses antrean olahpesan.

  • Kecerdasan Dokumen Azure AI adalah bagian dari layanan Azure AI. Azure AI Document Intelligence menawarkan kumpulan titik akhir bawaan untuk mengekstrak data dari faktur, dokumen, tanda terima, kartu ID, dan kartu nama. Layanan ini memetakan setiap bagian data yang diekstrak ke bidang sebagai pasangan kunci-nilai. Kecerdasan Dokumen Azure AI juga mengekstrak konten dan struktur tabel. Format outputnya adalah JSON.

  • Azure Storage adalah solusi penyimpanan cloud yang mencakup penyimpanan objek, blob, file, disk, antrean, dan tabel.

  • Blob Storage adalah layanan yang merupakan bagian dari Azure Storage. Blob Storage menawarkan penyimpanan objek cloud yang dioptimalkan untuk sejumlah besar data tidak terstruktur.

  • Azure Data Lake Storage adalah data lake yang dapat diskalakan dan aman untuk beban kerja analitik berkinerja tinggi. Data biasanya berasal dari beberapa sumber heterogen dan dapat disusun, semi terstruktur, atau tidak terstruktur. Azure Data Lake Storage Gen2 menggabungkan kemampuan Azure Data Lake Storage Gen1 dengan Blob Storage. Sebagai solusi generasi berikutnya, Data Lake Storage Gen2 menyediakan semantik sistem file, keamanan tingkat file, dan skala. Tetapi juga menawarkan penyimpanan berjenjang, ketersediaan tinggi, dan kemampuan pemulihan bencana Blob Storage.

  • Azure Cosmos DB adalah database NoSQL yang dikelola sepenuhnya, sangat responsif, dan dapat diskalakan. Azure Cosmos DB menawarkan keamanan tingkat perusahaan dan mendukung API untuk banyak database, bahasa, dan platform. Contohnya termasuk SQL, MongoDB, Gremlin, Table, dan Apache Cassandra. Opsi penskalaan otomatis tanpa server di Azure Cosmos DB secara efisien mengelola tuntutan kapasitas aplikasi.

  • Bahasa AI menawarkan banyak layanan NLP yang dapat Anda gunakan untuk memahami dan menganalisis teks. Beberapa layanan ini dapat disesuaikan, seperti NER kustom, klasifikasi teks kustom, pemahaman bahasa percakapan, dan jawaban atas pertanyaan.

  • Pembelajaran Mesin adalah platform terbuka untuk mengelola pengembangan dan penyebaran model pembelajaran mesin dalam skala besar. Pembelajaran Mesin melayani tingkat keterampilan pengguna yang berbeda, seperti ilmuwan data atau analis bisnis. Platform ini mendukung kerangka kerja terbuka yang umum digunakan dan menawarkan fiturisasi dan pemilihan algoritma otomatis. Anda dapat menyebarkan model ke berbagai target. Contohnya termasuk AKS, Azure Container Instances sebagai layanan web untuk inferensi real time dalam skala besar, dan Azure Virtual Machine untuk penilaian batch. Titik akhir terkelola dalam Pembelajaran Mesin mengabstraksi infrastruktur yang diperlukan untuk inferensi model real time atau batch.

  • AKS adalah layanan Kubernetes yang dikelola sepenuhnya yang memudahkan penyebaran dan pengelolaan aplikasi dalam kontainer. AKS menawarkan teknologi Kubernetes tanpa server, pengalaman integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD) terintegrasi, serta keamanan dan tata kelola tingkat perusahaan.

  • Power BI adalah kumpulan layanan perangkat lunak dan aplikasi yang menampilkan informasi analitik.

  • Azure Cognitive Search adalah layanan pencarian cloud yang menyediakan infrastruktur, API, dan alat untuk pencarian. Anda dapat menggunakan Azure Cognitive Search untuk membangun pengalaman pencarian melalui konten privat, heterogen di aplikasi web, seluler, dan perusahaan.

Alternatif

Detail skenario

Mengotomatiskan pemrosesan dokumen dan ekstraksi data adalah tugas integral dalam organisasi di semua vertikal industri. AI adalah salah satu solusi yang terbukti dalam proses ini, meskipun mencapai akurasi 100 persen adalah realitas yang jauh. Tetapi, menggunakan AI untuk digitalisasi alih-alih proses manual murni dapat mengurangi upaya manual hingga 90 persen.

Pengenalan karakter optik (OCR) dapat mengekstrak konten dari gambar dan file PDF, yang membentuk sebagian besar dokumen yang digunakan organisasi. Proses ini menggunakan pencarian kata kunci dan pencocokan ekspresi reguler. Mekanisme ini mengekstrak data yang relevan dari teks lengkap lalu membuat output terstruktur. Pendekatan ini memiliki kelemahan. Merevisi proses pasca-ekstraksi untuk memenuhi perubahan format dokumen memerlukan upaya pemeliharaan yang luas.

Kemungkinan kasus penggunaan

Solusi ini sangat ideal untuk industri keuangan. Ini juga dapat berlaku untuk industri otomotif, perjalanan, dan perhotelan. Tugas berikut dapat memperoleh manfaat dari solusi ini:

  • Menyetujui laporan pengeluaran
  • Memproses faktur, tanda terima, dan tagihan untuk klaim asuransi dan audit keuangan
  • Memproses klaim yang mencakup faktur, ringkasan pelepasan, dan dokumen lainnya
  • Mengotomatiskan persetujuan pernyataan kerja (SoW)
  • Mengotomatiskan ekstraksi ID untuk tujuan verifikasi, seperti halnya paspor atau SIM
  • Mengotomatiskan proses memasukkan data kartu nama ke dalam sistem manajemen pengunjung
  • Mengidentifikasi pola pembelian dan menduplikasi dokumen keuangan untuk deteksi penipuan

Pertimbangan

Pertimbangan ini mengimplementasikan pilar Azure Well-Architected Framework, yang merupakan serangkaian tenet panduan yang dapat digunakan untuk meningkatkan kualitas beban kerja. Untuk informasi selengkapnya, lihat Microsoft Azure Well-Architected Framework.

Ingatlah poin-poin ini saat Anda menggunakan solusi ini.

Ketersediaan

Ketersediaan arsitektur tergantung pada layanan Azure yang membentuk solusi:

  • Kecerdasan Dokumen Azure AI adalah bagian dari layanan Azure AI. Untuk jaminan ketersediaan layanan ini, lihat Perjanjian tingkat layanan (SLA) untuk layanan Azure AI.

  • Bahasa AI adalah bagian dari layanan Azure AI. Untuk jaminan ketersediaan untuk layanan ini, lihat SLA untuk layanan Azure AI.

  • Azure Cosmos DB menyediakan ketersediaan tinggi dengan mempertahankan empat replika data di setiap wilayah dan dengan mereplikasi data di seluruh wilayah. Jaminan ketersediaan yang tepat tergantung pada apakah Anda mereplikasi dalam satu wilayah atau di beberapa wilayah. Untuk informasi selengkapnya, lihat Mencapai ketersediaan tinggi dengan Azure Cosmos DB.

  • Blob Storage menawarkan opsi redundansi yang membantu memastikan ketersediaan tinggi. Anda dapat menggunakan salah satu pendekatan ini untuk mereplikasi data tiga kali di wilayah utama:

    • Pada satu lokasi fisik untuk penyimpanan redundan lokal (LRS).
    • Di tiga zona ketersediaan yang menggunakan parameter ketersediaan yang berbeda. Untuk informasi selengkapnya, lihat Parameter durabilitas dan ketersediaan. Opsi ini berfungsi paling baik untuk aplikasi yang memerlukan ketersediaan tinggi.
  • Untuk jaminan ketersediaan layanan Azure lainnya dalam solusi, lihat sumber daya ini:

Skalabilitas

Keamanan

Keamanan memberikan jaminan terhadap serangan yang disukai dan penyalahgunaan data dan sistem berharga Anda. Untuk informasi selengkapnya, lihat Gambaran Umum pilar keamanan.

  • Azure Web Application Firewall membantu melindungi aplikasi Anda dari kerentanan umum. Opsi Application Gateway ini menggunakan aturan Open Web Application Security Project (OWASP) untuk mencegah serangan seperti pembuatan skrip lintas situs, pembajakan sesi, dan eksploitasi lainnya.

  • Untuk meningkatkan keamanan App Service, pertimbangkan opsi ini:

    • App Service dapat mengakses sumber daya di Azure Virtual Network melalui integrasi jaringan virtual.
    • Anda dapat menggunakan App Service di Lingkungan App Service, yang Anda sebarkan ke jaringan virtual khusus. Pendekatan ini membantu mengisolasi konektivitas antara App Service dan sumber daya lain di jaringan virtual.

    Untuk informasi selengkapnya, lihat Keamanan di Azure App Service.

  • Blob Storage dan Azure Cosmos DB mengenkripsi data tidak aktif. Anda dapat mengamankan layanan ini dengan menggunakan titik akhir layanan atau titik akhir privat.

  • Azure Functions mendukung integrasi jaringan virtual. Dengan menggunakan fungsionalitas ini, aplikasi fungsi dapat mengakses sumber daya di dalam jaringan virtual. Untuk informasi selengkapnya, lihat Opsi jaringan Azure Functions.

  • Anda dapat mengonfigurasi Azure AI Document Intelligence dan AI Language untuk akses dari jaringan virtual tertentu atau dari titik akhir privat. Layanan ini mengenkripsi data tidak aktif. Anda dapat menggunakan kunci langganan, token, atau ID Microsoft Entra untuk mengautentikasi permintaan ke layanan ini. Untuk informasi selengkapnya, lihat Mengautentikasi permintaan ke layanan Azure AI.

  • Pembelajaran Mesin menawarkan banyak tingkat keamanan:

Ketahanan

  • Ketahanan solusi tergantung pada mode kegagalan layanan individual seperti App Service, Functions, Azure Cosmos DB, Storage, dan Application Gateway. Untuk informasi selengkapnya, lihat Daftar periksa ketahanan untuk layanan Azure tertentu.

  • Anda dapat membuat Kecerdasan Dokumen Azure AI tangguh. Kemungkinan termasuk merancangnya untuk melakukan failover ke wilayah lain dan membagi beban kerja menjadi dua wilayah atau lebih. Untuk informasi selengkapnya, lihat Mencadangkan dan memulihkan model Kecerdasan Dokumen Azure AI Anda.

  • layanan Pembelajaran Mesin bergantung pada banyak layanan Azure. Untuk memberikan ketahanan, Anda perlu mengonfigurasi setiap layanan agar tangguh. Untuk informasi selengkapnya, lihat Failover untuk kelangsungan bisnis dan pemulihan bencana.

Pengoptimalan biaya

Optimalisasi biaya adalah tentang mencari cara untuk mengurangi pengeluaran yang tidak perlu dan meningkatkan efisiensi operasional. Untuk informasi selengkapnya, lihat Gambaran umum pilar pengoptimalan biaya.

Biaya penerapan solusi ini tergantung pada komponen mana yang Anda gunakan dan opsi mana yang Anda pilih untuk setiap komponen.

Banyak faktor dapat memengaruhi harga setiap komponen:

  • Jumlah dokumen yang Anda proses
  • Jumlah permintaan bersamaan yang diterima aplikasi Anda
  • Ukuran data yang Anda simpan setelah diproses
  • Wilayah penyebaran Anda

Sumber daya ini menyediakan informasi tentang opsi harga komponen:

Setelah memutuskan tingkat harga untuk setiap komponen, gunakan kalkulator Harga Azure untuk memperkirakan biaya solusi.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Langkah berikutnya