Menemukan file audio untuk transkripsi batch

Transkripsi batch digunakan untuk mentranskripsikan sejumlah besar audio dalam penyimpanan. Transkripsi batch dapat mengakses file audio dari dalam atau di luar Azure.

Saat file audio sumber disimpan di luar Azure, file tersebut dapat diakses melalui URI publik (seperti "https://crbn.us/hello.wav"). File harus dapat diakses langsung; URI yang memerlukan autentikasi atau yang memanggil skrip interaktif sebelum file dapat diakses tidak didukung.

File audio yang disimpan di penyimpanan Azure Blob dapat diakses melalui salah satu dari dua metode:

Anda dapat menentukan satu atau beberapa file audio saat membuat transkripsi. Sebaiknya Berikan beberapa file per permintaan atau arahkan ke kontainer penyimpanan Azure Blob dengan file audio untuk ditranskripsikan. Layanan transkripsi batch dapat menangani sejumlah besar transkripsi yang diajukan. Layanan ini mentranskripsikan file secara bersamaan, yang mengurangi waktu penyelesaian.

Format audio dan codec yang didukung

API transkripsi batch mendukung berbagai format dan codec, seperti:

  • WAV
  • MP3
  • OPUS/OGG
  • FLAC
  • WMA
  • AAC
  • ALAW dalam kontainer WAV
  • MULAW dalam kontainer WAV
  • AMR
  • WebM
  • M4A
  • SPEEX

Catatan

Layanan transkripsi Batch mengintegrasikan GStreamer dan dapat menerima lebih banyak format dan codec tanpa mengembalikan kesalahan, sementara kami menyarankan untuk menggunakan format tanpa kehilangan seperti WAV (pengodean PCM) dan FLAC untuk memastikan kualitas transkripsi terbaik.

Unggahan Azure Blob Storage

Saat file audio terletak di akun Azure Blob Storage , Anda dapat meminta transkripsi file audio individual atau seluruh kontainer Azure Blob Storage. Anda juga dapat menulis hasil transkripsi ke kontainer Blob.

Catatan

Untuk batas blob dan kontainer, lihat kuota dan batas transkripsi batch.

Ikuti langkah-langkah ini untuk membuat akun penyimpanan dan mengunggah file wav dari direktori lokal Anda ke kontainer baru.

  1. Buka portal Azure dan masuk ke akun Azure Anda.
  2. Buat sumber daya akun Penyimpanan di portal Azure. Gunakan langganan dan grup sumber daya yang sama dengan sumber daya Ucapan Anda.
  3. Pilih akun Penyimpanan.
  4. Di grup Penyimpanan data di panel kiri, pilih Kontainer.
  5. Pilih +Kontainer.
  6. Masukkan nama untuk kontainer baru dan pilih Buat.
  7. Pilih kontainer baru.
  8. Pilih Unggah.
  9. Pilih file yang akan diunggah dan pilih Unggah.

Mekanisme keamanan layanan Azure tepercaya

Bagian ini menjelaskan cara menyiapkan dan membatasi akses ke file audio sumber transkripsi batch Anda di akun Azure Storage menggunakan mekanisme keamanan layanan Azure tepercaya.

Catatan

Dengan mekanisme keamanan layanan Azure tepercaya, Anda perlu menggunakan penyimpanan Azure Blob untuk menyimpan file audio. Penggunaan Azure Files tidak didukung.

Jika Anda melakukan semua tindakan di bagian ini, akun Penyimpanan Anda dikonfigurasi sebagai berikut:

  • Akses ke semua lalu lintas jaringan eksternal dilarang.
  • Akses ke akun Penyimpanan menggunakan kunci akun Penyimpanan dilarang.
  • Akses ke penyimpanan blob akun Penyimpanan menggunakan tanda tangan akses bersama (SAS) dilarang.
  • Akses ke sumber daya Ucapan yang dipilih diizinkan menggunakan sistem sumber daya yang ditetapkan identitas terkelola.

Jadi, akibatnya akun Penyimpanan Anda menjadi benar-benar "terkunci" dan tidak dapat digunakan dalam skenario apa pun selain menerjemahkan file audio yang sudah ada pada saat konfigurasi baru diterapkan. Anda harus mempertimbangkan konfigurasi ini sebagai model sejauh menyangkut keamanan data audio Anda dan menyesuaikannya sesuai dengan kebutuhan Anda.

Misalnya, Anda dapat mengizinkan lalu lintas dari alamat IP publik yang dipilih dan jaringan Azure Virtual. Anda juga dapat menyiapkan akses ke akun Penyimpanan Anda menggunakan titik akhir privat (lihat juga tutorial ini), mengaktifkan kembali akses menggunakan kunci akun Storage, memungkinkan akses ke layanan tepercaya Azure lainnya, dll.

Catatan

Menggunakan titik akhir privat untuk Ucapan tidak diperlukan untuk mengamankan akun penyimpanan. Anda dapat menggunakan titik akhir privat untuk permintaan API transkripsi batch, sambil mengakses file audio sumber secara terpisah dari akun penyimpanan yang aman, atau sebaliknya.

Dengan mengikuti langkah-langkah di bawah ini, Anda sangat membatasi akses ke akun penyimpanan. Kemudian Anda menetapkan izin minimum yang diperlukan untuk identitas terkelola sumber daya Ucapan untuk mengakses akun Penyimpanan.

Mengaktifkan identitas terkelola yang ditetapkan sistem untuk sumber daya Ucapan

Ikuti langkah-langkah ini untuk mengaktifkan identitas terkelola yang ditetapkan sistem untuk sumber daya Ucapan yang Anda gunakan untuk transkripsi batch.

  1. Buka portal Azure dan masuk ke akun Azure Anda.

  2. Pilih sumber daya Ucapan.

  3. Di grup Manajemen Sumber Daya di panel kiri, pilih Identitas.

  4. Pada tab Sistem yang ditetapkan, pilih Aktif untuk status.

    Penting

    Identitas terkelola yang ditetapkan pengguna tidak akan memenuhi persyaratan untuk skenario akun penyimpanan transkripsi batch. Pastikan untuk mengaktifkan identitas terkelola yang ditetapkan sistem.

  5. Pilih Simpan

Sekarang identitas terkelola untuk sumber daya Ucapan Anda dapat diberikan akses ke akun penyimpanan Anda.

Membatasi akses ke akun penyimpanan

Ikuti langkah-langkah ini untuk membatasi akses ke akun penyimpanan.

Penting

Unggah file audio dalam kontainer Blob sebelum mengunci akses akun penyimpanan.

  1. Buka portal Azure dan masuk ke akun Azure Anda.
  2. Pilih akun Penyimpanan.
  3. Di grup Pengaturan di panel kiri, pilih Konfigurasi.
  4. Pilih Dinonaktifkan untuk Izinkan akses publik Blob.
  5. Pilih Dinonaktifkan untuk Izinkan akses kunci akun penyimpanan
  6. Pilih Simpan.

Untuk informasi selengkapnya, lihat Mencegah akses baca publik anonim ke kontainer dan blob dan Mencegah otorisasi Kunci Bersama untuk akun Azure Storage.

Mengonfigurasi firewall Azure Storage

Setelah membatasi akses ke akun Penyimpanan, Anda perlu memberikan akses ke identitas terkelola tertentu. Ikuti langkah-langkah ini untuk menambahkan akses untuk sumber daya Ucapan.

  1. Buka portal Azure dan masuk ke akun Azure Anda.

  2. Pilih akun Penyimpanan.

  3. Di grup Keamanan + jaringan di panel kiri, pilih Jaringan.

  4. Di tab Firewall dan jaringan virtual, pilih Diaktifkan dari jaringan virtual dan alamat IP yang dipilih.

  5. Batal pilih semua kotak centang.

  6. Pastikan perutean jaringan Microsoft dipilih.

  7. Di bawah bagian Instans sumber daya, pilih Microsoft.CognitiveServices/accounts sebagai jenis sumber daya dan pilih sumber daya Ucapan Anda sebagai nama instans.

  8. Pilih Simpan.

    Catatan

    Mungkin perlu waktu hingga 5 menit agar perubahan jaringan disebarluaskan.

Meskipun sekarang akses jaringan diizinkan, sumber daya Ucapan belum dapat mengakses data di akun Penyimpanan. Anda perlu menetapkan peran akses tertentu untuk identitas terkelola sumber daya Ucapan.

Menetapkan peran akses sumber daya

Ikuti langkah-langkah ini untuk menetapkan peran Pembaca Data Blob Penyimpanan ke identitas terkelola sumber daya Ucapan Anda.

Penting

Anda perlu diberi peran Pemilik akun Penyimpanan atau cakupan yang lebih tinggi (seperti Langganan) untuk melakukan operasi di langkah berikutnya. Ini karena hanya peran Pemilik yang dapat menetapkan peran kepada orang lain. Lihat detailnya di sini.

  1. Buka portal Azure dan masuk ke akun Azure Anda.

  2. Pilih akun Penyimpanan.

  3. Pilih menu Access Control (IAM) di panel kiri.

  4. Pilih Tambahkan penetapan peran di petak Berikan akses ke sumber daya ini.

  5. Pilih Pembaca Data Blob Penyimpanan di bawah Peran lalu pilih Berikutnya.

  6. Pilih Identitas terkelola di bawah Anggota>Tetapkan akses ke.

  7. Tetapkan identitas terkelola sumber daya Ucapan Anda lalu pilih Tinjau + tetapkan.

    Screenshot of the managed role assignment review.

  8. Setelah mengonfirmasi pengaturan, pilih Tinjau + tetapkan

Sekarang identitas terkelola sumber daya Ucapan memiliki akses ke akun Penyimpanan dan dapat mengakses file audio untuk transkripsi batch.

Dengan identitas terkelola yang ditetapkan sistem, Anda menggunakan URL Akun Penyimpanan biasa (tidak ada SAS atau tambahan lainnya) saat Anda membuat permintaan transkripsi batch. Misalnya:

{
    "contentContainerUrl": "https://<storage_account_name>.blob.core.windows.net/<container_name>"
}

Anda dapat menentukan file individual dalam kontainer. Misalnya:

{
    "contentUrls": [
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_1>",
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_2>"
    ]
}

URL SAS untuk transkripsi batch

Tanda tangan akses bersama (SAS) adalah URI yang memberikan akses terbatas ke kontainer Azure Storage. Gunakan saat Anda ingin memberikan akses ke file transkripsi batch Anda untuk rentang waktu tertentu tanpa membagikan kunci akun penyimpanan Anda.

Tip

Jika kontainer dengan file sumber transkripsi batch hanya boleh diakses oleh sumber daya Ucapan Anda, gunakan mekanisme keamanan layanan Azure tepercaya sebagai gantinya.

Ikuti langkah-langkah ini untuk menghasilkan URL SAS yang dapat Anda gunakan untuk transkripsi batch.

  1. Selesaikan langkah-langkah di unggahan Azure Blob Storage untuk membuat akun Storage dan mengunggah file audio ke kontainer baru.

  2. Pilih kontainer baru.

  3. Di grup Pengaturan di panel kiri, pilih Token akses bersama.

  4. Pilih +Kontainer.

  5. Pilih Baca dan Daftar untuk Izin.

    Screenshot of the container SAS URI permissions.

  6. Masukkan waktu mulai dan kedaluwarsa untuk SAS URI, atau biarkan default.

  7. Pilih Buat token SAS dan URL.

Anda menggunakan URL SAS saat membuat permintaan transkripsi batch. Misalnya:

{
    "contentContainerUrl": "https://<storage_account_name>.blob.core.windows.net/<container_name>?SAS_TOKEN"
}

Anda dapat menentukan file individual dalam kontainer. Anda harus membuat dan menggunakan URL SAS yang berbeda dengan izin baca (r) untuk setiap file. Misalnya:

{
    "contentUrls": [
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_1>?SAS_TOKEN_1",
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_2>?SAS_TOKEN_2"
    ]
}

Langkah berikutnya