Поделиться через


Поиск аудиофайлов для пакетного транскрибирования

Пакетное транскрибирование используется для транскрибирования большого объема звука в хранилище. Пакетное транскрибирование может получить доступ к звуковым файлам изнутри или за пределами Azure.

При хранении исходных звуковых файлов за пределами Azure они могут быть доступны через общедоступный URI (например, ;)https://crbn.us/hello.wav". Файлы должны быть доступны напрямую; URI, требующие проверки подлинности или вызывающие интерактивные скрипты, прежде чем доступ к файлу не поддерживается.

Доступ к звуковым файлам, хранящимся в хранилище BLOB-объектов Azure, можно получить с помощью одного из двух методов:

При создании транскрибирования можно указать один или несколько звуковых файлов. Рекомендуется предоставить несколько файлов на запрос или указать контейнер хранилища BLOB-объектов Azure с звуковыми файлами для транскрибирования. Служба пакетного транскрибирования поддерживает обработку большого количества отправленных расшифровок. Служба транскрибирует файлы одновременно, что позволяет уменьшить общее время обработки.

Поддерживаемые аудиоформаты и кодеки

API пакетного транскрибирования поддерживает множество различных форматов и кодеков, таких как:

  • WAV
  • MP3
  • OPUS/OGG
  • FLAC
  • WMA
  • AAC
  • ALAW в контейнере WAV
  • MULAW в контейнере WAV
  • AMR
  • Webm
  • M4A
  • SPEEX

Примечание.

Служба пакетного транскрибирования интегрирует GStreamer и может принимать больше форматов и кодеков без возврата ошибок, в то время как мы рекомендуем использовать форматы без потери, такие как кодировка WAV (кодировка PCM) и FLAC, чтобы обеспечить лучшее качество транскрибирования.

отправка Хранилище BLOB-объектов Azure

Если звуковые файлы находятся в учетной записи Хранилище BLOB-объектов Azure, можно запросить расшифровку отдельных звуковых файлов или всего контейнера Хранилище BLOB-объектов Azure. Вы также можете записывать результаты транскрибирования в контейнер BLOB-объектов.

Примечание.

Ограничения больших двоичных объектов и контейнеров см . в квотах и ограничениях пакетной транскрибирования.

Выполните следующие действия, чтобы создать учетную запись хранения и отправить wav-файлы из локального каталога в новый контейнер.

  1. Откройте портал Azure и войдите в свою учетную запись Azure.
  2. Создайте ресурс учетной записи служба хранилища в портал Azure. Используйте ту же подписку и группу ресурсов, что и ресурс "Речь".
  3. Выберите учетную запись служба хранилища.
  4. В группе хранилища данных в левой области выберите контейнеры.
  5. Выберите + Container (+ Контейнер).
  6. Введите имя нового контейнера и нажмите кнопку "Создать".
  7. Выберите новый контейнер.
  8. Выберите Отправить.
  9. Выберите файлы для отправки и нажмите кнопку "Отправить".

Механизм безопасности доверенных служб Azure

В этом разделе объясняется, как настроить и ограничить доступ к исходным звуковым файлам пакетной транскрибирования в учетной записи служба хранилища Azure с помощью механизма безопасности доверенных служб Azure.

Примечание.

С помощью доверенного механизма безопасности служб Azure необходимо использовать хранилище BLOB-объектов Azure для хранения звуковых файлов. Использование Файлы Azure не поддерживается.

При выполнении всех действий в этом разделе учетная запись служба хранилища настроена следующим образом:

  • Доступ ко всему внешнему сетевому трафику запрещен.
  • Доступ к учетной записи служба хранилища с помощью ключа учетной записи служба хранилища запрещен.
  • Доступ к хранилищу BLOB-объектов учетной записи служба хранилища с помощью подписанных URL-адресов (SAS) запрещен.
  • Доступ к выбранному ресурсу службы "Речь" разрешен с помощью управляемого удостоверения, назначенного системой ресурсов.

Таким образом, ваша учетная запись служба хранилища становится полностью заблокированной и не может использоваться в любом сценарии, кроме транскрибирования аудиофайлов, которые уже присутствовали к моменту применения новой конфигурации. Эту конфигурацию следует рассмотреть как модель, так как безопасность ваших звуковых данных обеспокоена и настроить ее в соответствии с вашими потребностями.

Например, можно разрешить трафик из выбранных общедоступных IP-адресов и виртуальных сетей Azure. Вы также можете настроить доступ к учетной записи служба хранилища с помощью частных конечных точек (см. также это руководство), повторно включить доступ с помощью ключа учетной записи служба хранилища, разрешить доступ к другим доверенным службам Azure и т. д.

Примечание.

Использование частных конечных точек для службы "Речь" не требуется для защиты учетной записи хранения. Вы можете использовать частную конечную точку для запросов API пакетной транскрибирования, а также отдельный доступ к исходным звуковым файлам из защищенной учетной записи хранения или другим способом.

Выполнив приведенные ниже действия, вы серьезно ограничиваете доступ к учетной записи хранения. Затем необходимо назначить минимальные необходимые разрешения для управляемого удостоверения ресурса "Речь" для доступа к учетной записи служба хранилища.

Включение управляемого удостоверения, назначаемого системой для ресурса "Речь"

Выполните следующие действия, чтобы включить управляемое удостоверение, назначаемое системой, для ресурса службы "Речь", используемого для пакетного транскрибирования.

  1. Откройте портал Azure и войдите в свою учетную запись Azure.

  2. Выберите ресурс службы "Речь".

  3. В группе управления ресурсами в левой области выберите "Удостоверение".

  4. На вкладке " Назначаемая системой" выберите "Вкл ." для состояния.

    Важно!

    Назначаемое пользователем управляемое удостоверение не соответствует требованиям для сценария учетной записи хранения пакетной транскрибации. Обязательно включите управляемое удостоверение, назначаемое системой.

  5. Выберите Сохранить

Теперь управляемое удостоверение для ресурса "Речь" можно предоставить доступ к учетной записи хранения.

Ограничение доступа к учетной записи хранения

Выполните следующие действия, чтобы ограничить доступ к учетной записи хранения.

Важно!

Перед блокировкой доступа к учетной записи хранения перед блокировкой доступа к учетной записи хранения перед отправкой звуковых файлов в контейнер BLOB-объектов.

  1. Откройте портал Azure и войдите в свою учетную запись Azure.
  2. Выберите учетную запись служба хранилища.
  3. В группе Параметры в левой области выберите "Конфигурация".
  4. Выберите "Отключено " для предоставления общедоступного доступа к BLOB-объектам.
  5. Выберите "Отключено " для разрешения доступа к ключу учетной записи хранения
  6. Выберите Сохранить.

Дополнительные сведения см. в разделе "Запрет анонимного общедоступного доступа на чтение" к контейнерам и большим двоичным объектам и запрету авторизации общего ключа для учетной записи служба хранилища Azure.

Настройка брандмауэра служба хранилища Azure

Имея ограниченный доступ к учетной записи служба хранилища, необходимо предоставить доступ к определенным управляемым удостоверениям. Выполните следующие действия, чтобы добавить доступ к ресурсу "Речь".

  1. Откройте портал Azure и войдите в свою учетную запись Azure.

  2. Выберите учетную запись служба хранилища.

  3. В группе "Безопасность и сеть" в левой области выберите "Сеть".

  4. На вкладке "Брандмауэры и виртуальные сети" выберите "Включено" из выбранных виртуальных сетей и IP-адресов.

  5. Отмените выбор всех полей проверка.

  6. Убедитесь, что выбрана маршрутизация сети Майкрософт.

  7. В разделе "Экземпляры ресурсов" выберите Microsoft.CognitiveServices/accounts в качестве типа ресурса и выберите ресурс службы "Речь" в качестве имени экземпляра.

  8. Выберите Сохранить.

    Примечание.

    Для распространения изменений сети может потребоваться до 5 минут.

Хотя к настоящему моменту разрешен доступ к сети, ресурс "Речь" пока не может получить доступ к данным в учетной записи служба хранилища. Необходимо назначить определенную роль доступа для управляемого удостоверения ресурса "Речь".

Назначение роли доступа к ресурсам

Выполните следующие действия, чтобы назначить роль чтения данных BLOB-объектов служба хранилища управляемому удостоверению ресурса "Речь".

Важно!

Для выполнения операции необходимо назначить роль владельца учетной записи служба хранилища или более поздней область (например, подписка). Это связано с тем, что только роль владельца может назначать роли другим пользователям. Дополнительные сведения см. здесь.

  1. Откройте портал Azure и войдите в свою учетную запись Azure.

  2. Выберите учетную запись служба хранилища.

  3. Выберите меню контроль доступа (IAM) в левой области.

  4. Выберите " Добавить назначение ролей" в плитке "Предоставить доступ к этому ресурсу ".

  5. Выберите служба хранилища читатель данных BLOB-объектов в разделе "Роль" и нажмите кнопку "Далее".

  6. Выберите управляемое удостоверение в разделе "Участники>" Назначить доступ.

  7. Назначьте управляемое удостоверение ресурса "Речь" и выберите " Проверить и назначить".

    Screenshot of the managed role assignment review.

  8. После подтверждения параметров нажмите кнопку "Проверить и назначить"

Теперь управляемое удостоверение службы "Речь" имеет доступ к учетной записи служба хранилища и может получить доступ к звуковым файлам для пакетной транскрибирования.

При использовании управляемого удостоверения, назначаемого системой, при создании запроса пакетного транскрибирования используется обычный URL-адрес учетной записи служба хранилища (без SAS или других добавлений). Например:

{
    "contentContainerUrl": "https://<storage_account_name>.blob.core.windows.net/<container_name>"
}

В противном случае можно указать отдельные файлы в контейнере. Например:

{
    "contentUrls": [
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_1>",
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_2>"
    ]
}

URL-адрес SAS для пакетной транскрибирования

Подписанный URL-адрес (SAS) — это универсальный код ресурса (URI), который предоставляет ограниченные права доступа к контейнеру Службы хранилища Azure. Используйте его, если вы хотите предоставить доступ к файлам пакетной транскрибирования для определенного диапазона времени без общего доступа к ключу учетной записи хранения.

Совет

Если контейнер с исходными файлами пакетного транскрибирования должен обращаться только к ресурсу службы "Речь", используйте вместо этого механизм безопасности доверенных служб Azure.

Выполните следующие действия, чтобы создать URL-адрес SAS, который можно использовать для пакетных транскрибирования.

  1. Выполните действия, описанные в Хранилище BLOB-объектов Azure отправке, чтобы создать учетную запись служба хранилища и отправить звуковые файлы в новый контейнер.

  2. Выберите новый контейнер.

  3. В группе Параметры в левой области выберите маркеры общего доступа.

  4. Выберите + Container (+ Контейнер).

  5. Выберите "Чтение" и "Списокразрешений".

    Screenshot of the container SAS URI permissions.

  6. Введите время начала и истечения срока действия для URI SAS или оставьте значения по умолчанию.

  7. Выберите Создать маркер SAS и URL-адрес.

При создании запроса пакетного транскрибирования используется URL-адрес SAS. Например:

{
    "contentContainerUrl": "https://<storage_account_name>.blob.core.windows.net/<container_name>?SAS_TOKEN"
}

В противном случае можно указать отдельные файлы в контейнере. Необходимо создать и использовать другой URL-адрес SAS с разрешениями на чтение (r) для каждого файла. Например:

{
    "contentUrls": [
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_1>?SAS_TOKEN_1",
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_2>?SAS_TOKEN_2"
    ]
}

Следующие шаги