Анализ видео и аудиофайлов в Службах мультимедиа Azure

Статья
06/30/2023

Предупреждение

Поддержка Служб мультимедиа Azure будет прекращена 30 июня 2024 г. Дополнительные сведения см. в руководстве по прекращению поддержки AMS.

Важно!

Как указано в ее стандартах ответственного применения ИИ, корпорация Майкрософт стремится к справедливости, конфиденциальности, безопасности и прозрачности в отношении систем ИИ. В соответствии с этими стандартами Службы мультимедиа Azure прекращает использование предустановки Видеоанализатора 14 сентября 2023 г. В настоящее время эта предустановка позволяет извлекать различную видео- и аудиоаналитику из видеофайлов. Клиенты могут скорректировать текущие рабочие процессы с помощью более широкого набора функций, предлагаемого Индексатором видео Azure.

Службы мультимедиа позволяют извлекать аналитические сведения из видео и звуковых файлов с помощью предварительных установок анализатора аудио- и видеоданных. В этой статье описываются предустановки анализатора, используемые для извлечения аналитические сведений. Если вы хотите получить более подробные аналитические сведения из видео, используйте службу Индексатор видео Azure. Чтобы определить, в каких случаях лучше использовать Индексатор видео, а в каких — предустановки анализатора Служб мультимедиа, ознакомьтесь с документом, в котором приводится сравнение.

Для предустановки анализатора аудиофайлов существуют два режима работы "Базовый" и "Стандартный". Описание различий приведено в таблице ниже.

Чтобы анализировать содержимое с помощью предустановок Служб мультимедиа версии 3, необходимо создать Преобразование и отправить Задачу, в которой используется одна из следующих предустановок: VideoAnalyzerPreset или AudioAnalyzerPreset.

Примечание

AudioAnalyzerPreset не поддерживается, если учетная запись хранения не имеет доступа к общедоступной сети.

Соответствие требованиям, конфиденциальность и безопасность

Вы должны соблюдать все применимые законы при использовании Индексатора видео, и вы не можете использовать Индексатор видео или любую другую службу Azure таким образом, который нарушает права других пользователей или может нанести вред другим пользователям. Перед отправкой любого видеосодержимого, включая любые биометрические данные, в службу "Индексатор видео" для обработки и хранения данных необходимо иметь все необходимые права, включая все возможные разрешения, от отдельных пользователей, содержащихся в видеосодержимом. Чтобы узнать о соответствии требованиям, конфиденциальности и безопасности в Индексаторе видео, см. Условия Microsoft Cognitive Services. Сведения об обязательствах Майкрософт по обеспечению конфиденциальности и обработке ваших данных см. в Заявлении о конфиденциальности, Условиях использования веб-служб ("OST") и Приложении к обработке данных ("DPA"). Дополнительные сведения о конфиденциальности, в том числе о хранении, удалении и уничтожении данных, доступны в OST. Используя Индексатор видео, вы обязуетесь соблюдать Условия Cognitive Services, OST, DPA и Заявление о конфиденциальности.

Встроенные предустановки

Сейчас Службы мультимедиа поддерживают следующие встроенные предустановки анализатора:

Имя предустановки	Сценарий / Режим	Сведения
AudioAnalyzerPreset	Анализ аудио — режим "Стандартный"	Эта предустановка применяет предопределенный набор операций анализа на основе ИИ, включая транскрибирование речи. В настоящее время она поддерживает обработку содержимого с одной звуковой дорожкой, содержащей речь на одном языке. Укажите язык для полезных данных аудио во входных данных. Для этого используется формат BCP-47 "тег языка — регион". Доступные коды языков см. в списке поддерживаемых языков. При автоматическом определении языка выбирается первый обнаруженный язык, и далее выбранный язык используется для всего файла, если он не задан, или имеет значение null. Функция автоматического определения языка сейчас поддерживается для таких языков: английский, китайский, французский, немецкий, итальянский, японский, испанский, русский и бразильский вариант португальского языка. Динамическое переключение между языками после определения первого языка не поддерживается. Автоматическое распознавание языка лучше всего работает с аудиозаписями с четко различимой речью. Если функции автоматического распознавания языка не удается определить язык, транскрибирование выполняется на английском языке.
AudioAnalyzerPreset	Анализ аудио — режим "Базовый"	Этот предустановленный режим выполняет транскрибирование речи в текст и создает файл с субтитрами или заголовком VTT. Выходные данные этого режима включают в себя файл JSON Insights, содержащий только ключевые слова, транскрипцию и сведения о времени. Автоматическое распознавание языка и диаризация говорящего в этом режиме не выполняются. Список поддерживаемых языков идентичен приведенному выше списку для режима "Стандартный".
VideoAnalyzerPreset	Анализ аудио и видео	Извлекает из аудио и видео аналитические данные (подробные метаданные) и выдает файл в формате JSON. Можно указать, если нужно извлекать аналитические данные только для аудио при обработке видеофайла.
FaceDetectorPreset	Обнаружение лиц, присутствующих в видео	Описывает параметры, используемые при анализе видео для обнаружения всех присутствующих лиц.

Примечание

AudioAnalyzerPreset не поддерживается, если учетная запись хранения не имеет доступа к общедоступной сети.

Поддерживаемые языки

Арабский ("ar-BH", "ar-EG", "ar-IQ", "ar-JO", "ar-KW", "ar-LB", "ar-OM", "ar-QA", "ar-SA" и "ar-SY")
Португальский (Бразилия) ("pt-BR")
Китайский ("zh-CN")
Датский ("da-DK")
Английский ("en-US", "en-GB" и "en-AU")
Финский ("fi-FI")
Французский ("fr-FR" и "fr-CA")
Немецкий ("de-DE")
Иврит ("he-IL")
Хинди ("hi-IN"), Корейский ("ko-KR")
Итальянский ("it-IT")
Японский ("ja-JP")
Норвежский ("nb-NO")
Персидский ("fa-IR")
Португальский (Португалия) ("pt-PT")
Русский ("ru-RU")
Испанский ("es-ES" и "es-MX")
Шведский ("sv-SE")
Тайский ("th-TH")
Турецкий ("tr-TR")

Примечание

AudioAnalyzerPreset не поддерживается, если учетная запись хранения не имеет доступа к общедоступной сети.

AudioAnalyzerPreset — режим "Стандартный"

Эта предустановка позволяет извлечь из аудио- и видеофайлов множество аналитических сведений об аудио.

Выходные данные включают в себя JSON-файл (со всеми сведениями) и VTT-файл расшифровки аудиозаписи. Эта предустановка принимает свойство, которое указывает язык входного файла в виде строки BCP47. Аналитические сведения об аудиофайле включают в себя:

Транскрибирование аудио — расшифровка произнесенных слов с метками времени. Поддерживается несколько языков.
Ключевые слова — ключевые слова, которые извлекаются из транскрипции аудио.

AudioAnalyzerPreset — режим "Базовый"

Эта предустановка позволяет извлечь из аудио- и видеофайлов множество аналитических сведений об аудио.

Выходные данные включают в себя JSON-файл и VTT-файл для расшифровки аудио. Эта предустановка принимает свойство, которое указывает язык входного файла в виде строки BCP47. Выходные данные содержат:

Транскрибирование аудио — расшифровка произнесенных слов с метками времени. Поддерживается несколько языков, но автоматическое определение языка и диаризация говорящего не выполняется.
Ключевые слова — ключевые слова, которые извлекаются из транскрипции аудио.

VideoAnalyzerPreset

Эта предустановка позволяет извлечь из видеофайлов множество аналитических сведений об аудио и видео. Выходные данные включают в себя JSON-файл (со всеми сведениями), VTT-файл расшифровки аудиозаписи и коллекцию эскизов видео. Эта предустановка также принимает строку BCP47 (представляющую язык видео) как свойство. Сведения о видеосодержимом включают в себя все сведения об аудиосодержимом, упомянутые выше, и следующие дополнительные элементы:

Отслеживание лица — промежуток времени, в течение которого лица присутствуют в видео. Для каждого лица задается идентификатор лица и соответствующая коллекция эскизов.
Визуальный текст — текст, который обнаруживается с помощью оптического распознавания символов. Текст имеет метку времени, а также используется для извлечения ключевых слов (в дополнение к расшифровке аудио).
Опорные кадры —набор ключевых кадров, извлеченных из видео.
Модерация визуального содержимого —часть видео, отмеченная как содержимое для взрослых или материалы непристойного характера.
Заметка —результат аннотирования видео на основе заданной объектной модели

Элементы insights.json

Выходные данные включают в себя файл JSON (insights.json) со всеми аналитическими сведениями, найденными в видео или аудио. Файл JSON может содержать один из следующих элементов:

transcript

Имя	Описание
идентификатор	Идентификатор строки.
text	Сама расшифровка аудиозаписи.
Язык	Язык расшифровки аудиозаписи. Предназначен для поддержки расшифровки, где каждая строка может быть написана на другом языке.
instances	Список диапазонов времени, в которых появилась эта строка. Если экземпляр является расшифровкой, будет отображаться только один экземпляр.

Пример

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

ocr

Имя	Описание
идентификатор	Идентификатор строки OCR.
text	Текст OCR.
confidence	Достоверность распознавания.
Язык	Язык OCR.
instances	Список диапазонов времени, где появилось это OCR (одно и то же OCR может появляться несколько раз).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

faces

Имя	Описание
идентификатор	Идентификатор лица.
name	Обозначение лица. Это может быть Unknown #0, определенная опознанная знаменитость или обученный клиентом человек.
confidence	Достоверности идентификации лица.
description	Текстовое описание знаменитости.
thumbnailId	Идентификатор эскиза лица.
knownPersonId	Внутренний идентификатор (если это известный человек).
referenceId	Идентификатор Bing (если это знаменитости из Bing).
referenceType	В настоящее время только Bing.
title	Должность (если это знаменитость, например, "генеральный директор корпорации Майкрософт").
imageurl	URL-адрес изображения, если это знаменитость.
instances	Экземпляры, где лицо появилось в заданном диапазоне времени. У каждого экземпляра также есть thumbnailsId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

shots

Имя	Описание
идентификатор	Идентификатор снимка.
keyframes	Список ключевых кадров в снимке (каждый из них имеет идентификатор и список временных интервалов экземпляров). Экземпляры ключевых кадров имеют поле thumbnailId с идентификатором эскиза keyFrame.
instances	Список временных интервалов этого снимка (снимки имеют только один экземпляр).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

статистика

Имя	Описание
CorrespondenceCount	Количество соответствий в видео.
WordCount	Число слов каждого говорящего.
SpeakerNumberOfFragments	Число фрагментов в видео на определенного говорящего.
SpeakerLongestMonolog	Самый длинный монолог говорящего. Учитываются также паузы в монологе говорящего. Паузы в начале и конце монолога удаляются.
SpeakerTalkToListenRatio	Результат вычисления основан на длительности монолога говорящего (без учета пауз между монологами), деленной на общее время видео. Значение времени округляется до трех знаков после запятой.

метки;

Имя	Описание
идентификатор	Идентификатор метки.
name	Название метки (например, "Компьютер", "Телевизор").
Язык	Язык метки (при наличии перевода). BCP-47
instances	Список диапазонов времени, где появилась эта метка (метка может появляться несколько раз). У каждого экземпляра есть поле достоверности.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

keywords

Имя	Описание
идентификатор	Идентификатор ключевого слова.
text	Идентификатор текста.
confidence	Достоверность распознавания ключевого слова.
Язык	Язык ключевого слова (при наличии перевода).
instances	Список диапазонов времени, где появилось это ключевое слово (ключевое слово может появляться несколько раз).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Блок visualContentModeration содержит диапазоны времени, в которых Индексатор видео, вероятно, обнаружил содержимое для взрослых. Если блок visualContentModeration пуст, значит, содержимого предназначенного для взрослых не обнаружено.

Видео, в которых обнаружено содержимое для взрослых или содержимое непристойного характера, могут быть доступны только для закрытого просмотра. Пользователи могут отправить запрос на проверку содержимого человеком. В таком случае атрибут IsAdult будет содержать результаты проверки, выполненной человеком.

Имя	Описание
идентификатор	Идентификатор модерации визуального контента.
adultScore	Результат оценки содержимого для взрослых (от Content Moderator).
racyScore	Результат оценки содержимого непристойного характера (от Content Moderator).
instances	Список диапазонов времени, где применяется модерация контента.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Справка и поддержка

Вы можете обратиться к Службам мультимедиа с вопросами или следить за нашими обновлениями одним из следующих способов:

ВОПРОСЫ И ОТВЕТЫ
Stack Overflow. Пометьте вопросы с помощью azure-media-services.
@MSFTAzureMedia или используйте @AzureSupport для запроса на поддержку.
Отправьте запрос в службу поддержки через портал Azure.

Анализ видео и аудиофайлов в Службах мультимедиа Azure

Соответствие требованиям, конфиденциальность и безопасность

Встроенные предустановки

Поддерживаемые языки

AudioAnalyzerPreset — режим "Стандартный"

AudioAnalyzerPreset — режим "Базовый"

VideoAnalyzerPreset

Элементы insights.json

transcript

ocr

faces

shots

статистика

метки;

keywords

visualContentModeration

Справка и поддержка

Дополнительные ресурсы