Анализ видео и аудиофайлов в Службах мультимедиа Azure
Предупреждение
Поддержка Служб мультимедиа Azure будет прекращена 30 июня 2024 г. Дополнительные сведения см. в руководстве по прекращению поддержки AMS.
Важно!
Как указано в ее стандартах ответственного применения ИИ, корпорация Майкрософт стремится к справедливости, конфиденциальности, безопасности и прозрачности в отношении систем ИИ. В соответствии с этими стандартами Службы мультимедиа Azure прекращает использование предустановки Видеоанализатора 14 сентября 2023 г. В настоящее время эта предустановка позволяет извлекать различную видео- и аудиоаналитику из видеофайлов. Клиенты могут скорректировать текущие рабочие процессы с помощью более широкого набора функций, предлагаемого Индексатором видео Azure.
Службы мультимедиа позволяют извлекать аналитические сведения из видео и звуковых файлов с помощью предварительных установок анализатора аудио- и видеоданных. В этой статье описываются предустановки анализатора, используемые для извлечения аналитические сведений. Если вы хотите получить более подробные аналитические сведения из видео, используйте службу Индексатор видео Azure. Чтобы определить, в каких случаях лучше использовать Индексатор видео, а в каких — предустановки анализатора Служб мультимедиа, ознакомьтесь с документом, в котором приводится сравнение.
Для предустановки анализатора аудиофайлов существуют два режима работы "Базовый" и "Стандартный". Описание различий приведено в таблице ниже.
Чтобы анализировать содержимое с помощью предустановок Служб мультимедиа версии 3, необходимо создать Преобразование и отправить Задачу, в которой используется одна из следующих предустановок: VideoAnalyzerPreset или AudioAnalyzerPreset.
Примечание
AudioAnalyzerPreset не поддерживается, если учетная запись хранения не имеет доступа к общедоступной сети.
Соответствие требованиям, конфиденциальность и безопасность
Вы должны соблюдать все применимые законы при использовании Индексатора видео, и вы не можете использовать Индексатор видео или любую другую службу Azure таким образом, который нарушает права других пользователей или может нанести вред другим пользователям. Перед отправкой любого видеосодержимого, включая любые биометрические данные, в службу "Индексатор видео" для обработки и хранения данных необходимо иметь все необходимые права, включая все возможные разрешения, от отдельных пользователей, содержащихся в видеосодержимом. Чтобы узнать о соответствии требованиям, конфиденциальности и безопасности в Индексаторе видео, см. Условия Microsoft Cognitive Services. Сведения об обязательствах Майкрософт по обеспечению конфиденциальности и обработке ваших данных см. в Заявлении о конфиденциальности, Условиях использования веб-служб ("OST") и Приложении к обработке данных ("DPA"). Дополнительные сведения о конфиденциальности, в том числе о хранении, удалении и уничтожении данных, доступны в OST. Используя Индексатор видео, вы обязуетесь соблюдать Условия Cognitive Services, OST, DPA и Заявление о конфиденциальности.
Встроенные предустановки
Сейчас Службы мультимедиа поддерживают следующие встроенные предустановки анализатора:
Имя предустановки | Сценарий / Режим | Сведения |
---|---|---|
AudioAnalyzerPreset | Анализ аудио — режим "Стандартный" | Эта предустановка применяет предопределенный набор операций анализа на основе ИИ, включая транскрибирование речи. В настоящее время она поддерживает обработку содержимого с одной звуковой дорожкой, содержащей речь на одном языке. Укажите язык для полезных данных аудио во входных данных. Для этого используется формат BCP-47 "тег языка — регион". Доступные коды языков см. в списке поддерживаемых языков. При автоматическом определении языка выбирается первый обнаруженный язык, и далее выбранный язык используется для всего файла, если он не задан, или имеет значение null. Функция автоматического определения языка сейчас поддерживается для таких языков: английский, китайский, французский, немецкий, итальянский, японский, испанский, русский и бразильский вариант португальского языка. Динамическое переключение между языками после определения первого языка не поддерживается. Автоматическое распознавание языка лучше всего работает с аудиозаписями с четко различимой речью. Если функции автоматического распознавания языка не удается определить язык, транскрибирование выполняется на английском языке. |
AudioAnalyzerPreset | Анализ аудио — режим "Базовый" | Этот предустановленный режим выполняет транскрибирование речи в текст и создает файл с субтитрами или заголовком VTT. Выходные данные этого режима включают в себя файл JSON Insights, содержащий только ключевые слова, транскрипцию и сведения о времени. Автоматическое распознавание языка и диаризация говорящего в этом режиме не выполняются. Список поддерживаемых языков идентичен приведенному выше списку для режима "Стандартный". |
VideoAnalyzerPreset | Анализ аудио и видео | Извлекает из аудио и видео аналитические данные (подробные метаданные) и выдает файл в формате JSON. Можно указать, если нужно извлекать аналитические данные только для аудио при обработке видеофайла. |
FaceDetectorPreset | Обнаружение лиц, присутствующих в видео | Описывает параметры, используемые при анализе видео для обнаружения всех присутствующих лиц. |
Примечание
AudioAnalyzerPreset не поддерживается, если учетная запись хранения не имеет доступа к общедоступной сети.
Поддерживаемые языки
- Арабский ("ar-BH", "ar-EG", "ar-IQ", "ar-JO", "ar-KW", "ar-LB", "ar-OM", "ar-QA", "ar-SA" и "ar-SY")
- Португальский (Бразилия) ("pt-BR")
- Китайский ("zh-CN")
- Датский ("da-DK")
- Английский ("en-US", "en-GB" и "en-AU")
- Финский ("fi-FI")
- Французский ("fr-FR" и "fr-CA")
- Немецкий ("de-DE")
- Иврит ("he-IL")
- Хинди ("hi-IN"), Корейский ("ko-KR")
- Итальянский ("it-IT")
- Японский ("ja-JP")
- Норвежский ("nb-NO")
- Персидский ("fa-IR")
- Португальский (Португалия) ("pt-PT")
- Русский ("ru-RU")
- Испанский ("es-ES" и "es-MX")
- Шведский ("sv-SE")
- Тайский ("th-TH")
- Турецкий ("tr-TR")
Примечание
AudioAnalyzerPreset не поддерживается, если учетная запись хранения не имеет доступа к общедоступной сети.
AudioAnalyzerPreset — режим "Стандартный"
Эта предустановка позволяет извлечь из аудио- и видеофайлов множество аналитических сведений об аудио.
Выходные данные включают в себя JSON-файл (со всеми сведениями) и VTT-файл расшифровки аудиозаписи. Эта предустановка принимает свойство, которое указывает язык входного файла в виде строки BCP47. Аналитические сведения об аудиофайле включают в себя:
- Транскрибирование аудио — расшифровка произнесенных слов с метками времени. Поддерживается несколько языков.
- Ключевые слова — ключевые слова, которые извлекаются из транскрипции аудио.
AudioAnalyzerPreset — режим "Базовый"
Эта предустановка позволяет извлечь из аудио- и видеофайлов множество аналитических сведений об аудио.
Выходные данные включают в себя JSON-файл и VTT-файл для расшифровки аудио. Эта предустановка принимает свойство, которое указывает язык входного файла в виде строки BCP47. Выходные данные содержат:
- Транскрибирование аудио — расшифровка произнесенных слов с метками времени. Поддерживается несколько языков, но автоматическое определение языка и диаризация говорящего не выполняется.
- Ключевые слова — ключевые слова, которые извлекаются из транскрипции аудио.
VideoAnalyzerPreset
Эта предустановка позволяет извлечь из видеофайлов множество аналитических сведений об аудио и видео. Выходные данные включают в себя JSON-файл (со всеми сведениями), VTT-файл расшифровки аудиозаписи и коллекцию эскизов видео. Эта предустановка также принимает строку BCP47 (представляющую язык видео) как свойство. Сведения о видеосодержимом включают в себя все сведения об аудиосодержимом, упомянутые выше, и следующие дополнительные элементы:
- Отслеживание лица — промежуток времени, в течение которого лица присутствуют в видео. Для каждого лица задается идентификатор лица и соответствующая коллекция эскизов.
- Визуальный текст — текст, который обнаруживается с помощью оптического распознавания символов. Текст имеет метку времени, а также используется для извлечения ключевых слов (в дополнение к расшифровке аудио).
- Опорные кадры —набор ключевых кадров, извлеченных из видео.
- Модерация визуального содержимого —часть видео, отмеченная как содержимое для взрослых или материалы непристойного характера.
- Заметка —результат аннотирования видео на основе заданной объектной модели
Элементы insights.json
Выходные данные включают в себя файл JSON (insights.json) со всеми аналитическими сведениями, найденными в видео или аудио. Файл JSON может содержать один из следующих элементов:
transcript
Имя | Описание |
---|---|
идентификатор | Идентификатор строки. |
text | Сама расшифровка аудиозаписи. |
Язык | Язык расшифровки аудиозаписи. Предназначен для поддержки расшифровки, где каждая строка может быть написана на другом языке. |
instances | Список диапазонов времени, в которых появилась эта строка. Если экземпляр является расшифровкой, будет отображаться только один экземпляр. |
Пример
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
ocr
Имя | Описание |
---|---|
идентификатор | Идентификатор строки OCR. |
text | Текст OCR. |
confidence | Достоверность распознавания. |
Язык | Язык OCR. |
instances | Список диапазонов времени, где появилось это OCR (одно и то же OCR может появляться несколько раз). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
faces
Имя | Описание |
---|---|
идентификатор | Идентификатор лица. |
name | Обозначение лица. Это может быть Unknown #0, определенная опознанная знаменитость или обученный клиентом человек. |
confidence | Достоверности идентификации лица. |
description | Текстовое описание знаменитости. |
thumbnailId | Идентификатор эскиза лица. |
knownPersonId | Внутренний идентификатор (если это известный человек). |
referenceId | Идентификатор Bing (если это знаменитости из Bing). |
referenceType | В настоящее время только Bing. |
title | Должность (если это знаменитость, например, "генеральный директор корпорации Майкрософт"). |
imageurl | URL-адрес изображения, если это знаменитость. |
instances | Экземпляры, где лицо появилось в заданном диапазоне времени. У каждого экземпляра также есть thumbnailsId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
shots
Имя | Описание |
---|---|
идентификатор | Идентификатор снимка. |
keyframes | Список ключевых кадров в снимке (каждый из них имеет идентификатор и список временных интервалов экземпляров). Экземпляры ключевых кадров имеют поле thumbnailId с идентификатором эскиза keyFrame. |
instances | Список временных интервалов этого снимка (снимки имеют только один экземпляр). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
статистика
Имя | Описание |
---|---|
CorrespondenceCount | Количество соответствий в видео. |
WordCount | Число слов каждого говорящего. |
SpeakerNumberOfFragments | Число фрагментов в видео на определенного говорящего. |
SpeakerLongestMonolog | Самый длинный монолог говорящего. Учитываются также паузы в монологе говорящего. Паузы в начале и конце монолога удаляются. |
SpeakerTalkToListenRatio | Результат вычисления основан на длительности монолога говорящего (без учета пауз между монологами), деленной на общее время видео. Значение времени округляется до трех знаков после запятой. |
метки;
Имя | Описание |
---|---|
идентификатор | Идентификатор метки. |
name | Название метки (например, "Компьютер", "Телевизор"). |
Язык | Язык метки (при наличии перевода). BCP-47 |
instances | Список диапазонов времени, где появилась эта метка (метка может появляться несколько раз). У каждого экземпляра есть поле достоверности. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
keywords
Имя | Описание |
---|---|
идентификатор | Идентификатор ключевого слова. |
text | Идентификатор текста. |
confidence | Достоверность распознавания ключевого слова. |
Язык | Язык ключевого слова (при наличии перевода). |
instances | Список диапазонов времени, где появилось это ключевое слово (ключевое слово может появляться несколько раз). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
Блок visualContentModeration содержит диапазоны времени, в которых Индексатор видео, вероятно, обнаружил содержимое для взрослых. Если блок visualContentModeration пуст, значит, содержимого предназначенного для взрослых не обнаружено.
Видео, в которых обнаружено содержимое для взрослых или содержимое непристойного характера, могут быть доступны только для закрытого просмотра. Пользователи могут отправить запрос на проверку содержимого человеком. В таком случае атрибут IsAdult
будет содержать результаты проверки, выполненной человеком.
Имя | Описание |
---|---|
идентификатор | Идентификатор модерации визуального контента. |
adultScore | Результат оценки содержимого для взрослых (от Content Moderator). |
racyScore | Результат оценки содержимого непристойного характера (от Content Moderator). |
instances | Список диапазонов времени, где применяется модерация контента. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Справка и поддержка
Вы можете обратиться к Службам мультимедиа с вопросами или следить за нашими обновлениями одним из следующих способов:
- ВОПРОСЫ И ОТВЕТЫ
- Stack Overflow. Пометьте вопросы с помощью
azure-media-services
. - @MSFTAzureMedia или используйте @AzureSupport для запроса на поддержку.
- Отправьте запрос в службу поддержки через портал Azure.