Video ve ses dosyalarını Azure Media Services Çözümleme
Uyarı
11 Haziran 2020’de Microsoft, insan haklarına dayalı etkili düzenlemeler yapılmadığı sürece ABD’deki polis departmanlarına yüz tanıma teknolojisi satmayacağını duyurmuştur. Bu nedenle, müşteriler yüz tanıma özelliklerini veya for Media (eski adıyla Video Indexer) gibi Azure video analizine dahil olmak üzere, müşteriler ise veya Birleşik Devletler bir polis departmanı için veya için bu hizmetlerin kullanılmasına izin veren bir işlevi kullanamaz.
v2 Media Services mı arayabilirsiniz?
Azure Media Services v3, medya için Azure video çözümleyicisi (eski adıyla Video Indexer) ile video ve ses dosyalarından öngörüleri ayıklamanıza olanak tanır. bu makalede, bu öngörüleri ayıklamak için kullanılan Media Services v3 analyzer önayarları açıklanmaktadır. Daha ayrıntılı Öngörüler istiyorsanız, medya için doğrudan video Çözümleyicisi ' ni kullanın. Video çözümleyicisi 'nin medya ve Media Services çözümleyici önayarları için ne zaman kullanılacağını anlamak için karşılaştırma belgesinegöz atın.
Ses Çözümleyicisi önceden ayarlanmış, temel ve standart olmak üzere iki mod vardır. Aşağıdaki tabloda bulunan farkların açıklamasına bakın.
Media Services v3 ön ayarlarını kullanarak içeriğinizi analiz etmek için bir dönüşüm oluşturur ve şu önayarlardan birini kullanan bir iş gönderebilirsiniz: videoanalizzerönayar veya audioanalizzerönayar. Videoanalizzerönayar'in nasıl kullanılacağını gösteren bir öğretici için bkz. Azure Media Services videoları analiz etme.
Uyumluluk, Gizlilik ve Güvenlik
Önemli bir anımsatıcı olarak, medya için video Çözümleyicisi 'nin kullanımıyla ilgili tüm yasalara uymanız gerekir ve medya için video Çözümleyicisi 'ni veya diğer Azure hizmetini diğerlerinin haklarını ihlal eden veya başkalarına zararlı olabilecek bir biçimde kullanamazsınız. Biyometrik veriler de dahil olmak üzere herhangi bir video yüklemeden önce, işleme ve depolamaya yönelik medya hizmeti için video Çözümleyicisi ' ne uygun olan tüm haklara sahip olmanız gerekir. Medya için video Çözümleyicisi 'nde uyumluluk, gizlilik ve güvenlik hakkında bilgi edinmek için Azure bilişsel Hizmetler koşulları. Microsoft 'un gizlilik yükümlülüklerini ve verilerinizi işleme için lütfen Microsoft 'un Gizlilik bildirimini, çevrimiçi hizmetler koşullarını ("OST") ve veri Işleme eki 'ni ("DPA") gözden geçirin. Veri saklama, silme/yok etme dahil olmak üzere ek gizlilik bilgileri, OST ve buradabulunabilir. Medya için video Çözümleyicisi 'ni kullanarak bilişsel hizmetler koşulları, OST, DPA ve gizlilik bildirimiyle bağlanmayı kabul etmiş olursunuz.
Yerleşik ön ayarlar
Media Services şu anda aşağıdaki yerleşik çözümleyici önayarlarını desteklemektedir:
| Önceden ayarlanmış ad | Senaryo/mod | Ayrıntılar |
|---|---|---|
| Audioanaliz Zerönayar | Ses standart modunu çözümleme | Önayar, konuşma dökümü dahil olmak üzere, önceden tanımlanmış bir AI tabanlı analiz işlemleri kümesi uygular. Şu anda önayar, tek bir dilde konuşmayı içeren tek bir ses izlemeli içeriği işlemeyi destekler. Girişte ses yükünün dilini ' Language Tag-Region ' BCP-47 biçimini kullanarak belirtebilirsiniz. desteklenen diller ingilizce (' en-US ', ' en-GB ' ve ' en-AU '), ispanyolca (' es-es ' ve ' es-MX '), fransızca (' fr-fr ' ve ' fr-CA '), italyanca (' bt bt '), japonca (' ja-JP '), portekizce (' pt-BR '), çince (' zh-CN '), almanca (' de-de '), arapça (' ar-BH ', ' ar-EG ', ' ar-ıq ', ' ar-JO ', ' ar-KW ', ' ar-LB ', ' ar-OM ', ' ar-QA ', ' ar-SA ' ve ' ar-SY '), rusça (' ru-ru '), hintçe (' hi-IN '), korece (' ko-KR '), danca (' da-DK '), norveççe (' nb-NO '), isveççe (' zf-SE '), fince (' fı-fi '), tay dili (' th-th ') ve türkçe ( ' tr-TR '). Dil belirtilmezse veya null olarak ayarlanırsa, otomatik dil algılama algılanan ilk dili seçer ve dosya süresince seçili dile devam eder. Otomatik dil algılama özelliği şu anda Ingilizce, Çince, Fransızca, Almanca, Italyanca, Japonca, Ispanyolca, Rusça ve Portekizce desteklemektedir. İlk dil algılandıktan sonra diller arasında dinamik geçiş yapmayı desteklemez. Otomatik dil algılama özelliği, açık bir konuşma sayesinde ses kayıtları ile en iyi şekilde işe yarar. Otomatik dil algılama dili bulamazsa, geri bulma işlemi Ingilizce 'ye döner. |
| Audioanaliz Zerönayar | Ses temel modunu çözümleme | Bu önceden ayarlama modu, bir VTT alt başlık/başlık dosyasının konuşma ve oluşturma işlemlerini metne dönüştürme ve oluşturma işlemi gerçekleştirir. bu modun çıktısı yalnızca anahtar sözcükler, döküm ve zamanlama bilgileri dahil olmak üzere bir Analizler JSON dosyası içerir. Bu modda otomatik dil algılama ve konuşmacı seçme dahil değildir. Desteklenen dillerin listesi yukarıdaki standart modla aynıdır. |
| Videoanaliz Zerönayar | Ses ve video çözümleme | Hem ses hem de videodan Öngörüler (zengin meta veriler) ayıklar ve bir JSON biçim dosyası verir. Video dosyasını işlerken yalnızca ses öngörülerini ayıklamak isteyip istemediğinizi belirtebilirsiniz. Daha fazla bilgi için bkz. video çözümleme. |
| Facedetectorönayar | Videoda bulunan yüzler algılanıyor | Bir video çözümlenirken, mevcut tüm yüzleri tespit etmek için kullanılacak ayarları açıklar. |
Audioanalöneri önceden ayarlanmış standart modu
Önceden ayarlanmış, bir ses veya video dosyasından birden çok ses öngörülerini ayıklamanızı sağlar.
Çıktı, ses dökümü için bir JSON dosyası (tüm Öngörüler ile) ve VTT dosyasını içerir. Bu önayar, bir BCP47 dizesi biçimindeki giriş dosyasının dilini belirten bir özelliği kabul eder. Ses öngörüleri şunları içerir:
- Ses dökümü: zaman damgalarına sahip konuşulan sözcüklerin dökümünü alma. Birden çok dil desteklenir.
- Konuşmacı dizin oluşturma: konuşmacıları ve ilgili konuşulan kelimeleri eşleme.
- Konuşma yaklaşımı Analizi: ses dökümü üzerinde gerçekleştirilen yaklaşım analizinin çıktısı.
- Anahtar sözcükler: ses dökümden ayıklanan anahtar sözcükler.
Audioanaliz Zerönayar temel modu
Önceden ayarlanmış, bir ses veya video dosyasından birden çok ses öngörülerini ayıklamanızı sağlar.
Çıktı, ses dökümü için bir JSON dosyası ve VTT dosyası içerir. Bu önayar, bir BCP47 dizesi biçimindeki giriş dosyasının dilini belirten bir özelliği kabul eder. Çıktı şunları içerir:
- Ses dökümü: zaman damgalarına sahip konuşulan sözcüklerin dökümünü alma. Birden çok dil desteklenir, ancak otomatik dil algılama ve konuşmacı koruması dahil edilmez.
- Anahtar sözcükler: ses dökümden ayıklanan anahtar sözcükler.
Videoanaliz Zerönayar
Önceden ayarlanmış, bir video dosyasından birden çok ses ve video öngörüleri ayıklamanızı sağlar. Çıktı, bir JSON dosyası (tüm içgörüler ile), video dökümü için bir VTT dosyası ve küçük resim koleksiyonu içerir. Bu önayar Ayrıca özellik olarak bir BCP47 dizesi (videonun dilini temsil eder) kabul eder. Video öngörüleri yukarıda belirtilen tüm ses öngörülerini ve aşağıdaki ek öğeleri içerir:
- Yüz izleme: videoda yüzlerin bulunduğu zaman. Her yüz bir yüz KIMLIĞI ve karşılık gelen bir küçük resim koleksiyonuna sahiptir.
- Görsel metin: optik karakter tanıma aracılığıyla algılanan metin. Metin zaman damgalı olur ve anahtar sözcükleri ayıklamak için de kullanılır (ses dökümü dosyasına ek olarak).
- Ana kareler: videodan çıkarılan bir ana kare koleksiyonu.
- Görsel içerik denetimi: videoların, yetişkin veya Dicy olarak işaretlenen kısmı.
- Ek açıklama: önceden tanımlanmış bir nesne modeline göre videolara açıklama ekleme sonucu
Insights. JSON öğeleri
Çıktı, video veya ses üzerinde bulunan tüm öngörülere sahip bir JSON dosyası (Insights. JSON) içerir. JSON aşağıdaki öğeleri içerebilir:
döküm
| Ad | Açıklama |
|---|---|
| kimlik | Satır KIMLIĞI. |
| metin | Dökümü. |
| language | Döküm dili. Her satırın farklı bir dile sahip olduğu yazılı betiği desteklemeye yöneliktir. |
| larında | Bu satırın göründüğü zaman aralıklarının listesi. Örnek TRANSCRIPT ise, yalnızca 1 örneğe sahip olur. |
Örnek:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
OCR
| Ad | Açıklama |
|---|---|
| kimlik | OCR satır KIMLIĞI. |
| metin | OCR metni. |
| güvenilirlik | Tanıma güvenilirliği. |
| language | OCR dili. |
| larında | Bu OCR 'nin göründüğü zaman aralıklarının listesi (aynı OCR birden çok kez görünebilir). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
leri
| Ad | Açıklama |
|---|---|
| kimlik | Yüz KIMLIĞI. |
| name | Yüz adı. ' Bilinmeyen #0 ', tanımlanan bir ünlüde veya müşterinin eğitilen bir kişi olabilir. |
| güvenilirlik | Yüz tanıma kimlik güveni. |
| açıklama | Ünlüğün açıklaması. |
| thumbnailId | Bu yüzün küçük resminin KIMLIĞI. |
| Knownpersonıd | İç KIMLIK (bilinen bir kişiyse). |
| Referenceıd | Bing kimliği (Bing ünlütlik olursa). |
| referenceType | Şu anda yalnızca Bing. |
| başlık | Başlık (örneğin, "Microsoft 'un CEO 'SU"). |
| ImageUrl | Bir ünlüğlık ise resim URL 'SI. |
| larında | Yüzün verilen zaman aralığında göründüğü örnekler. Her örneğin bir thumbnailsId de vardır. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
görüntüleri
| Ad | Açıklama |
|---|---|
| kimlik | Görüntü KIMLIĞI. |
| Gezen | Görüntü içindeki anahtar çerçevelerinin listesi (her birinin bir KIMLIĞI ve bir örnek zaman aralığı listesi vardır). Anahtar çerçeve örneklerinin, ana karenin küçük resim KIMLIĞI olan bir thumbnailId alanı vardır. |
| larında | Bu görüntüsündeki zaman aralıklarının bir listesi (görüntüleri yalnızca 1 örneğe sahiptir). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
girecek
| Ad | Açıklama |
|---|---|
| Yazışma sayısı | Videodaki yazışma sayısı. |
| WordCount | Konuşmacı başına sözcük sayısı. |
| Hoparlörkernumberoffragments | Konuşmacının videoda bulunduğu parçaların miktarı. |
| SpeakerLongestMonolog | Hoparlörün en uzun monolog. Konuşmacı, monolog içinde susraysa dahil edilmiştir. Monolog 'in başındaki ve sonundaki sessizlik kaldırılır. |
| Hoparlörkertalktolistenratio | Hesaplama, konuşmacının monolog harcanan zamanına (arasında sessizlik olmadan), videonun toplam süresine göre bölünür. Saat, üçüncü ondalık noktaya yuvarlanır. |
yaklaşımları
Sentiments, sentimentType alanı tarafından toplanır (pozitif/nötr/negatif). Örneğin, 0-0.1, 0,1-0.2.
| Ad | Açıklama |
|---|---|
| kimlik | Yaklaşım KIMLIĞI. |
| averageScore | Bu yaklaşım türünün tüm örneklerinin ortalaması-pozitif/nötr/negatif |
| larında | Bu yaklaşım görüntülenen zaman aralıklarının bir listesi. |
| sentimentType | Tür ' pozitif ', ' Nötr ' veya ' negative ' olabilir. |
"sentiments": [
{
"id": 0,
"averageScore": 0.87,
"sentimentType": "Positive",
"instances": [
{
"start": "00:00:23",
"end": "00:00:41"
}
]
}, {
"id": 1,
"averageScore": 0.11,
"sentimentType": "Positive",
"instances": [
{
"start": "00:00:13",
"end": "00:00:21"
}
]
}
]
etikete
| Ad | Açıklama |
|---|---|
| kimlik | Etiket KIMLIĞI. |
| name | Etiket adı (örneğin, ' bilgisayar ', ' TV '). |
| language | Etiket adı dili (çevrildiğinde). BCP-47 |
| larında | Bu etiketin göründüğü zaman aralıklarının listesi (bir etiket birden çok kez görünebilir). Her örneğin bir güvenirlik alanı vardır. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
anahtar sözcükler
| Ad | Açıklama |
|---|---|
| kimlik | Anahtar sözcük KIMLIĞI. |
| metin | Anahtar sözcük metni. |
| güvenilirlik | Anahtar sözcüğünün tanıma güvenilirliği. |
| language | Anahtar sözcük dili (çevrildiğinde). |
| larında | Bu anahtar sözcüğünün göründüğü zaman aralıklarının listesi (bir anahtar sözcük birden çok kez görünebilir). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
Visualcontentdenetlemesi
Visualcontentdenetlemesi bloğu, büyük olasılıkla yetişkinlere yönelik içeriğe sahip olan medya için video Çözümleyicisi 'nin bulunduğu zaman aralıklarını içerir. Visualcontentdenetlemesi boşsa, tanımlı yetişkin içerik yoktur.
Yetişkin veya kcy içeriği içeren videolar yalnızca özel görünüm için kullanılabilir olabilir. Kullanıcılar içeriğin insan incelemesi için bir istek gönderebilir ve bu durumda IsAdult öznitelik insan incelemesi sonucunu içerecektir.
| Ad | Açıklama |
|---|---|
| kimlik | Görsel içerik denetleme KIMLIĞI. |
| adultScore | Yetişkin puanı (İçerik Yöneticisi 'nden). |
| Oycyscore | Yağanın puanı (içerik denetleme). |
| larında | Bu görsel içerik denetimi 'nin göründüğü zaman aralıklarının listesi. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]