Video ve ses dosyalarını Azure Media Services Çözümleme

Uyarı

11 Haziran 2020’de Microsoft, insan haklarına dayalı etkili düzenlemeler yapılmadığı sürece ABD’deki polis departmanlarına yüz tanıma teknolojisi satmayacağını duyurmuştur. Bu nedenle, müşteriler yüz tanıma özelliklerini veya for Media (eski adıyla Video Indexer) gibi Azure video analizine dahil olmak üzere, müşteriler ise veya Birleşik Devletler bir polis departmanı için veya için bu hizmetlerin kullanılmasına izin veren bir işlevi kullanamaz.

media services logosu v3


v2 Media Services mı arayabilirsiniz?

Azure Media Services v3, medya için Azure video çözümleyicisi (eski adıyla Video Indexer) ile video ve ses dosyalarından öngörüleri ayıklamanıza olanak tanır. bu makalede, bu öngörüleri ayıklamak için kullanılan Media Services v3 analyzer önayarları açıklanmaktadır. Daha ayrıntılı Öngörüler istiyorsanız, medya için doğrudan video Çözümleyicisi ' ni kullanın. Video çözümleyicisi 'nin medya ve Media Services çözümleyici önayarları için ne zaman kullanılacağını anlamak için karşılaştırma belgesinegöz atın.

Ses Çözümleyicisi önceden ayarlanmış, temel ve standart olmak üzere iki mod vardır. Aşağıdaki tabloda bulunan farkların açıklamasına bakın.

Media Services v3 ön ayarlarını kullanarak içeriğinizi analiz etmek için bir dönüşüm oluşturur ve şu önayarlardan birini kullanan bir gönderebilirsiniz: videoanalizzerönayar veya audioanalizzerönayar. Videoanalizzerönayar'in nasıl kullanılacağını gösteren bir öğretici için bkz. Azure Media Services videoları analiz etme.

Uyumluluk, Gizlilik ve Güvenlik

Önemli bir anımsatıcı olarak, medya için video Çözümleyicisi 'nin kullanımıyla ilgili tüm yasalara uymanız gerekir ve medya için video Çözümleyicisi 'ni veya diğer Azure hizmetini diğerlerinin haklarını ihlal eden veya başkalarına zararlı olabilecek bir biçimde kullanamazsınız. Biyometrik veriler de dahil olmak üzere herhangi bir video yüklemeden önce, işleme ve depolamaya yönelik medya hizmeti için video Çözümleyicisi ' ne uygun olan tüm haklara sahip olmanız gerekir. Medya için video Çözümleyicisi 'nde uyumluluk, gizlilik ve güvenlik hakkında bilgi edinmek için Azure bilişsel Hizmetler koşulları. Microsoft 'un gizlilik yükümlülüklerini ve verilerinizi işleme için lütfen Microsoft 'un Gizlilik bildirimini, çevrimiçi hizmetler koşullarını ("OST") ve veri Işleme eki 'ni ("DPA") gözden geçirin. Veri saklama, silme/yok etme dahil olmak üzere ek gizlilik bilgileri, OST ve buradabulunabilir. Medya için video Çözümleyicisi 'ni kullanarak bilişsel hizmetler koşulları, OST, DPA ve gizlilik bildirimiyle bağlanmayı kabul etmiş olursunuz.

Yerleşik ön ayarlar

Media Services şu anda aşağıdaki yerleşik çözümleyici önayarlarını desteklemektedir:

Önceden ayarlanmış ad Senaryo/mod Ayrıntılar
Audioanaliz Zerönayar Ses standart modunu çözümleme Önayar, konuşma dökümü dahil olmak üzere, önceden tanımlanmış bir AI tabanlı analiz işlemleri kümesi uygular. Şu anda önayar, tek bir dilde konuşmayı içeren tek bir ses izlemeli içeriği işlemeyi destekler. Girişte ses yükünün dilini ' Language Tag-Region ' BCP-47 biçimini kullanarak belirtebilirsiniz. desteklenen diller ingilizce (' en-US ', ' en-GB ' ve ' en-AU '), ispanyolca (' es-es ' ve ' es-MX '), fransızca (' fr-fr ' ve ' fr-CA '), italyanca (' bt bt '), japonca (' ja-JP '), portekizce (' pt-BR '), çince (' zh-CN '), almanca (' de-de '), arapça (' ar-BH ', ' ar-EG ', ' ar-ıq ', ' ar-JO ', ' ar-KW ', ' ar-LB ', ' ar-OM ', ' ar-QA ', ' ar-SA ' ve ' ar-SY '), rusça (' ru-ru '), hintçe (' hi-IN '), korece (' ko-KR '), danca (' da-DK '), norveççe (' nb-NO '), isveççe (' zf-SE '), fince (' fı-fi '), tay dili (' th-th ') ve türkçe ( ' tr-TR ').

Dil belirtilmezse veya null olarak ayarlanırsa, otomatik dil algılama algılanan ilk dili seçer ve dosya süresince seçili dile devam eder. Otomatik dil algılama özelliği şu anda Ingilizce, Çince, Fransızca, Almanca, Italyanca, Japonca, Ispanyolca, Rusça ve Portekizce desteklemektedir. İlk dil algılandıktan sonra diller arasında dinamik geçiş yapmayı desteklemez. Otomatik dil algılama özelliği, açık bir konuşma sayesinde ses kayıtları ile en iyi şekilde işe yarar. Otomatik dil algılama dili bulamazsa, geri bulma işlemi Ingilizce 'ye döner.
Audioanaliz Zerönayar Ses temel modunu çözümleme Bu önceden ayarlama modu, bir VTT alt başlık/başlık dosyasının konuşma ve oluşturma işlemlerini metne dönüştürme ve oluşturma işlemi gerçekleştirir. bu modun çıktısı yalnızca anahtar sözcükler, döküm ve zamanlama bilgileri dahil olmak üzere bir Analizler JSON dosyası içerir. Bu modda otomatik dil algılama ve konuşmacı seçme dahil değildir. Desteklenen dillerin listesi yukarıdaki standart modla aynıdır.
Videoanaliz Zerönayar Ses ve video çözümleme Hem ses hem de videodan Öngörüler (zengin meta veriler) ayıklar ve bir JSON biçim dosyası verir. Video dosyasını işlerken yalnızca ses öngörülerini ayıklamak isteyip istemediğinizi belirtebilirsiniz. Daha fazla bilgi için bkz. video çözümleme.
Facedetectorönayar Videoda bulunan yüzler algılanıyor Bir video çözümlenirken, mevcut tüm yüzleri tespit etmek için kullanılacak ayarları açıklar.

Audioanalöneri önceden ayarlanmış standart modu

Önceden ayarlanmış, bir ses veya video dosyasından birden çok ses öngörülerini ayıklamanızı sağlar.

Çıktı, ses dökümü için bir JSON dosyası (tüm Öngörüler ile) ve VTT dosyasını içerir. Bu önayar, bir BCP47 dizesi biçimindeki giriş dosyasının dilini belirten bir özelliği kabul eder. Ses öngörüleri şunları içerir:

  • Ses dökümü: zaman damgalarına sahip konuşulan sözcüklerin dökümünü alma. Birden çok dil desteklenir.
  • Konuşmacı dizin oluşturma: konuşmacıları ve ilgili konuşulan kelimeleri eşleme.
  • Konuşma yaklaşımı Analizi: ses dökümü üzerinde gerçekleştirilen yaklaşım analizinin çıktısı.
  • Anahtar sözcükler: ses dökümden ayıklanan anahtar sözcükler.

Audioanaliz Zerönayar temel modu

Önceden ayarlanmış, bir ses veya video dosyasından birden çok ses öngörülerini ayıklamanızı sağlar.

Çıktı, ses dökümü için bir JSON dosyası ve VTT dosyası içerir. Bu önayar, bir BCP47 dizesi biçimindeki giriş dosyasının dilini belirten bir özelliği kabul eder. Çıktı şunları içerir:

  • Ses dökümü: zaman damgalarına sahip konuşulan sözcüklerin dökümünü alma. Birden çok dil desteklenir, ancak otomatik dil algılama ve konuşmacı koruması dahil edilmez.
  • Anahtar sözcükler: ses dökümden ayıklanan anahtar sözcükler.

Videoanaliz Zerönayar

Önceden ayarlanmış, bir video dosyasından birden çok ses ve video öngörüleri ayıklamanızı sağlar. Çıktı, bir JSON dosyası (tüm içgörüler ile), video dökümü için bir VTT dosyası ve küçük resim koleksiyonu içerir. Bu önayar Ayrıca özellik olarak bir BCP47 dizesi (videonun dilini temsil eder) kabul eder. Video öngörüleri yukarıda belirtilen tüm ses öngörülerini ve aşağıdaki ek öğeleri içerir:

  • Yüz izleme: videoda yüzlerin bulunduğu zaman. Her yüz bir yüz KIMLIĞI ve karşılık gelen bir küçük resim koleksiyonuna sahiptir.
  • Görsel metin: optik karakter tanıma aracılığıyla algılanan metin. Metin zaman damgalı olur ve anahtar sözcükleri ayıklamak için de kullanılır (ses dökümü dosyasına ek olarak).
  • Ana kareler: videodan çıkarılan bir ana kare koleksiyonu.
  • Görsel içerik denetimi: videoların, yetişkin veya Dicy olarak işaretlenen kısmı.
  • Ek açıklama: önceden tanımlanmış bir nesne modeline göre videolara açıklama ekleme sonucu

Insights. JSON öğeleri

Çıktı, video veya ses üzerinde bulunan tüm öngörülere sahip bir JSON dosyası (Insights. JSON) içerir. JSON aşağıdaki öğeleri içerebilir:

döküm

Ad Açıklama
kimlik Satır KIMLIĞI.
metin Dökümü.
language Döküm dili. Her satırın farklı bir dile sahip olduğu yazılı betiği desteklemeye yöneliktir.
larında Bu satırın göründüğü zaman aralıklarının listesi. Örnek TRANSCRIPT ise, yalnızca 1 örneğe sahip olur.

Örnek:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
] 

OCR

Ad Açıklama
kimlik OCR satır KIMLIĞI.
metin OCR metni.
güvenilirlik Tanıma güvenilirliği.
language OCR dili.
larında Bu OCR 'nin göründüğü zaman aralıklarının listesi (aynı OCR birden çok kez görünebilir).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

leri

Ad Açıklama
kimlik Yüz KIMLIĞI.
name Yüz adı. ' Bilinmeyen #0 ', tanımlanan bir ünlüde veya müşterinin eğitilen bir kişi olabilir.
güvenilirlik Yüz tanıma kimlik güveni.
açıklama Ünlüğün açıklaması.
thumbnailId Bu yüzün küçük resminin KIMLIĞI.
Knownpersonıd İç KIMLIK (bilinen bir kişiyse).
Referenceıd Bing kimliği (Bing ünlütlik olursa).
referenceType Şu anda yalnızca Bing.
başlık Başlık (örneğin, "Microsoft 'un CEO 'SU").
ImageUrl Bir ünlüğlık ise resim URL 'SI.
larında Yüzün verilen zaman aralığında göründüğü örnekler. Her örneğin bir thumbnailsId de vardır.
"faces": [{
    "id": 2002,
    "name": "Xam 007",
    "confidence": 0.93844,
    "description": null,
    "thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
    "knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
    "referenceId": null,
    "title": null,
    "imageUrl": null,
    "instances": [{
        "thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
        "cef03f24-b0c7-4145-94d4-a84f81bb588c"],
        "adjustedStart": "00:00:07.2400000",
        "adjustedEnd": "00:00:45.6780000",
        "start": "00:00:07.2400000",
        "end": "00:00:45.6780000"
    },
    {
        "thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
        "adjustedStart": "00:10:23.9570000",
        "adjustedEnd": "00:10:39.2390000",
        "start": "00:10:23.9570000",
        "end": "00:10:39.2390000"
    }]
}]

görüntüleri

Ad Açıklama
kimlik Görüntü KIMLIĞI.
Gezen Görüntü içindeki anahtar çerçevelerinin listesi (her birinin bir KIMLIĞI ve bir örnek zaman aralığı listesi vardır). Anahtar çerçeve örneklerinin, ana karenin küçük resim KIMLIĞI olan bir thumbnailId alanı vardır.
larında Bu görüntüsündeki zaman aralıklarının bir listesi (görüntüleri yalnızca 1 örneğe sahiptir).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
                "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
            "thumbnailId": "00000000-0000-0000-0000-000000000000",  
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
                "thumbnailId": "00000000-0000-0000-0000-000000000000",      
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

girecek

Ad Açıklama
Yazışma sayısı Videodaki yazışma sayısı.
WordCount Konuşmacı başına sözcük sayısı.
Hoparlörkernumberoffragments Konuşmacının videoda bulunduğu parçaların miktarı.
SpeakerLongestMonolog Hoparlörün en uzun monolog. Konuşmacı, monolog içinde susraysa dahil edilmiştir. Monolog 'in başındaki ve sonundaki sessizlik kaldırılır.
Hoparlörkertalktolistenratio Hesaplama, konuşmacının monolog harcanan zamanına (arasında sessizlik olmadan), videonun toplam süresine göre bölünür. Saat, üçüncü ondalık noktaya yuvarlanır.

yaklaşımları

Sentiments, sentimentType alanı tarafından toplanır (pozitif/nötr/negatif). Örneğin, 0-0.1, 0,1-0.2.

Ad Açıklama
kimlik Yaklaşım KIMLIĞI.
averageScore Bu yaklaşım türünün tüm örneklerinin ortalaması-pozitif/nötr/negatif
larında Bu yaklaşım görüntülenen zaman aralıklarının bir listesi.
sentimentType Tür ' pozitif ', ' Nötr ' veya ' negative ' olabilir.
"sentiments": [
{
    "id": 0,
    "averageScore": 0.87,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:23",
        "end": "00:00:41"
    }
    ]
}, {
    "id": 1,
    "averageScore": 0.11,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:13",
        "end": "00:00:21"
    }
    ]
}
]

etikete

Ad Açıklama
kimlik Etiket KIMLIĞI.
name Etiket adı (örneğin, ' bilgisayar ', ' TV ').
language Etiket adı dili (çevrildiğinde). BCP-47
larında Bu etiketin göründüğü zaman aralıklarının listesi (bir etiket birden çok kez görünebilir). Her örneğin bir güvenirlik alanı vardır.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ] 

anahtar sözcükler

Ad Açıklama
kimlik Anahtar sözcük KIMLIĞI.
metin Anahtar sözcük metni.
güvenilirlik Anahtar sözcüğünün tanıma güvenilirliği.
language Anahtar sözcük dili (çevrildiğinde).
larında Bu anahtar sözcüğünün göründüğü zaman aralıklarının listesi (bir anahtar sözcük birden çok kez görünebilir).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
] 

Visualcontentdenetlemesi

Visualcontentdenetlemesi bloğu, büyük olasılıkla yetişkinlere yönelik içeriğe sahip olan medya için video Çözümleyicisi 'nin bulunduğu zaman aralıklarını içerir. Visualcontentdenetlemesi boşsa, tanımlı yetişkin içerik yoktur.

Yetişkin veya kcy içeriği içeren videolar yalnızca özel görünüm için kullanılabilir olabilir. Kullanıcılar içeriğin insan incelemesi için bir istek gönderebilir ve bu durumda IsAdult öznitelik insan incelemesi sonucunu içerecektir.

Ad Açıklama
kimlik Görsel içerik denetleme KIMLIĞI.
adultScore Yetişkin puanı (İçerik Yöneticisi 'nden).
Oycyscore Yağanın puanı (içerik denetleme).
larında Bu görsel içerik denetimi 'nin göründüğü zaman aralıklarının listesi.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
] 

Sonraki adımlar

Öğretici: Azure Media Services ile videoları analiz etme