Azure Media Services ile video ve ses dosyalarını analiz etme

Media Services logosu v3


Uyarı

Azure Media Services 30 Haziran 2024'de kullanımdan kaldırılacak. Daha fazla bilgi için bkz. AMS Kullanımdan Kaldırma Kılavuzu.

Önemli

Microsoft'un Sorumlu Yapay Zeka Standartları'nın özetlediği gibi, Microsoft yapay zeka sistemleriyle ilgili eşitlik, gizlilik, güvenlik ve saydamlık konusunda kararlıdır. Azure Media Services, bu standartlara uyum sağlamak için Video Analyzer ön ayarını 14 Eylül 2023'te kullanımdan kaldırmaktadır. Bu ön ayar şu anda bir video dosyasından birden çok video ve ses içgörüleri ayıklamanıza olanak tanır. Müşteriler, Azure Video Indexer tarafından sunulan daha gelişmiş özellik kümesini kullanarak geçerli iş akışlarını değiştirebilir.

Media Services, ses ve video çözümleyicisi ön ayarlarını kullanarak video ve ses dosyalarınızdan içgörü ayıklamanıza olanak tanır. Bu makalede içgörüleri ayıklamak için kullanılan çözümleyici ön ayarları açıklanmaktadır. Videolarınızdan daha ayrıntılı içgörüler elde etmek istiyorsanız Azure Video Indexer hizmetini kullanın. Video Indexer ile Media Services çözümleyicisi ön ayarlarının ne zaman kullanılacağını anlamak için karşılaştırma belgesine göz atın.

Ses Çözümleyicisi ön ayarı için temel ve standart iki mod vardır. Aşağıdaki tabloda yer alan farkların açıklamasına bakın.

Media Services v3 ön ayarlarını kullanarak içeriğinizi analiz etmek için bir Dönüşüm oluşturur ve şu ön ayarlardan birini kullanan bir İş gönderirsiniz: VideoAnalyzerPreset veya AudioAnalyzerPreset.

Not

Depolama hesabının genel ağ erişimi yoksa AudioAnalyzerPreset desteklenmez.

Uyumluluk, Gizlilik ve Güvenlik

Video Indexer kullanımınızda geçerli olan tüm yasalara uymanız gerekir ve Video Indexer'ı veya başka bir Azure hizmetini başkalarının haklarını ihlal eden veya başkalarına zarar veren bir şekilde kullanamazsınız. Biyometrik veriler dahil olmak üzere herhangi bir videoyu işlenmek ve depolamak üzere Video Indexer hizmetine yüklemeden önce, videodaki kişilerden gelen tüm uygun onaylar dahil olmak üzere tüm uygun haklara sahip olmanız gerekir. Azure Bilişsel Hizmetler Koşulları olan Video Indexer'da uyumluluk, gizlilik ve güvenlik hakkında bilgi edinmek için. Microsoft'un gizlilik yükümlülükleri ve verilerinizi işlemesi için Microsoft'un Gizlilik Bildirimi, Çevrimiçi Hizmet Koşulları ("OST") ve Veri İşleme Eki 'ni ("DPA") gözden geçirin. Veri saklama, silme/yok etme gibi daha fazla gizlilik bilgisi OST'de sağlanır. Video Indexer'ı kullanarak Bilişsel Hizmetler Koşulları, OST, DPA ve Gizlilik Bildirimi'ne bağlı olduğunuzu kabul etmiş olursunuz.

Yerleşik ön ayarlar

Media Services şu anda aşağıdaki yerleşik çözümleyici ön ayarlarını destekler:

Önceden ayarlanmış ad Senaryo / Mod Ayrıntılar
AudioAnalyzerPreset Ses Standart modunu analiz etme Ön ayar, konuşma transkripsiyonu dahil olmak üzere önceden tanımlanmış bir yapay zeka tabanlı analiz işlemleri kümesi uygular. Şu anda ön ayar, tek bir dilde konuşma içeren tek bir ses parçasıyla içerik işlemeyi destekler. 'language tag-region' öğesinin BCP-47 biçimini kullanarak girişteki ses yükünün dilini belirtin. Kullanılabilir dil kodları için aşağıdaki desteklenen diller listesine bakın. Otomatik dil algılama algılanan ilk dili seçer ve ayarlanmadıysa veya null olarak ayarlanmadıysa dosyanın tamamı için seçilen dille devam eder. Otomatik dil algılama özelliği şu anda şunları desteklemektedir: İngilizce, Çince, Fransızca, Almanca, İtalyanca, Japonca, İspanyolca, Rusça ve Brezilya Portekizcesi. İlk dil algılandıktan sonra diller arasında dinamik olarak geçişi desteklemez. Otomatik dil algılama özelliği, net bir şekilde ayırt edici konuşma içeren ses kayıtlarında en iyi şekilde çalışır. Otomatik dil algılama dili bulamazsa transkripsiyon İngilizceye geri döner.
AudioAnalyzerPreset Ses Temel modunu analiz etme Bu ön ayar modu, konuşmayı metne dönüştürme transkripsiyonu ve VTT alt başlığı/başlık dosyası oluşturma işlemlerini gerçekleştirir. Bu modun çıkışında yalnızca anahtar sözcükler, transkripsiyon ve zamanlama bilgilerini içeren bir İçgörüler JSON dosyası bulunur. Otomatik dil algılama ve konuşmacıyı dağıtma bu moda dahil değildir. Desteklenen dillerin listesi yukarıdaki Standart modla aynıdır.
VideoAnalyzerPreset Ses ve video analizi Hem ses hem de videodan içgörüleri (zengin meta veriler) ayıklar ve JSON biçimli bir dosya çıkarır. Video dosyasını işlerken yalnızca ses içgörülerini ayıklamak isteyip istemediğinizi belirtebilirsiniz.
FaceDetectorPreset Videoda bulunan yüzleri algılama Mevcut tüm yüzleri algılamak için bir videoyu analiz ederken kullanılacak ayarları açıklar.

Not

Depolama hesabının genel ağ erişimi yoksa AudioAnalyzerPreset desteklenmez.

Desteklenen diller

  • Arapça ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' ve 'ar-SY')
  • Brezilya Portekizcesi ('pt-BR')
  • Çince ('zh-CN')
  • Danca ('da-DK')
  • İngilizce ('en-US', 'en-GB' ve 'en-AU')
  • Fince ('fi-FI')
  • Fransızca ('fr-FR' ve 'fr-CA')
  • Almanca ('de-DE')
  • İbranice (he-IL)
  • Hintçe ('hi-IN'), Korece ('ko-KR')
  • İtalyanca ('it-IT')
  • Japonca ('ja-JP')
  • Norveç dili ('nb-NO')
  • Farsça ('fa-IR')
  • Portekiz Portekizcesi ('pt-PT')
  • Rusça ('ru-RU')
  • İspanyolca ('es-ES' ve 'es-MX')
  • İsveççe ('sv-SE')
  • Tay dili ('th-TH')
  • Türkçe ('tr-TR')

Not

Depolama hesabının genel ağ erişimi yoksa AudioAnalyzerPreset desteklenmez.

AudioAnalyzerPreset standart modu

Ön ayar, bir ses veya video dosyasından birden çok ses içgörüleri ayıklamanıza olanak tanır.

Çıkış, ses transkripti için bir JSON dosyası (tüm içgörülerle birlikte) ve VTT dosyası içerir. Bu ön ayar, giriş dosyasının dilini BCP47 dizesi biçiminde belirten bir özelliği kabul eder. Ses içgörüleri şunları içerir:

  • Ses transkripsiyonu: Zaman damgaları içeren konuşulan sözcüklerin dökümü. Birden çok dil desteklenir.
  • Anahtar Sözcükler: Ses transkripsiyonundan ayıklanan anahtar sözcükler.

AudioAnalyzerPreset temel modu

Ön ayar, bir ses veya video dosyasından birden çok ses içgörüleri ayıklamanıza olanak tanır.

Çıkış, ses transkripti için bir JSON dosyası ve VTT dosyası içerir. Bu ön ayar, giriş dosyasının dilini BCP47 dizesi biçiminde belirten bir özelliği kabul eder. Çıktı şunları içerir:

  • Ses transkripsiyonu: Zaman damgaları içeren konuşulan sözcüklerin dökümü. Birden çok dil desteklenir, ancak otomatik dil algılama ve konuşmacıyı dağıtma dahil değildir.
  • Anahtar Sözcükler: Ses transkripsiyonundan ayıklanan anahtar sözcükler.

VideoAnalyzerPreset

Ön ayar, bir video dosyasından birden çok ses ve video içgörüleri ayıklamanızı sağlar. Çıktıda bir JSON dosyası (tüm içgörülerle birlikte), video transkripti için bir VTT dosyası ve küçük resim koleksiyonu bulunur. Bu ön ayar ayrıca bir BCP47 dizesini (videonun dilini temsil eder) özellik olarak kabul eder. Video içgörüleri, yukarıda belirtilen tüm ses içgörülerini ve aşağıdaki ek öğeleri içerir:

  • Yüz izleme: Videoda yüzlerin bulunduğu süre. Her yüzün bir yüz kimliği ve buna karşılık gelen küçük resim koleksiyonu vardır.
  • Görsel metin: Optik karakter tanıma aracılığıyla algılanan metin. Metin zaman damgalıdır ve anahtar sözcükleri ayıklamak için de kullanılır (ses transkriptine ek olarak).
  • Ana kareler: Videodan ayıklanan bir anahtar kare koleksiyonu.
  • Görsel içerik moderasyonu: Videoların yetişkinlere uygun veya müstehcen olarak işaretlediği kısmı.
  • Ek Açıklama: Önceden tanımlanmış bir nesne modeline göre videolara açıklama eklemenin sonucu

öğeleri insights.json

Çıktı, videoda veya seste bulunan tüm içgörüleri içeren bir JSON dosyası (insights.json) içerir. JSON aşağıdaki öğeleri içerebilir:

Transkript

Ad Açıklama
kimlik Satır kimliği.
metin Transkriptinin kendisi.
language Transkript dili. Her satırın farklı bir dile sahip olabileceği transkripti desteklemek için tasarlanmıştır.
Örnek Bu satırın göründüğü zaman aralıklarının listesi. Örnek transkript ise yalnızca bir örneği olur.

Örnek:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Ad Açıklama
kimlik OCR satır kimliği.
metin OCR metni.
güvenilirlik Tanıma güveni.
language OCR dili.
Örnek Bu OCR'nin göründüğü zaman aralıklarının listesi (aynı OCR birden çok kez görünebilir).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Yüz

Ad Açıklama
kimlik Yüz kimliği.
name Yüz adı. 'Bilinmeyen #0', kimliği belirlenen bir ünlü veya müşteri tarafından eğitilmiş bir kişi olabilir.
güvenilirlik Yüz tanımlama güveni.
açıklama Ünlünün açıklaması.
thumbnailId Bu yüzün küçük resminin kimliği.
knownPersonId İç kimlik (bilinen bir kişiyse).
referenceId Bing Kimliği (Bing ünlüsüyse).
referenceType Şu anda yalnızca Bing.
başlık Başlık ("Microsoft'un CEO'su" gibi bir ünlüyse).
ımageurl Ünlü biriyse resim URL'si.
Örnek Yüzün verilen zaman aralığında göründüğü örnekler. Her örneğin bir thumbnailsId değeri de vardır.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Çekim

Ad Açıklama
kimlik Atış kimliği.
keyFrames Çekimdeki anahtar çerçevelerin listesi (her birinin bir kimliği ve örnek zaman aralıkları listesi vardır). Anahtar çerçeve örnekleri, keyFrame'in küçük resim kimliğini içeren bir thumbnailId alanına sahiptir.
Örnek Bu çekimin zaman aralıklarının listesi (çekimlerin yalnızca bir örneği vardır).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

Istatistik

Ad Açıklama
CorrespondenceCount Videodaki yazışma sayısı.
WordCount Konuşmacı başına sözcük sayısı.
SpeakerNumberOfFragments Konuşmacının bir videodaki parça miktarı.
SpeakerLongestMonolog Konuşmacının en uzun monologu. Hoparlörün monologun içinde sessizlikler varsa, buna dahildir. Monologun başındaki ve sonundaki sessizlik kaldırılır.
SpeakerTalkToListenRatio Hesaplama, konuşmacının monologunda harcanan süreyi (aradaki sessizlik olmadan) videonun toplam süresine bölünerek temel alır. Saat, üçüncü ondalık ayırıcıya yuvarlandı.

Etiket

Ad Açıklama
kimlik Etiket kimliği.
name Etiket adı (örneğin, 'Bilgisayar', 'TV').
language Etiket adı dili (çevrildiğinde). BCP-47
Örnek Bu etiketin göründüğü zaman aralıklarının listesi (bir etiket birden çok kez görünebilir). Her örneğin bir güvenilirlik alanı vardır.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

anahtar sözcükler

Ad Açıklama
kimlik Anahtar sözcük kimliği.
metin Anahtar sözcük metni.
güvenilirlik Anahtar sözcüğün tanıma güveni.
language Anahtar sözcük dili (çevrildiğinde).
Örnek Bu anahtar sözcüğün göründüğü zaman aralıklarının listesi (bir anahtar sözcük birden çok kez görünebilir).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

visualContentModeration bloğu, Video Indexer'ın yetişkinlere yönelik içeriğe sahip olabileceğini bulduğu zaman aralıklarını içerir. visualContentModeration boşsa, tanımlanan yetişkin içeriği yoktur.

Yetişkinlere yönelik veya müstehcen içerik içerdiği belirlenen videolar yalnızca özel görünüm için kullanılabilir. Kullanıcılar içeriğin insan incelemesi için bir istek gönderebilir ve bu durumda IsAdult öznitelik, insan incelemesinin sonucunu içerir.

Ad Açıklama
kimlik Görsel içerik denetleme kimliği.
adultScore Yetişkin puanı (içerik moderatöründen).
racyScore Müstehcen puan (içerik denetiminden).
Örnek Bu görsel içerik denetiminin görüntülendiği zaman aralıklarının listesi.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Yardım ve destek alma

Aşağıdaki yöntemlerden birini kullanarak Media Services ile iletişime geçebilir veya güncelleştirmelerimizi izleyebilirsiniz: