Opisywanie obrazów w języku czytelnym dla człowieka

przetwarzanie obrazów może analizować obraz i generować czytelne dla człowieka zdanie opisujące jego zawartość. Algorytm faktycznie zwraca kilka opisów na podstawie różnych cech wizualnych, a każdy opis ma ocenę ufności. Końcowe dane wyjściowe to lista opisów uporządkowanych od najwyższego do najniższego poziomu ufności.

Przykład opisu obrazu

Następująca odpowiedź JSON ilustruje, przetwarzanie obrazów zwraca podczas opisywania przykładowego obrazu na podstawie jego cech wizualnych.

Czarno-biały obraz budynków w Centrum

{
  "description": {
    "tags": ["outdoor", "building", "photo", "city", "white", "black", "large", "sitting", "old", "water", "skyscraper", "many", "boat", "river", "group", "street", "people", "field", "tall", "bird", "standing"],
    "captions": [
      {
        "text": "a black and white photo of a city",
        "confidence": 0.95301952483304808
      },
      {
        "text": "a black and white photo of a large city",
        "confidence": 0.94085190563213816
      },
      {
        "text": "a large white building in a city",
        "confidence": 0.93108362931954824
      }
    ]
  },
  "requestId": "b20bfc83-fb25-4b8d-a3f8-b2a1f084b159",
  "metadata": {
    "height": 300,
    "width": 239,
    "format": "Jpeg"
  }
}

Używanie interfejsu API

Funkcja opisu obrazu jest częścią interfejsu API analizowanie obrazów API. Ten interfejs API można wywołać za pomocą natywnego zestawu SDK lub wywołań REST. Uwzględnij Description w parametrze zapytania visualFeatures. Następnie, gdy otrzymasz pełną odpowiedź JSON, po prostu prze analizuj ciąg zawartości "description" sekcji.

Następne kroki

Poznaj powiązane pojęcia dotyczące tagowania obrazów i kategoryzacji obrazów.