Szybki start: rozpoczynanie pracy z narzędziem GPT-4 Turbo z usługą Vision na obrazach i filmach wideo w usłudze Azure AI Studio

Artykuł
05/21/2024

Ważne

Niektóre funkcje opisane w tym artykule mogą być dostępne tylko w wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Skorzystaj z tego artykułu, aby rozpocząć korzystanie z usługi Azure AI Studio , aby wdrożyć i przetestować model GPT-4 Turbo z usługą Vision.

Usługa GPT-4 Turbo z usługą Vision i azure AI Vision oferuje zaawansowane funkcje, w tym:

Optyczne rozpoznawanie znaków (OCR): wyodrębnia tekst z obrazów i łączy go z monitem użytkownika i obrazem, aby rozwinąć kontekst.
Uziemanie obiektu: uzupełnia GPT-4 Turbo za pomocą odpowiedzi tekstowej vision z uziemienia obiektu i przedstawia ważne obiekty na obrazach wejściowych.
Monity wideo: GPT-4 Turbo with Vision może odpowiedzieć na pytania, pobierając klatki wideo najbardziej istotne dla monitu użytkownika.

Dodatkowe opłaty za użycie mogą mieć zastosowanie w przypadku korzystania z funkcji GPT-4 Turbo z funkcją przetwarzania obrazów i usługi Azure AI Vision.

Wymagania wstępne

Subskrypcja platformy Azure — utwórz bezpłatnie.
Dostęp jest udzielany usłudze Azure OpenAI w żądanej subskrypcji platformy Azure. Obecnie dostęp do tej usługi jest udzielany tylko przez aplikację. Możesz ubiegać się o dostęp do usługi Azure OpenAI, wypełniając formularz pod adresem https://aka.ms/oai/access. Otwórz problem w tym repozytorium, aby skontaktować się z nami, jeśli masz problem.
Po utworzeniu subskrypcji platformy Azure utwórz zasób usługi Azure OpenAI.
Centrum AI Studio z zasobem usługi Azure OpenAI dodanym jako połączenie.

Przygotowywanie nośnika

Aby ukończyć przewodniki Szybki start dotyczące obrazu, potrzebny jest obraz. Możesz użyć tego przykładowego obrazu lub dowolnego innego dostępnego obrazu.

W przypadku monitów wideo potrzebny jest film wideo o długości poniżej trzech minut.

Wdrażanie modelu GPT-4 Turbo za pomocą usługi Vision

Zaloguj się do usługi Azure AI Studio i wybierz centrum, w którym chcesz pracować.
W menu nawigacji po lewej stronie wybierz pozycję Usługi sztucznej inteligencji. Wybierz panel Wypróbuj GPT-4 Turbo.
Na stronie gpt-4 wybierz pozycję Wdróż. W wyświetlonym oknie wybierz zasób Azure OpenAI. Wybierz vision-preview jako wersję modelu.
Wybierz Wdróż.
Następnie przejdź do strony nowego modelu i wybierz pozycję Otwórz na placu zabaw. Na placu zabaw czatu na liście rozwijanej Wdrożenie należy wybrać utworzone wdrożenie GPT-4.

W tej sesji czatu poinstruujesz asystenta, aby pomóc w zrozumieniu obrazów, które wprowadzasz.

W polu tekstowym Komunikat systemowy na karcie Komunikat systemowy podaj ten monit, aby kierować asystentem: "You're an AI assistant that helps people find information." możesz dostosować monit do obrazu lub scenariusza.
Wybierz pozycję Zastosuj zmiany , aby zapisać zmiany.
W okienku sesji czatu wybierz przycisk załącznika, a następnie pozycję Przekaż obraz. Wybierz obraz.
Dodaj następujące pytanie w polu czatu: "Describe this image", a następnie wybierz ikonę strzałki w prawo, która ma zostać wysłana.
Ikona strzałki w prawo jest zastępowana przyciskiem Zatrzymaj. Jeśli go wybierzesz, asystent przestanie przetwarzać żądanie. Na potrzeby tego przewodnika Szybki start pozwól asystentowi zakończyć odpowiedź.
Asystent odpowiada opisem obrazu.
Zadaj kolejne pytanie związane z analizą obrazu. Możesz wprowadzić wartość . "What should I highlight about this image to my insurance company?"

Powinna zostać wyświetlona odpowiednia odpowiedź podobna do przedstawionej tutaj:

When reporting the incident to your insurance company, you should highlight the following key points from the image:  

1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  

2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  

3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  

4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  

5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  

6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  

Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.

W tej sesji czatu poinstruujesz asystenta, aby pomóc w zrozumieniu obrazów, które wprowadzasz. Wypróbuj możliwości modelu przetwarzania obrazów rozszerzonych.

W okienku Ulepszenia po lewej stronie okna czatu włącz opcję Vision. W wyświetlonym oknie wybierz zasób usługi Azure przetwarzanie obrazów.
W polu tekstowym Komunikat systemowy na karcie Komunikat systemowy podaj ten monit, aby kierować asystentem: "You're an AI assistant that helps people find information." możesz dostosować monit do obrazu lub scenariusza. Wybierz pozycję Zastosuj zmiany , aby zapisać zmiany.
W okienku sesji czatu wybierz przycisk załącznika, a następnie pozycję Przekaż obraz. Wybierz obraz.
Dodaj następujące pytanie w polu czatu: "Describe this image", a następnie wybierz ikonę strzałki w prawo, która ma zostać wysłana.
Ikona strzałki w prawo jest zastępowana przyciskiem Zatrzymaj. Jeśli go wybierzesz, asystent przestanie przetwarzać żądanie. Na potrzeby tego przewodnika Szybki start pozwól asystentowi zakończyć odpowiedź.
Asystent odpowiada opisem obrazu. Używa usługi Azure AI Vision, aby wyodrębnić więcej szczegółów z przekazanego obrazu.
Zadaj kolejne pytanie związane z analizą obrazu. Wprowadź, a następnie wybierz ikonę strzałki w prawo, "What should I highlight about this image to my insurance company?" która ma być wysyłana.

Powinna zostać wyświetlona odpowiednia odpowiedź podobna do przedstawionej tutaj:

When reporting the incident to your insurance company, you should highlight the following key points from the image:  

1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  

2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  

3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  

4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  

5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  

6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  

Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.

W tej sesji czatu poinstruujesz asystenta, aby pomóc w zrozumieniu danych wideo, które wprowadzasz. Asystent wyodrębnia kilka ramek z filmu wideo i używa ich do odpowiadania na pytania.

W okienku Ulepszenia po lewej stronie okna czatu włącz opcję Vision. W wyświetlonym oknie wybierz zasób usługi Azure przetwarzanie obrazów.
W polu tekstowym Komunikat systemowy na karcie Komunikat systemowy podaj ten monit, aby kierować asystentem: "You're an AI assistant that helps people find information." możesz dostosować monit do obrazu lub scenariusza.
Wybierz pozycję Zastosuj zmiany , aby zapisać zmiany.
W okienku sesji czatu wybierz przycisk załącznika, a następnie pozycję Przekaż wideo. Wybierz film wideo.
Wprowadź monit tekstowy, "Provide details about this video"taki jak , , a następnie wybierz ikonę strzałki w prawo, która ma być wysyłana.
Ikona strzałki w prawo jest zastępowana przyciskiem Zatrzymaj. Jeśli go wybierzesz, asystent przestanie przetwarzać żądanie. Na potrzeby tego przewodnika Szybki start pozwól asystentowi zakończyć odpowiedź.
Asystent powinien odpowiedzieć z opisem filmu wideo.
Możesz zadać wszelkie pytania dotyczące analizy wideo.

Ograniczenia

Poniżej przedstawiono znane ograniczenia ulepszeń monitu wideo.

Niska rozdzielczość: ramki są analizowane przy użyciu GPT-4 Turbo z ustawieniem "niskiej rozdzielczości", które może mieć wpływ na dokładność małego obiektu i rozpoznawania tekstu w filmie wideo.
Limity plików wideo: obsługiwane są zarówno typy plików MP4, jak i MOV. W narzędziu Azure AI Studio Playground filmy wideo muszą trwać krócej niż 3 minuty. W przypadku korzystania z interfejsu API nie ma takiego ograniczenia.
Limity monitów: monity wideo zawierają tylko jeden film wideo i brak obrazów. W obszarze Plac zabaw możesz wyczyścić sesję, aby spróbować użyć innego wideo lub obrazów.
Ograniczony wybór ramki: obecnie system wybiera 20 klatek z całego filmu wideo, co może nie przechwytywać wszystkich krytycznych momentów ani szczegółów. Wybór ramek może być równomiernie rozłożony przez wideo lub skoncentrowany przez określone zapytanie pobierania wideo, w zależności od monitu.
Obsługa języka: obecnie system obsługuje głównie język angielski na potrzeby uziemienia transkrypcji. Transkrypcje nie zawierają dokładnych informacji na temat tekstów z piosenek.

Wyświetlanie i eksportowanie kodu

W dowolnym momencie sesji czatu możesz włączyć przełącznik Pokaż nieprzetworzony kod JSON w górnej części okna czatu, aby zobaczyć konwersację sformatowaną jako JSON. Oto jak wygląda na początku sesji czatu Szybkiego startu:

[
	{
		"role": "system",
		"content": [
			"You are an AI assistant that helps people find information."
		]
	},
]

Czyszczenie zasobów

Aby uniknąć ponoszenia niepotrzebnych kosztów platformy Azure, usuń zasoby utworzone w tym przewodniku Szybki start, jeśli nie są już potrzebne. Aby zarządzać zasobami, możesz użyć witryny Azure Portal.

Następne kroki

Utwórz projekt
Dowiedz się więcej o usłudze Azure AI Vision.
Dowiedz się więcej o modelach usługi Azure OpenAI.

Share via