Schnellstart: Verwenden von GPT-4 Turbo mit Vision für Ihre Bilder und Videos mit Azure OpenAI Service - Azure OpenAI

Beginnen Sie mit der Erkundung der GPT-4 Turbo with Vision-Funktionen mit einem No-Code-Ansatz über Azure OpenAI Studio.

Voraussetzungen

Ein Azure-Abonnement. Erstellen Sie ein kostenloses Konto.
Zugriff auf Azure OpenAI im gewünschten Azure-Abonnement gewährt. Derzeit wird der Zugriff auf diesen Dienst nur auf Antrag gewährt. Sie können den Zugriff auf Azure OpenAI beantragen, indem Sie das Formular unter https://aka.ms/oai/access ausfüllen. Öffnen Sie ein Problem in diesem Repository, um uns bei einem Problem zu kontaktieren.
Eine Azure OpenAI Service-Ressource mit bereitgestelltem GPT-4 Turbo with Vision-Modell. Informationen zu den verfügbaren Regionen finden Sie unter GPT-4 and GPT-4 Turbo-Previewmodelle. Weitere Informationen zur Ressourcenerstellung finden Sie im Ressourcenbereitstellungsleitfaden.
Für die Vision-Erweiterung (optional): Eine Ressource für maschinelles Sehen in Azure in derselben Region wie Ihre Azure OpenAI-Ressource im kostenpflichtigen Tarif (S1).

Hinweis

Es wird derzeit nicht unterstützt, die Inhaltsfilterung für das GPT-4 Turbo mit Vision-Modell zu deaktivieren.

Wechseln Sie zu Azure OpenAI Studio

Navigieren Sie zu Azure OpenAI Studio, und melden Sie sich mit den Anmeldeinformationen für Ihre Azure OpenAI-Ressource an. Wählen Sie während oder nach dem Anmeldeworkflow das passende Verzeichnis, Azure-Abonnement und die Azure OpenAI-Ressource aus.

Wählen Sie unter Verwaltung die Option Bereitstellungen und dann Erstellen aus, um eine GPT-4 Turbo with Vision-Bereitstellung mit dem Modellnamen gpt-4 und der Modellversion vision-preview zu erstellen. Weitere Informationen zur Modellimplementierung finden Sie im Leitfaden zur Ressourcenbereitstellung.

Wählen Sie im Abschnitt Playground die Option Chat aus.

Playground

Auf dieser Seite können Sie die Modellfunktionen ganz einfach schrittweise erkunden und mit ihnen experimentieren.

Allgemeine Hilfe zum Einrichten von Assistenten, Chatsitzungen, Einstellungen und Panels finden Sie im Schnellstart zu Chats.

Starten einer Chatsitzung zum Analysieren von Bildern oder Videos

In dieser Chatsitzung weisen Sie den Assistenten an, Sie beim Verstehen der angegebenen Bilder zu unterstützen.

Wählen Sie zunächst Ihre GPT-4 Turbo with Vision-Bereitstellung aus der Dropdownliste aus.
Geben Sie im Bereich der Assistenteneinrichtung eine Systemmeldung an, um den Assistenten zu leiten. Die Standardmeldung des Systems lautet: „Sie sind ein KI-Assistent, der Personen hilft, Informationen zu finden.“ Sie können die Systemnachricht auf das Bild oder Szenario anpassen, das Sie hochladen.

Hinweis

Es wird empfohlen, die Systemnachricht so zu aktualisieren, dass sie spezifisch für die Aufgabe ist, damit das Modell nicht unvorteilhaft reagiert.
Speichern Sie Ihre Änderungen, und wenn Sie aufgefordert werden, die Sytemnachricht zu bestätigen, wählen Sie Weiter aus.
Geben Sie im Bereich Chatsitzung einen Textprompt wie „Beschreibe dieses Bild“ ein, und laden Sie ein Bild mit der Schaltfläche für Anlagen hoch. Sie können einen anderen Textprompt für Ihren Anwendungsfall verwenden. Wählen Sie dann Senden aus.
Sehen Sie sich die Ausgabe genau an. Erwägen Sie, Folgefragen im Zusammenhang mit der Analyse Ihres Bilds zu stellen, um mehr zu erfahren.

Bereinigen von Ressourcen

Wenn Sie eine Azure OpenAI-Ressource bereinigen und entfernen möchten, können Sie die Ressource selbst oder die Ressourcengruppe löschen. Wenn Sie die Ressourcengruppe löschen, werden auch alle anderen Ressourcen gelöscht, die ihr zugeordnet sind.

Dieser Artikel behandelt die ersten Schritte mit den Azure OpenAI-REST-APIs, um das GPT-4 Turbo with Vision-Modell bereitzustellen und zu verwenden.

Voraussetzungen

Ein Azure-Abonnement. Erstellen Sie ein kostenloses Konto.
Zugriff auf Azure OpenAI im gewünschten Azure-Abonnement gewährt. Derzeit wird der Zugriff auf diesen Dienst nur auf Antrag gewährt. Sie können den Zugriff auf Azure OpenAI beantragen, indem Sie das Formular unter https://aka.ms/oai/access ausfüllen. Öffnen Sie ein Problem in diesem Repository, um uns bei einem Problem zu kontaktieren.
Python 3.8 oder eine höhere Version
Die folgenden Python-Bibliotheken: requests, json
Eine Azure OpenAI Service-Ressource mit bereitgestelltem GPT-4 Turbo with Vision-Modell. Informationen zu den verfügbaren Regionen finden Sie unter GPT-4 and GPT-4 Turbo-Previewmodelle. Weitere Informationen zur Ressourcenerstellung finden Sie im Ressourcenbereitstellungsleitfaden.
Für die Vision-Erweiterung (optional): Eine Ressource für maschinelles Sehen in Azure in derselben Region wie Ihre Azure OpenAI-Ressource im kostenpflichtigen Tarif (S1).

Hinweis

Es wird derzeit nicht unterstützt, die Inhaltsfilterung für das GPT-4 Turbo mit Vision-Modell zu deaktivieren.

Abrufen von Schlüssel und Endpunkt

Um die Azure OpenAI-APIs erfolgreich aufzurufen, benötigen Sie die folgenden Informationen zu Ihrer Azure OpenAI-Ressource:

Variable	Name	Wert
Endpunkt	`api_base`	Der Endpunktwert befindet sich unter Schlüssel und Endpunkt für Ihre Ressource im Azure-Portal. Alternativ dazu finden Sie den Wert auch unter Azure OpenAI Studio>Playground>Codeansicht. Ein Beispielendpunkt ist `https://docs-test-001.openai.azure.com/`.
Schlüssel	`api_key`	Den Schlüsselwert finden Sie ebenfalls unter Schlüssel und Endpunkt für Ihre Ressource im Azure-Portal. Azure generiert zwei Schlüssel für Ihre Ressource. Sie können beide Werte verwenden.

Wechseln Sie zu Ihrer Ressource im Azure-Portal. Wählen Sie im Navigationsbereich unter Ressourcenverwaltung die Option Schlüssel und Endpunkt aus. Kopieren Sie den Wert unter Endpunkt und einen Zugriffsschlüsselwert. Sie können entweder den Wert unter SCHLÜSSEL 1 oder unter SCHLÜSSEL 2 verwenden. Wenn Sie zwei Schlüssel zur Verfügung haben, können Sie die Schlüssel auf sichere Weise rotieren und erneut generieren, ohne Dienstunterbrechungen zu verursachen.

Erstellen einer neuen Python-Anwendung

Erstellen Sie eine neue Python-Datei namens quickstart.py. Öffnen Sie die Datei in Ihrem bevorzugten Editor oder Ihrer bevorzugten IDE.

Ersetzen Sie den Inhalt von quickstart.py durch den folgenden Code.

# Packages required:
import requests 
import json 

api_base = '<your_azure_openai_endpoint>' 
deployment_name = '<your_deployment_name>'
API_KEY = '<your_azure_openai_key>'

base_url = f"{api_base}openai/deployments/{deployment_name}" 
headers = {   
    "Content-Type": "application/json",   
    "api-key": API_KEY 
} 

# Prepare endpoint, headers, and request body 
endpoint = f"{base_url}/chat/completions?api-version=2023-12-01-preview" 
data = { 
    "messages": [ 
        { "role": "system", "content": "You are a helpful assistant." }, 
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ], 
    "max_tokens": 2000 
}   

# Make the API call   
response = requests.post(endpoint, headers=headers, data=json.dumps(data))   

print(f"Status Code: {response.status_code}")   
print(response.text)

Nehmen Sie die folgenden Änderungen vor:
1. Geben Sie Ihre Endpunkt-URL und ihren Schlüssel in die entsprechenden Felder ein.
2. Geben Sie Ihren GPT-4 Turbo with Vision-Bereitstellungsnamen in das entsprechende Feld ein.
3. Ändern Sie den Wert des "image"-Felds in die URL Ihres Bilds.
  
  Tipp
  
  Sie können ebenfalls Base64-codierte Bilddaten anstelle einer URL verwenden. Weitere Informationen finden Sie in der Schrittanleitung für GPT-4 Turbo mit Vision.
Führen Sie die Anwendung mit Befehl python aus:
```
python quickstart.py
```

GPT-4 Turbo with Vision bietet exklusiven Zugriff auf maßgeschneiderte Azure KI Services-Erweiterungen. In Kombination mit Azure KI Vision wird Ihre Chaterfahrung verbessert, indem Sie das Chatmodell mit detaillierteren Informationen zu sichtbarem Text im Bild und den Positionen von Objekten versorgen.

Die Integration der optischen Zeichenerkennung (Optical Character Recognition, OCR) ermöglicht es dem Modell, hochwertige Antworten auf dichten Text, transformierte Bilder und zahlenlastige Finanzdokumente zu erzeugen. Darüber hinaus wird ein breiteres Sprachenspektrum abgedeckt.

Die Integration des Objektgroundings fügt eine neue Schicht zur Datenanalyse und Benutzerinteraktion hinzu, da das Feature wichtige Elemente in den verarbeiteten Bildern visuell unterscheiden und hervorheben kann.

Achtung

Azure KI-Verbesserungen für GPT-4 Turbo with Vision werden separat von den Kernfunktionen abgerechnet. Für jede Azure KI-Erweiterung für GPT-4 Turbo with Vision gelten eigene Gebühren. Einzelheiten finden Sie in den speziellen Preisinformationen.

Ersetzen Sie den Inhalt von quickstart.py durch den folgenden Code.

# Packages required:
import requests 
import json 

api_base = '<your_azure_openai_endpoint>' 
deployment_name = '<your_deployment_name>'
API_KEY = '<your_azure_openai_key>'

base_url = f"{api_base}openai/deployments/{deployment_name}" 
headers = {   
    "Content-Type": "application/json",   
    "api-key": API_KEY 
} 

# Prepare endpoint, headers, and request body 
endpoint = f"{base_url}/extensions/chat/completions?api-version=2023-12-01-preview" 
data = {
    "model": "gpt-4-vision-preview",
    "enhancements": {
        "ocr": {
          "enabled": True
        },
        "grounding": {
          "enabled": True
        }
    },
    "dataSources": [
    {
        "type": "AzureComputerVision",
        "parameters": {
            "endpoint": "<your_computer_vision_endpoint>",
            "key": "<your_computer_vision_key>"
        }
    }],
    "messages": [ 
        { "role": "system", "content": "You are a helpful assistant." }, 
        { "role": "user", 
        "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url", 
                "image_url": {
                    "url" : "<image URL>"
                }
            }
        ]} 
    ], 
    "max_tokens": 2000 
}   

# Make the API call   
response = requests.post(endpoint, headers=headers, data=json.dumps(data))   

print(f"Status Code: {response.status_code}")   
print(response.text)

Nehmen Sie die folgenden Änderungen vor:
1. Geben Sie Ihren GPT-4 Turbo with Vision-Bereitstellungsnamen in das entsprechende Feld ein.
2. Geben Sie Ihre Endpunkt-URL für maschinelles Sehen und den Schlüssel in die entsprechenden Felder ein.
3. Ändern Sie den Wert des "image"-Felds in die URL Ihres Bilds.
  
  Tipp
  
  Sie können ebenfalls Base64-codierte Bilddaten anstelle einer URL verwenden. Weitere Informationen finden Sie in der Schrittanleitung für GPT-4 Turbo mit Vision.
Führen Sie die Anwendung mit Befehl python aus:
```
python quickstart.py
```

Bereinigen von Ressourcen

Wenn Sie eine Azure OpenAI-Ressource bereinigen und entfernen möchten, können Sie die Ressource selbst oder die Ressourcengruppe löschen. Wenn Sie die Ressourcengruppe löschen, werden auch alle anderen Ressourcen gelöscht, die ihr zugeordnet sind.

Dieser Artikel behandelt die ersten Schritte mit dem Python-SDK von Azure OpenAI, um das Modell für GPT-4 Turbo mit Vision bereitzustellen und zu verwenden.

Quellcode der Bibliothek | Paket (PyPi) |

Voraussetzungen

Ein Azure-Abonnement. Erstellen Sie ein kostenloses Konto.
Zugriff auf Azure OpenAI im gewünschten Azure-Abonnement gewährt. Derzeit wird der Zugriff auf diesen Dienst nur auf Antrag gewährt. Sie können den Zugriff auf Azure OpenAI beantragen, indem Sie das Formular unter https://aka.ms/oai/access ausfüllen. Öffnen Sie ein Problem in diesem Repository, um uns bei einem Problem zu kontaktieren.
Python 3.8 oder eine höhere Version
Die folgenden Python-Bibliotheken: os
Eine Azure OpenAI Service-Ressource mit bereitgestelltem GPT-4 Turbo with Vision-Modell. Informationen zu den verfügbaren Regionen finden Sie unter GPT-4 and GPT-4 Turbo-Previewmodelle. Weitere Informationen zur Ressourcenerstellung finden Sie im Ressourcenbereitstellungsleitfaden.
Für die Vision-Erweiterung (optional): Eine Ressource für maschinelles Sehen in Azure in derselben Region wie Ihre Azure OpenAI-Ressource im kostenpflichtigen Tarif (S1).

Einrichten

Installieren Sie die OpenAI Python-Clientbibliothek mit:

pip install openai

Hinweis

Diese Bibliothek wird von OpenAI verwaltet und es handelt sich derzeit um eine Vorschauversion. Sehen Sie sich die den Releaseverlauf oder den version.py-Commitverlauf an, um die neuesten Updates der Bibliothek nachzuverfolgen.

Abrufen von Schlüssel und Endpunkt

Für erfolgreiche Azure OpenAI-Aufrufe benötigen Sie einen Endpunkt und einen Schlüssel.

Variablenname	Wert
`ENDPOINT`	Diesen Wert finden Sie im Abschnitt Schlüssel und Endpunkt, wenn Sie die Ressource über das Azure-Portal untersuchen. Alternativ dazu finden Sie den Wert auch unter Azure OpenAI Studio>Playground>Codeansicht. Ein Beispielendpunkt ist `https://docs-test-001.openai.azure.com/`.
`API-KEY`	Diesen Wert finden Sie im Abschnitt Schlüssel und Endpunkt, wenn Sie die Ressource über das Azure-Portal untersuchen. Sie können `KEY1` oder `KEY2` verwenden.

Wechseln Sie zu Ihrer Ressource im Azure-Portal. Den Abschnitt Schlüssel und Endpunkt finden Sie im Abschnitt Ressourcenverwaltung. Kopieren Sie die Werte für Endpunkt und Zugriffsschlüssel, da Sie beide für die Authentifizierung Ihrer API-Aufrufe benötigen. Sie können KEY1 oder KEY2 verwenden. Wenn Sie jederzeit zwei Schlüssel zur Verfügung haben, können Sie die Schlüssel auf sichere Weise rotieren und neu generieren, ohne Dienstunterbrechungen zu verursachen.

Umgebungsvariablen

Erstellen und Zuweisen von beständigen Umgebungsvariablen für Ihren Schlüssel und Endpunkt.

setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE" 
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE"

[System.Environment]::SetEnvironmentVariable('AZURE_OPENAI_API_KEY', 'REPLACE_WITH_YOUR_KEY_VALUE_HERE', 'User')
[System.Environment]::SetEnvironmentVariable('AZURE_OPENAI_ENDPOINT', 'REPLACE_WITH_YOUR_ENDPOINT_HERE', 'User')

export AZURE_OPENAI_API_KEY="REPLACE_WITH_YOUR_KEY_VALUE_HERE"
export AZURE_OPENAI_ENDPOINT="REPLACE_WITH_YOUR_ENDPOINT_HERE"

Erstellen einer neuen Python-Anwendung

Erstellen Sie eine neue Python-Datei namens quickstart.py. Öffnen Sie die Datei in Ihrem bevorzugten Editor oder Ihrer bevorzugten IDE.

Ersetzen Sie den Inhalt von quickstart.py durch den folgenden Code.

from openai import AzureOpenAI

api_base = os.getenv("AZURE_OPENAI_ENDPOINT")
api_key= os.getenv("AZURE_OPENAI_API_KEY")
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}/openai/deployments/{deployment_name}"
)

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    max_tokens=2000 
)

print(response)

Nehmen Sie die folgenden Änderungen vor:
1. Geben Sie den Namen Ihrer Bereitstellung für GPT-4 Turbo mit Vision in das entsprechende Feld ein.
2. Ändern Sie den Wert des "url"-Felds in die URL Ihres Bilds.
  
  Tipp
  
  Sie können ebenfalls Base64-codierte Bilddaten anstelle einer URL verwenden. Weitere Informationen finden Sie in der Schrittanleitung für GPT-4 Turbo mit Vision.
Führen Sie die Anwendung mit Befehl python aus:
```
python quickstart.py
```

GPT-4 Turbo with Vision bietet exklusiven Zugriff auf maßgeschneiderte Azure KI Services-Erweiterungen. In Kombination mit Azure KI Vision wird Ihre Chaterfahrung verbessert, indem Sie das Chatmodell mit detaillierteren Informationen zu sichtbarem Text im Bild und den Positionen von Objekten versorgen.

Die Integration der optischen Zeichenerkennung (Optical Character Recognition, OCR) ermöglicht es dem Modell, hochwertige Antworten auf dichten Text, transformierte Bilder und zahlenlastige Finanzdokumente zu erzeugen. Darüber hinaus wird ein breiteres Sprachenspektrum abgedeckt.

Die Integration des Objektgroundings fügt eine neue Schicht zur Datenanalyse und Benutzerinteraktion hinzu, da das Feature wichtige Elemente in den verarbeiteten Bildern visuell unterscheiden und hervorheben kann.

Achtung

Azure KI-Verbesserungen für GPT-4 Turbo with Vision werden separat von den Kernfunktionen abgerechnet. Für jede Azure KI-Erweiterung für GPT-4 Turbo with Vision gelten eigene Gebühren. Einzelheiten finden Sie in den speziellen Preisinformationen.

Ersetzen Sie den Inhalt von quickstart.py durch den folgenden Code.

from openai import AzureOpenAI

api_base = os.getenv("AZURE_OPENAI_ENDPOINT")
api_key= os.getenv("AZURE_OPENAI_API_KEY")
deployment_name = '<your_deployment_name>'
api_version = '2023-12-01-preview' # this might change in the future

client = AzureOpenAI(
    api_key=api_key,  
    api_version=api_version,
    base_url=f"{api_base}/openai/deployments/{deployment_name}/extensions",
)

response = client.chat.completions.create(
    model=deployment_name,
    messages=[
        { "role": "system", "content": "You are a helpful assistant." },
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Describe this picture:" 
            },
            { 
                "type": "image_url",
                "image_url": {
                    "url": "<image URL>"
                }
            }
        ] } 
    ],
    extra_body={
        "dataSources": [
            {
                "type": "AzureComputerVision",
                "parameters": {
                    "endpoint": "<your_computer_vision_endpoint>",
                    "key": "<your_computer_vision_key>"
                }
            }],
        "enhancements": {
            "ocr": {
                "enabled": True
            },
            "grounding": {
                "enabled": True
            }
        }
    },
    max_tokens=2000
)

print(response)

Nehmen Sie die folgenden Änderungen vor:
1. Geben Sie Ihren GPT-4 Turbo with Vision-Bereitstellungsnamen in das entsprechende Feld ein.
2. Geben Sie Ihre Endpunkt-URL für maschinelles Sehen und den Schlüssel in die entsprechenden Felder ein.
3. Ändern Sie den Wert des "url"-Felds in die URL Ihres Bilds.
  
  Tipp
  
  Sie können ebenfalls Base64-codierte Bilddaten anstelle einer URL verwenden. Weitere Informationen finden Sie in der Schrittanleitung für GPT-4 Turbo mit Vision.
Führen Sie die Anwendung mit Befehl python aus:
```
python quickstart.py
```

Bereinigen von Ressourcen

Wenn Sie eine Azure OpenAI-Ressource bereinigen und entfernen möchten, können Sie die Ressource selbst oder die Ressourcengruppe löschen. Wenn Sie die Ressourcengruppe löschen, werden auch alle anderen Ressourcen gelöscht, die ihr zugeordnet sind.

Schnellstart: Verwenden von Bildern in Ihren KI-Chats

Voraussetzungen

Wechseln Sie zu Azure OpenAI Studio

Playground

Starten einer Chatsitzung zum Analysieren von Bildern oder Videos

Bereinigen von Ressourcen

Voraussetzungen

Abrufen von Schlüssel und Endpunkt

Erstellen einer neuen Python-Anwendung

Bereinigen von Ressourcen

Voraussetzungen

Einrichten

Abrufen von Schlüssel und Endpunkt

Umgebungsvariablen

Erstellen einer neuen Python-Anwendung

Bereinigen von Ressourcen

Nächste Schritte

Zusätzliche Ressourcen