Neuigkeiten in Azure KI Vision

Artikel
03/11/2024

Erfahren Sie, was es Neues in Azure KI Vision gibt. Besuchen Sie diese Seite, um aktuelle Informationen zu neuen Features, Verbesserungen, Fixes und Dokumentationsaktualisierungen zu erhalten.

Februar 2024

Multimodale Einbettungen GA: neues mehrsprachiges Modell

Die API für multimodale Einbettungen wurde aktualisiert und ist jetzt allgemein verfügbar. Die neue 2024-02-01-API enthält ein neues Modell, das die Textsuche in 102 Sprachen unterstützt. Das ursprüngliche englischsprachige Modell ist weiterhin verfügbar, kann aber nicht mit dem neuen Modell im selben Suchindex kombiniert werden. Wenn Sie Text und Bilder mit dem rein englischsprachigen Modell vektorisiert haben, sind diese Vektoren nicht mit mehrsprachigen Text- und Bildvektoren kompatibel.

Die vollständige Liste unterstützter Sprachen finden Sie auf der Seite Sprachunterstützung.

Januar 2024

Neues Bildanalyse SDK 1.0.0-beta.1 (Breaking Changes)

Das Bildanalyse SDK wurde in Version 1.0.0-beta.1 umgeschrieben, um sich besser an anderen Azure-SDKs auszurichten. Alle APIs wurden geändert. Informationen zur Verwendung des neuen SDK finden Sie in den aktualisierten Schnellstarts, Beispielen und Anleitungen.

Bedeutende Änderungen:

Das SDK ruft jetzt die allgemein verfügbare REST-API für maschinelles Sehen (2023-10-01) auf, anstelle der Vorschauversion REST-API für maschinelles Sehen (2023-04-01-preview).
Die Unterstützung für JavaScript wurde hinzugefügt.
C++ wird nicht mehr unterstützt.
Die Bildanalyse mit einem benutzerdefinierten Modell und die Bildsegmentierung (Hintergrundentfernung) werden im SDK nicht mehr unterstützt, da die REST-API für maschinelles Sehen (2023-10-01) sie noch nicht unterstützt. Um eines der Features zu verwenden, rufen Sie die REST-API für maschinelles Sehen (2023-04-01-preview) direkt auf (mithilfe von Analyze- und Segment-Vorgängen).

November 2023

Bildanalyse 4.0 (allgemein verfügbar)

Version 4.0 der REST-API für die Bildanalyse ist jetzt allgemein verfügbar. Befolgen Sie den Schnellstart für Bildanalyse 4.0.

Die anderen Features der Bildanalyse, z. B. Modellanpassung, Hintergrundentfernung und multimodale Einbettungen, verbleiben in der Public Preview.

Clientseitiges Gesichts-SDK zur Erkennung von Liveness

Das Face Liveness SDK unterstützt die Livenesserkennung auf den mobilen oder Edgegeräten Ihrer Benutzer. Es ist in Java/Kotlin für Android und Swift/Objective-C für iOS verfügbar.

Unser Liveness-Erkennungsdienst erfüllt iBeta Level 1 und 2 ISO/IEC 30107-3 Compliance.

September 2023

Veraltete API-Versionen für maschinelles Sehen

Maschinelles Sehen API-Versionen 1.0, 2.0, 3.0 und 3.1 werden am 13. September 2026 eingestellt. Entwickler können diese APIs nach diesem Datum nicht mehr aufrufen. Es wird empfohlen, dass alle betroffenen Kunden ihre Workloads zur allgemein verfügbaren maschinelles Sehen 3.2-API migrieren, indem Sie diese Schnellstartanleitung so schnell wie möglich ausführen. Kunden sollten auch eine Migration zur Bildanalyse-API 4.0 (Vorschau) erwägen, die über unsere neuesten und besten Bildanalysefunktionen verfügt.

Bei Fragen besuchen Sie unsere Q&A-Website.

Mai 2023

Produkterkennung für die Bildanalyse 4.0 (öffentliche Vorschauversion)

Mit den Produkterkennungs-APIs können Sie Fotos von Regalen in einem Einzelhandelsgeschäft analysieren. Sie können das Vorhandensein von Produkten erkennen und deren Begrenzungsrahmenkoordinaten abrufen. Verwenden Sie sie in Kombination mit der Modellanpassung, um ein Modell zum Identifizieren Ihrer spezifischen Produkte zu trainieren. Sie können die Ergebnisse der Produkterkennung auch mit dem Planogrammdokument Ihres Stores vergleichen. Produkterkennung

April 2023

Eingeschränkte Zugriffstoken

Erfahren Sie, wie unabhängige Softwareanbieter (ISVs) die Nutzung der Gesichtserkennungs-API ihrer Clients verwalten können, indem sie Zugriffstoken ausgeben, die Zugriff auf Gesichtserkennungsfeatures erteilen, die normalerweise geschützt sind. Dadurch können Clientunternehmen die Gesichtserkennungs-API verwenden, ohne den formalen Genehmigungsprozess durchlaufen zu müssen. Verwenden eingeschränkter Zugriffstoken

März 2023

Azure KI Vision Image Analysis 4.0 SDK (öffentliche Vorschau)

Das Florence-Grundmodell ist jetzt in Azure KI Vision integriert. Die verbesserten Vision-Dienste ermöglichen es Entwickler*innen, marktreife, verantwortungsvolle Azure KI Vision-Anwendungen für verschiedenste Branchen zu erstellen. Kunden können jetzt ihre Daten nahtlos digitalisieren, analysieren und mit Interaktionen mit natürlicher Sprache verknüpfen. So können sie aussagekräftige Erkenntnisse aus ihren Bild- und Videoinhalten gewinnen, um die Barrierefreiheit zu unterstützen, Käufe durch SEO zu steigern, Benutzer vor schädlichen Inhalten zu schützen, die Sicherheit zu erhöhen und die Reaktionszeiten bei Vorfällen zu verkürzen. Weitere Informationen finden Sie in der Ankündigung zum Florence-Grundmodell von Microsoft.

SDK für die Bildanalyse 4.0 (öffentliche Vorschauversion)

Die Bildanalyse 4.0 ist jetzt über Clientbibliotheks-SDKs in C#, C++ und Python verfügbar. Dieses Update enthält auch das Florence-basierte Bildbeschriftungsmodell und dichte Beschriftung mit einer Leistung, die dem des Menschen entspricht.

Bildanalyse V4.0 Captioning und Dense Captioning (öffentliche Vorschau):

„Caption“ ersetzt „Describe“ in Version 4.0 da das verbesserte Feature zur Bildbeschriftung über umfangreiche Details und semantisches Verständnis verfügt. „Dichte Beschriftungen“ bietet mehr Details, indem zusätzlich zur Beschreibung des gesamten Bilds Beschreibungen von bis zu 10 Bereichen des Bilds in einem Satz generiert werden. Dense Captions gibt auch Begrenzungsrahmenkoordinaten der beschriebenen Bildbereiche zurück. Es gibt auch einen neuen geschlechtsneutralen Parameter, mit dem Kunden entscheiden können, ob sie den probabilistischen Geschlechtsrückschluss für Alt-Text- und Anzeigen von KI-Anwendungen aktivieren möchten. Stellen Sie automatisch umfangreiche Untertitel, barrierefreien Alternativtext, SEO-Optimierung und intelligente Fotokuratierung bereit, um digitale Inhalte zu unterstützen. Bildbeschriftungen.

Videozusammenfassung und Frame Locator (öffentliche Vorschau):

Suchen und interagieren Sie mit Videoinhalten auf die gleiche intuitive Weise, wie Sie denken und schreiben. Finden Sie relevante Inhalte, ohne dass zusätzliche Metadaten erforderlich sind. Nur in Vision Studio verfügbar.

Modellanpassung von Image Analysis 4.0 (öffentliche Vorschau)

Mit Vision Studio oder den REST-APIs der Version 4.0 können Sie jetzt eigene Modelle zur Bildklassifizierung und Objekterkennung erstellen und trainieren.

APIs für multimodale Einbettungen (Public Preview)

Die APIs für multimodale Einbettungen, Teil der Image Analysis 4.0-API, ermöglichen die Vektorisierung von Bild- und Textabfragen. Sie können Bilder und Text in Koordinaten in einem mehrdimensionalen Vektorraum konvertieren. Sie können jetzt anhand linguistischer Daten suchen und relevante Bilder mithilfe der Vektorähnlichkeitssuche finden.

APIs zum Entfernen des Hintergrunds (öffentliche Vorschau)

Im Rahmen der Image Analysis 4.0-API können Sie mit der API zum Entfernen des Hintergrunds den Hintergrund eines Bilds entfernen. Dieser Vorgang kann entweder ein Bild des erkannten Vordergrundobjekts mit einem transparenten Hintergrund oder ein alphamattes Graustufenbild ausgeben, das die Deckkraft des erkannten Vordergrundobjekts anzeigt.

Einstellung der API-Vorschauversionen von Azure KI Vision 3.0 und 3.1

Die Vorschauversionen der APIs von Azure KI Vision 3.0 und 3.1 werden planmäßig am 30. September 2023 eingestellt. Kunden können nach diesem Datum keine Aufrufe mehr an diese APIs durchführen. Kunden werden empfohlen, ihre Workloads stattdessen zur allgemein verfügbaren (GA) API der Version 3.2 zu migrieren. Beachten Sie die folgenden Änderungen, wenn Sie von den Vorschauversionen zur API der Version 3.2 migrieren:

Die API-Aufrufe für Bildanalyse und Lesen akzeptieren jetzt einen optionalen Parameter model-version, mit dem Sie angeben können, welches KI-Modell verwendet werden soll. Standardmäßig wird das neueste Modell verwendet.
Die Aufrufe der Bildanalyse- und der Lese-API geben auch ein model-version-Feld in erfolgreichen API-Antworten zurück. Dieses Feld gibt an, welches Modell verwendet wurde.
Die API von Azure KI Vision 3.2 verwendet ein anderes Format für die Fehlerberichterstattung. In der API-Referenzdokumentation erfahren Sie, wie Sie die Fehlerbehandlungscodes anpassen können.

Oktober 2022

Azure KI Vision-Bildanalyse 4.0 (öffentliche Vorschau)

Bildanalyse 4.0 wurde als öffentliche Vorschauversion veröffentlicht. Die neue API enthält Funktionen zur Bildbeschriftung, zum Bildtagging, zum intelligenten Zuschneiden, zur Personenerkennung und zum Lesen mithilfe von OCR, die alle in einem einzelnen Bildanalysevorgang verfügbar sind. Die OCR wurde für allgemeine Bilder, die sich nicht in einem Dokument befinden, in einer synchronen API mit verbesserter Leistung optimiert, die das Einbetten OCR-unterstützter Benutzeroberflächen in Ihre Workflows vereinfacht.

September 2022

Einstellung der Lese-API-Vorschauversionen von Azure KI Vision 3.0/3.1

Die Vorschauversionen der Lese-API von Azure KI Vision 3.0 und 3.1 werden planmäßig am 31. Januar 2023 eingestellt. Kunden werden aufgefordert, stattdessen in den Schrittanleitungen und Schnellstarts nachzusehen, um stattdessen mit der Nutzung der allgemein verfügbaren (GA) Version der Lese-API zu beginnen. Die neuesten GA-Versionen bieten folgende Vorteile:

Neuestes allgemein verfügbares OCR-Modell aus 2022
Erhebliche Ausweitung der OCR-Sprachabdeckung einschließlich Unterstützung für handschriftlichen Text
Verbesserte OCR-Qualität

Juni 2022

Einführung von Vision Studio

Vision Studio ist ein Benutzeroberflächentool, mit dem Sie Features von Azure KI Vision erkunden, erstellen und in Ihre Anwendungen integrieren können.

Vision Studio bietet Ihnen eine Plattform, um verschiedene Dienstfeatures auszuprobieren und zu prüfen, was sie visualisiert zurückgeben. Mithilfe von Language Studio können Sie loslegen, ohne Code schreiben zu müssen, und die verfügbaren Clientbibliotheken und REST-APIs in Ihrer Anwendung verwenden.

Verantwortungsvolle KI für die Gesichtserkennung

Transparenzhinweis für die Gesichtserkennung

Der Transparenzhinweis unterstützt unsere Kunden dabei, die Genauigkeit und Fairness ihrer Systeme zu verbessern, indem sie sinnvolle menschliche Überprüfungen integrieren, um Fehlidentifizierung oder andere Fehler zu erkennen und zu beheben, Support für Personen mit mutmaßlich falschen Ergebnissen bereitstellen und Schwankungen bei der Genauigkeit aufgrund von variierenden Betriebsbedingungen identifizieren und behandeln.

Ausmusterung vertraulicher Attribute

Wir haben Gesichtsanalysefunktionen ausgemustert, mit denen sich emotionale Zustände und Identitätsattribute wie Geschlecht, Alter, Lächeln, Gesichtsbehaarung, Haare und Make-up ableiten lassen.
Gesichtserkennungsfunktionen (einschließlich Erkennung von Unschärfe, Belichtung, Brille, Kopfhaltung, Wahrzeichen, Rauschen, Verdeckung, Begrenzungsrahmen für Gesichter) bleiben allgemein verfügbar und erfordern keine Anwendung.

Fairlearn-Paket und das Fairness-Dashboard von Microsoft

Das Open-Source-basierte Fairlearn-Paket und das Fairness-Dashboard von Microsoft unterstützen Kunden dabei, die Fairness der Gesichtsüberprüfungsalgorithmen von Microsoft auf der Grundlage ihrer eigenen Daten zu messen, um vor der Bereitstellung ihrer Technologie potenzielle Fairnessprobleme zu identifizieren und zu behandeln, die sich unter Umständen auf verschiedene demografische Gruppen auswirken können.

Richtlinie für eingeschränkten Zugriff

Im Zuge der Ausrichtung der Gesichtserkennung auf den aktualisierten Standard für verantwortungsvolle KI wurde für die Gesichtserkennungs-API und Azure KI Vision eine Richtlinie für eingeschränkten Zugriff implementiert. Bestandskunden haben ein Jahr Zeit, sich zu bewerben und auf Basis der angegebenen Anwendungsfälle eine Freigabe für den weiteren Zugriff auf die Gesichtserkennungsdienste zu erhalten. Details zum eingeschränkten Zugriff auf die Gesichtserkennung finden Sie hier, Informationen zu Azure KI Vision finden Sie hier.

Einstellung der Azure KI Vision 3.2-Vorschauversion

Die Vorschauversionen der 3.2-API werden planmäßig im Dezember 2022 eingestellt. Kunden werden aufgefordert, stattdessen die allgemein verfügbare (GA-) Version der API zu verwenden. Beachten Sie bei der Migration von den 3.2-Vorschauversionen die folgenden Veränderungen:

Die Aufrufe der Bildanalyse- und der Lese-API akzeptieren jetzt einen optionalen model-version-Parameter, mit dem Sie angeben können, welches KI-Modell verwendet werden soll. Standardmäßig wird das neueste Modell verwendet.
Die Aufrufe der Bildanalyse- und der Lese-API geben auch ein model-version-Feld in erfolgreichen API-Antworten zurück. Dieses Feld gibt an, welches Modell verwendet wurde.
Bildanalyse-APIs verwenden jetzt ein anderes Fehlerberichtformat. In der API-Referenzdokumentation erfahren Sie, wie Sie die Fehlerbehandlungscodes anpassen können.

Mai 2022

OCR (Lesen) API-Modell ist allgemein verfügbar (GA)

Die neueste Version der OCR-API (Lesen) von Azure KI Vision mit 164 unterstützten Sprachen ist jetzt allgemein als Clouddienst und Container verfügbar.

Die OCR-Unterstützung für gedruckten Text wird um 164 neue Sprachen erweitert, einschließlich Arabisch, Hindi und anderen Sprachen, die kyrillische, arabische und Devanagari-Schriften verwenden.
Die OCR-Unterstützung für handschriftliche Texte wird mit den Sprachen Englisch, vereinfachtes Chinesisch, Französisch, Deutsch, Italienisch, Japanisch, Koreanisch, Portugiesisch und Spanisch auf 9 Sprachen erweitert.
Erweiterte Unterstützung für einzelne Zeichen, handschriftliche Datumsangaben, Beträge, Namen und andere Entitäten, die häufig in Rechnungen gefunden wurden.
Verbesserte Verarbeitung digitaler PDF-Dokumente.
Die Begrenzung der Eingabedateigröße wurde um 10x auf 500 MB erhöht.
Leistungs- und Latenzverbesserungen.
Verfügbar als Cloud-Dienst und Docker-Container.

Informationen zur Verwendung des GA-Modells finden Sie in der OCR-Schrittanleitung.

Erste Schritte mit der Lese-API

Februar 2022

OCR-API (Lesen) in der Public Preview unterstützt 164 Sprachen

Mit der neuesten Vorschauversion der OCR-API (Lesen) von Azure KI Vision wird die Anzahl der unterstützten Sprachen auf 164 erweitert:

Die OCR-Unterstützung für gedruckten Text erweitert sich um 42 neue Sprachen, einschließlich Arabisch, Hindi und anderen Sprachen, die arabische und Devanagari-Schriften verwenden.
Die OCR-Unterstützung für handschriftliche Texte wird zusätzlich zu den Sprachen Englisch, Chinesisch (vereinfacht), Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch auf Japanisch und Koreanisch erweitert.
Verbesserungen, einschließlich besserer Unterstützung für das Extrahieren von handschriftlichen Datumsangaben, Mengen, Namen und einzelnen Zeichenfeldern.
Allgemeine Verbesserungen bei Leistung und KI-Qualität

Informationen zur Verwendung der neuen Previewfunktionen finden Sie in der OCR-Schrittanleitung.

Erste Schritte mit der Lese-API

Neues Qualitätsattribut in Detection_01 und Detection_03

Damit System-Builder und ihre Kunden qualitativ hochwertige Bilder erfassen können, die für hochwertige Ausgaben der Gesichtserkennungs-API erforderlich sind, führen wir ein neues Qualitätsattribut QualityForRecognition ein, um zu entscheiden, ob ein Bild von ausreichender Qualität ist, um die Gesichtserkennung zu versuchen. Der Wert ist eine informelle Bewertung von niedrig, mittel oder hoch. Das neue Attribut ist nur verfügbar, wenn eine Kombination aus den Erkennungsmodellen detection_01 oder detection_03und den Erkennungsmodellen recognition_03 oder recognition_04 verwendet wird. Für die Registrierung von Personen werden nur Bilder der Qualitätsstufe „hoch“ empfohlen, und für Identifikationen wird eine Qualität oberhalb von „mittel“ empfohlen. Weitere Informationen zum neuen Qualitätsattribut finden Sie unter Gesichtserkennung und Attribute. Dort erfahren Sie auch, wie Sie es zusammen mit Schnellstart verwenden.

September 2021

OCR-API (Lesen) in der Public Preview unterstützt 122 Sprachen

Mit der neuesten Vorschauversion der OCR-API (Lesen) von Azure KI Vision wird die Anzahl der unterstützten Sprachen auf 122 erweitert:

Die optische Zeichenerkennung für gedruckten Text wird in 49 neuen Sprachen unterstützt, einschließlich Russisch, Bulgarisch und anderen kyrillischen sowie weiteren lateinischen Sprachen.
Für handschriftlichen Text werden bei der optischen Zeichenerkennung 6 neue Sprachen unterstützt, einschließlich Englisch, Chinesisch (vereinfacht), Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch.
Verbesserungen bei der Verarbeitung digitaler PDF-Dateien und Text in maschinenlesbaren Bereichen (Machine Readable Zone, MRZ) von Identitätsdokumenten.
Allgemeine Verbesserungen bei Leistung und KI-Qualität

Informationen zur Verwendung der neuen Previewfunktionen finden Sie in der OCR-Schrittanleitung.

Erste Schritte mit der Lese-API

August 2021

Spracherweiterung für die Bildmarkierung

Die neueste Version (v3.2) der Bildmarkierung unterstützt ab sofort Tags in 50 Sprachen. Weitere Informationen finden Sie auf der Seite mit den unterstützten Sprachen.

Juli 2021

Neue Verbesserungen für HeadPose und Landmarks in Detection_03

Das Modell „Detection_03“ wurde aktualisiert, um Gesichtsmerkmale zu unterstützen.
Das Feature für Merkmale in Detection_03 ist insbesondere bei den Augapfelmerkmalen viel präziser, die für die Blicknachverfolgung entscheidend sind.

Mai 2021

Update für den Container für die räumliche Analyse

Für den Container für die räumliche Analyse wurde eine neue Version mit neuen Features veröffentlicht. Mithilfe dieses Docker-Containers können Sie in Echtzeit gestreamte Videodaten analysieren, um zu ermitteln, wie Personen räumlich zueinander in Beziehung stehen und wie sie sich durch physische Umgebungen bewegen.

Räumliche Analysevorgänge können jetzt so konfiguriert werden, dass die Ausrichtung einer Person erkannt wird.
- Ein Ausrichtungsklassifizierer kann für die Vorgänge personcrossingline und personcrossingpolygon aktiviert werden, indem der Parameter enable_orientation konfiguriert wird. Die Standardeinstellung ist „Aus“.
Räumliche Analysevorgänge bieten jetzt auch eine Konfiguration zum Erkennen der Geschwindigkeit einer Person beim Gehen/Laufen.
- Die Geschwindigkeit kann für die Vorgänge personcrossingline und personcrossingpolygon erkannt werden, indem der Klassifizierer enable_speed aktiviert wird, der standardmäßig deaktiviert ist. Die Ausgabe wird in den Ausgaben speed, avgSpeed und minSpeed widergespiegelt.

April 2021

Azure KI Vision v3.2 allgemein verfügbar

Die Azure KI Vision-API v3.2 ist ab sofort allgemein verfügbar und beinhaltet die folgenden Aktualisierungen:

Verbessertes Bildmarkierungsmodell: analysiert visuelle Inhalte und generiert relevante Tags basierend auf im Bild gezeigten Objekten, Aktionen und Inhalten. Dieses Modell ist über die Bildmarkierungs-API verfügbar. Weitere Informationen finden Sie in der Schrittanleitung und in der Übersicht zur Bildanalyse.
Aktualisiertes Inhaltsmoderationsmodell: erkennt nicht jugendfreie Inhalte und stellt Flags zum Filtern von Bildern bereit, die nicht jugendfreie und freizügige visuelle Inhalte enthalten. Dieses Modell ist über die Analyse-API verfügbar. Weitere Informationen finden Sie in der Schrittanleitung und in der Übersicht zur Bildanalyse.
OCR (Lesen) für 73 Sprachen verfügbar, einschließlich vereinfachtes und traditionelles Chinesisch, Japanisch, Koreanisch und lateinische Sprachen
OCR (Lesen) ist auch als Container ohne Distribution für die lokale Bereitstellung verfügbar.

Details zu Azure KI Vision v3.2 GA

PersonDirectory-Datenstruktur (Vorschau)

Um Gesichtserkennungsvorgänge wie „Identifizieren“ und „Ähnliches suchen“ durchzuführen, müssen Kunden der Gesichtserkennungs-API eine gemischte Liste mit Objekten vom Typ Person erstellen. Das neue PersonDirectory-Element ist eine Datenstruktur, die eindeutige IDs, optionale Namenszeichenfolgen und optionale Benutzermetadaten-Zeichenfolgen für jede Person-Identität enthält, die dem Verzeichnis hinzugefügt wird. Derzeit bietet die Gesichtserkennungs-API die LargePersonGroup-Struktur, die über ähnliche Funktionen verfügt, aber auf 1 Mio. Identitäten beschränkt ist. Die PersonDirectory-Struktur kann auf bis zu 75 Milo. Identitäten hochskaliert werden.
Ein weiterer wichtiger Unterschied zwischen PersonDirectory und vorherigen Datenstrukturen besteht darin, dass Sie nach dem Hinzufügen von Gesichtern zu einem Person-Objekt keine Train-Aufrufe mehr tätigen müssen – der Aktualisierungsprozess erfolgt automatisch. Weitere Informationen finden Sie unter Verwenden der PersonDirectory-Struktur.

März 2021

Update der Azure KI Vision 3.2-Vorschauversion

Die öffentliche Vorschauversion der Azure KI Vision-API v3.2 wurde aktualisiert. Die Vorschauversion umfasst alle Azure KI Vision-Features sowie aktualisierte Lese- und Analyse-APIs.

Details zu Azure KI Vision v3.2 Public Preview 3

Februar 2021

Lese-API v3.2 (Public Preview) mit OCR-Unterstützung für 73 Sprachen

Die öffentliche Vorschauversion der Azure KI Vision-Lese-API v3.2, die als Clouddienst und Docker-Container verfügbar ist, umfasst folgende Aktualisierungen:

OCR für 73 Sprachen, einschließlich vereinfachtes und traditionelles Chinesisch, Japanisch, Koreanisch und lateinische Sprachen
Natürliche Leserichtung für die Textzeilenausgabe (nur lateinische Sprachen)
Klassifizierung der Handschrift für Textzeilen zusammen mit einer Konfidenzbewertung (nur lateinische Sprachen)
Extrahieren von Text nur für ausgewählte Seiten bei mehrseitigen Dokumenten
Verfügbar als Container ohne Distribution für die lokale Bereitstellung.

Weitere Informationen finden Sie in der Lese-API Schrittanleitung.

Verwenden der Lese-API v3.2 (Public Preview)

Neues Erkennungsmodell für die Gesichtserkennungs-API

Das neue Modell „Detection 03“ ist das genaueste derzeit verfügbare Erkennungsmodell. Wenn Sie Neukunde sind, empfehlen wir die Verwendung dieses Modells. Mit dem Modell „detection 03“ werden sowohl der Rückruf als auch die Genauigkeit für kleinere Gesichter in Bildern (64 x 64 Pixel) verbessert. Zu den weiteren Verbesserungen zählen eine Gesamtverringerung von False Positives und eine verbesserte Erkennung bei gedrehter Ausrichtung von Gesichtern. Die Kombination von „Detection 03“ mit dem neuen Modell „Recognition 04“ sorgt zudem für eine höhere Erkennungsgenauigkeit. Ausführlichere Informationen finden Sie unter Angeben eines Gesichtserkennungsmodells.

Neue erkennbare Gesichtsattribute

Das Attribut "noseAndMouthCovered" ist im aktuellen Modell „Detection 03“ zusammen mit dem hinzugefügten Attribut faceMask verfügbar. Mit Letzterem wird ermittelt, ob die Gesichtsmaske wie vorgesehen Nase und Mund bedeckt. Um die aktuelle Funktion zur Maskenerkennung zu verwenden, müssen Benutzer das Erkennungsmodell in der API-Anforderung angeben: Weisen Sie detection_03 mit dem Parameter detectionModel die Modellversion zu. Ausführlichere Informationen finden Sie unter Angeben eines Gesichtserkennungsmodells.

Neues Erkennungsmodell für die Gesichtserkennungs-API

Das neue Modell „Recognition 04“ ist das genaueste derzeit verfügbare Erkennungsmodell. Wenn Sie Neukunde sind, empfehlen wir die Verwendung dieses Modells zur Überprüfung und Identifizierung. Es erhöht die Genauigkeit von „Recognition 03“ und bietet u. a. eine verbesserte Erkennung von Benutzern, die Mund-Nasen-Bedeckungen (OP-Masken, N95-Masken, Stoffmasken) tragen. Wir raten davon ab, Bilder von Benutzern zu registrieren, die Gesichtsbedeckungen tragen, da dies die Erkennungsqualität verringert. Kunden können nun sichere und nahtlose Benutzerumgebungen erstellen, in denen mithilfe des neuesten Modells „Detection 03“ ermittelt wird, ob ein Benutzer eine Mund-Nasen-Bedeckung trägt, und anschließend mithilfe des ebenfalls neuesten Modells „Recognition 04“ die Identität dieses Benutzers bestimmt wird. Ausführlichere Informationen finden Sie unter Angeben eines Gesichtserkennungsmodells.

Januar 2021

Update für den Container für die räumliche Analyse

Vorgänge für räumliche Analysen können jetzt so konfiguriert werden, dass erkannt wird, ob eine Person eine schützende Gesichtsbedeckung (beispielsweise eine Maske) trägt.
- Durch Konfigurieren des Parameters ENABLE_FACE_MASK_CLASSIFIER kann für die Vorgänge personcount, personcrossingline und personcrossingpolygon ein Maskenklassifizierer aktiviert werden.
- Die Attribute face_mask und face_noMask werden als Metadaten mit Zuverlässigkeitsbewertung für jede im Videostream erkannte Person zurückgegeben.
Der Vorgang personcrossingpolygon wurde erweitert, um die Berechnung der Wartezeit einer Person in einer Zone zu ermöglichen. Sie können den Parameter type in der Zonenkonfiguration für den Vorgang auf zonedwelltime festlegen, und ein neues Ereignis vom Typ personZoneDwellTimeEvent enthält das Feld durationMs mit der Anzahl von Millisekunden, die die Person in der Zone verbracht hat.
Breaking Change: Das Ereignis personZoneEvent wurde in personZoneEnterExitEvent umbenannt. Dieses Ereignis wird durch den Vorgang personcrossingpolygon ausgelöst, wenn eine Person die Zone betritt oder verlässt. Außerdem werden Richtungsinformationen in Form der nummerierten Seite der durchquerten Zone bereitgestellt.
Die Video-URL kann in allen Vorgängen als „Private Parameter/obfuscated“ (Privater Parameter/verschleiert) bereitgestellt werden. Die Verschleierung ist jetzt optional und funktioniert nur, wenn KEY und IV als Umgebungsvariablen bereitgestellt werden.
Die Kalibrierung ist für alle Vorgänge standardmäßig aktiviert. Legen Sie do_calibration: false fest, um sie zu deaktivieren.
Unterstützung der automatischen Neukalibrierung über den enable_recalibrationParameter wurde hinzugefügt (standardmäßig deaktiviert). Ausführliche Informationen finden Sie unter Vorgänge der räumlichen Analyse
Kamerakalibrierungsparameter für DETECTOR_NODE_CONFIG. Ausführliche Informationen finden Sie unter Vorgänge der räumlichen Analyse.

Verbessern der Wartezeit

Das Team für den Dienst „Gesichtserkennung“ hat einen neuen Artikel veröffentlicht, in dem potenzielle Ursachen für die Wartezeit beim Verwenden des Diensts sowie mögliche Strategien zur Risikominderung erläutert werden. Weitere Informationen finden Sie unter Vorgehensweise: Verringern der Wartezeit bei Verwendung des Diensts „Gesichtserkennung“.

Dezember 2020

Kundenkonfiguration für den Gesichtserkennungs-ID-Speicher

Während der Dienst „Gesichtserkennung“ keine Kundenbilder speichert, werden die extrahierten Features für die Gesichtserkennung auf dem Server gespeichert. Die Gesichtserkennungs-ID ist ein Bezeichner des Features für die Gesichtserkennung und wird in Face – Identify, Face – Verify und Face – Find Similar verwendet. Die gespeicherten Features für die Gesichtserkennung laufen ab und werden 24 Stunden nach dem ursprünglichen Erkennungsaufruf gelöscht. Kunden können jetzt festlegen, wie lange diese Gesichtserkennungs-IDs zwischengespeichert werden. Der Höchstwert beträgt immer noch bis zu 24 Stunden, aber es kann nun ein Mindestwert von 60 Sekunden festgelegt werden. Die neuen Zeitbereiche für zwischengespeicherte Gesichtserkennungs-IDs sind alle Werte zwischen 60 Sekunden und 24 Stunden. Weitere Informationen finden Sie in der API-Referenz Face – Detect (Gesichtserkennung – Detect) (faceIdTimeToLive-Parameter).

November 2020

Beispielregistrierungs-App für die Gesichtserkennung

Das Team hat eine Beispielregistrierungs-App für die Gesichtserkennung veröffentlicht, um bewährte Methoden für das Erreichen einer aussagekräftigen Einwilligung und das Erstellen von hochpräzisen Gesichtserkennungssystemen durch Registrierungen mit hoher Qualität zu aufzuzeigen. Das Open-Source-Beispiel finden Sie im Leitfaden Erstellen einer Registrierungs-App für Android mit React und auf GitHub. Entwickler können es bereitstellen oder anpassen.

Oktober 2020

Azure KI Vision-API v3.1 allgemein verfügbar

Die allgemein verfügbare Azure KI Vision-API wurde auf Version 3.1 aktualisiert.

September 2020

Container für räumliche Analyse Vorschau

Der Container für räumliche Analyse befindet sich nun in der Vorschauphase. Mit dem Azure KI Vision-Feature „Räumliche Analyse“ können Sie Videostreams in Echtzeit analysieren, um nachzuvollziehen, wie Personen räumlich zueinander in Beziehung stehen und wie sie sich durch physische Umgebungen bewegen. Bei der räumlichen Analyse handelt es sich um einen lokal verwendbaren Docker-Container.

Lese-API v3.1 (Public Preview) jetzt mit OCR für Japanisch

Der öffentlichen Vorschauversion der Azure KI Vision-Lese-API v3.1 wurden folgende Funktionen hinzugefügt:

OCR für Japanisch
Für jede Textzeile wird angegeben, ob es sich um Handschrift oder um gedruckten Text handelt, und es wird eine Zuverlässigkeitsbewertung bereitgestellt (nur lateinische Sprachen).
Bei mehrseitigen Dokumenten wird Text nur für ausgewählte Seiten oder für einen ausgewählten Seitenbereich extrahiert.
Diese Vorschauversion der Lese-API unterstützt die Sprachen Englisch, Niederländisch, Französisch, Deutsch, Italienisch, Japanisch, Portugiesisch, Chinesisch (vereinfacht) und Spanisch.

Weitere Informationen finden Sie in der Lese-API Schrittanleitung.

Weitere Informationen zur Lese-API v3.1 (Public Preview 2)

August 2020

Kundenseitig verwaltete Verschlüsselung ruhender Daten

Der Dienst „Gesichtserkennung“ verschlüsselt Ihre Daten beim Speichern in der Cloud automatisch. Durch die Verschlüsselung des Diensts „Gesichtserkennung“ werden Ihre Daten ausreichend geschützt, um den Sicherheits- und Complianceanforderungen Ihrer Organisation gerecht zu werden. Standardmäßig verwendet Ihr Abonnement von Microsoft verwaltete Verschlüsselungsschlüssel. Es gibt auch eine neue Option namens „CMK“ (kundenseitig verwaltete Schlüssel) zum Verwalten Ihres Abonnements mit Ihren eigenen Schlüsseln. Weitere Informationen finden Sie unter Verschlüsselung für ruhende Daten des Gesichtserkennungsdiensts.

Juli 2020

Lese-API v3.1 (Public Preview) mit OCR für vereinfachtes Chinesisch

Der öffentlichen Vorschau der Azure KI Vision-Lese-API v3.1 wurde Unterstützung für vereinfachtes Chinesisch hinzugefügt.

Diese Vorschauversion der Lese-API unterstützt die Sprachen Englisch, Niederländisch, Französisch, Deutsch, Italienisch, Portugiesisch, Chinesisch (vereinfacht) und Spanisch.

Weitere Informationen finden Sie in der Lese-API Schrittanleitung.

Weitere Informationen zur Lese-API v3.1 (Public Preview 1)

Mai 2020

Azure KI Vision-Lese-API v3.0 ist ab sofort allgemein verfügbar und beinhaltet folgende Aktualisierungen der Lese-API:

Unterstützung für Englisch, Niederländisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch
Höhere Genauigkeit
Konfidenzbewertung für jedes extrahierte Wort
Neues Ausgabeformat

Weitere Informationen finden Sie in der OCR Übersicht.

April 2020

Neues Erkennungsmodell für die Gesichtserkennungs-API

Das neue Modell „recognition 03“ ist das genaueste derzeit verfügbare Modell. Wenn Sie Neukunde sind, empfehlen wir die Verwendung dieses Modells. Recognition 03 bietet eine höhere Genauigkeit sowohl bei Ähnlichkeitsvergleichen als auch bei Vergleichen zur Personenzuordnung. Weitere Informationen finden Sie unter Angeben eines Gesichtserkennungsmodells.

März 2020

TLS 1.2 wird nun für alle HTTP-Anforderungen erzwungen, die an diesen Dienst gerichtet werden. Weitere Informationen finden Sie unter Azure KI Services-Sicherheit.

Januar 2020

Lese-API 3.0 Public Preview

Sie können nun Version 3.0 der Lese-API verwenden, um gedruckten oder handschriftlichen Text aus Bildern zu extrahieren. Verglichen mit früheren Versionen bietet die Version 3.0 Folgendes:

Höhere Genauigkeit
Neues Ausgabeformat
Konfidenzbewertung für jedes extrahierte Wort
Unterstützung der Sprachen Spanisch und Englisch mit dem Sprachparameter

Informationen zu den ersten Schritten mit der API-Version 3.0 finden Sie in einer Schnellstartanleitung zur Textextraktion.

Juni 2019

Neues Erkennungsmodell für die Gesichtserkennungs-API

Das neue Modell „Detection 02“ bietet verbesserte Genauigkeit bei kleinen, im Profil sichtbaren, verdeckten oder unscharfen Gesichtern. Verwenden Sie es über Face – Detect, FaceList – Add Face, LargeFaceList – Add Face, PersonGroup Person – Add Face und LargePersonGroup Person – Add Face, indem Sie den neuen Namen des Gesichtserkennungsmodells detection_02 im Parameter detectionModel angeben. Weitere Informationen finden Sie unter Angeben eines Erkennungsmodells.

April 2019

Verbesserte Attributgenauigkeit

Die allgemeine Genauigkeit der Attribute age und headPose wurde verbessert. Das Attribut headPose wird ebenfalls aktualisiert, wobei der Wert pitch jetzt aktiviert ist. Verwenden Sie diese Attribute, indem Sie sie im Parameter returnFaceAttributes des Parameters returnFaceAttributesreturnFaceAttributes angeben.

Verbesserte Verarbeitungsgeschwindigkeit

Die Geschwindigkeit wurde für Vorgänge vom Typ Face – Detect (Face – Erkennen), FaceList – Add Face (FaceList – Gesicht hinzufügen), LargeFaceList – Add Face (LargeFaceList – Gesicht hinzufügen), PersonGroup Person – Add Face (PersonGroup Person – Gesicht hinzufügen) und LargePersonGroup Person – Add Face (LargePersonGroup Person – Gesicht hinzufügen) verbessert.

März 2019

Neues Erkennungsmodell für die Gesichtserkennungs-API

Das Modell „Recognition 02“ verfügt über eine verbesserte Genauigkeit. Verwenden Sie es über Face – Detect, FaceList – Create, LargeFaceList – Create, PersonGroup – Create und LargePersonGroup – Create, indem Sie den neuen Namen des Gesichtserkennungsmodells recognition_02 im Parameter recognitionModel angeben. Weitere Informationen finden Sie unter Angeben eines Erkennungsmodells.

Januar 2019

Momentaufnahmefeature für die Gesichtserkennung

Das folgende Feature ermöglicht es dem Dienst, die Datenmigration zwischen Abonnements zu unterstützen: Momentaufnahme.

Wichtig

Ab dem 30. Juni 2023 wird die Face Snapshot-API eingestellt.

Oktober 2018

API-Meldungen

Optimierte Beschreibung für status, createdDateTime, lastActionDateTime und lastSuccessfulTrainingDateTime in status, createdDateTime, and lastActionDateTime.

Mai 2018

Verbesserte Attributgenauigkeit

Die Attribute gender, age, glasses, facialHair, hair und makeup wurden deutlich verbessert. Sie können sie mit dem Parameter returnFaceAttributes von Face - Detect verwenden.

Höhere maximale Dateigröße

Die maximale Dateigröße des Eingabebilds wurde für Face - Detect, FaceList - Add Face, LargeFaceList - Add Face, PersonGroup Person - Add Face und LargePersonGroup Person - Add Face von 4 MB auf 6 MB erhöht.

März 2018

Neue Datenstruktur

LargeFaceList und LargePersonGroup. Weitere Details finden Sie unter Skalieren, um mehr registrierte Benutzer zu verarbeiten.
Der Face - Identify-Parameter maxNumOfCandidatesReturned wurde von [1, 5] auf [1, 100] erhöht und entspricht standardmäßig 10.

Mai 2017

Neue erkennbare Gesichtsattribute

Die Attribute hair, makeup, accessory, occlusion, blur, exposure und noise wurden dem hair-Parameter returnFaceAttributes hinzugefügt.
In PersonGroup und in Face - Identify werden 10.000 Personen unterstützt.
Die Paginierung wird mit den optionalen Parametern start und top in PersonGroup Person - List unterstützt.
Beim Hinzufügen und Löschen von Gesichtern für verschiedene „FaceLists“ und verschiedene Personen in „PersonGroup“ wird die Parallelität unterstützt.

März 2017

Neues erkennbares Gesichtsattribut

Das Attribut emotion wurde dem emotion-Parameter returnFaceAttributes hinzugefügt.

Behobene Probleme

Das Gesicht konnte nicht mit dem von Face – Detect (Face – Erkennen) als targetFace zurückgegebenen Rechteck in FaceList – Add Face (FaceList – Gesicht hinzufügen) und PersonGroup Person – Add Face (PersonGroup Person – Gesicht hinzufügen) wiedererkannt werden.
Die erkennbare Gesichtsgröße wurde festgelegt, um sicherzustellen, dass sie immer zwischen 36 × 36 Pixel und 4.096 × 4.096 Pixel liegt.

November 2016

Neuer Abonnementtarif

Ein Standardabonnement wurde für den Gesichtserkennungsspeicher hinzugefügt, damit zusätzliche Gesichter gespeichert werden können, wenn PersonGroup Person - Add Face oder FaceList - Add Face zur Identifikation oder für den Ähnlichkeitsabgleich verwendet wird. Die gespeicherten Bilder werden mit 0,5 US-Dollar pro 1000 Gesichter abgerechnet. Diese Rate wird täglich anteilig berechnet. Abonnements im Free-Tarif sind weiterhin auf eine Gesamtzahl von 1.000 Personen begrenzt.

Oktober 2016

API-Meldungen

Die englische Fehlermeldung „There are more than one face in the image“, die für targetFace (FaceList – Gesicht hinzufügen) und PersonGroup Person – Add Face (PersonGroup Person – Gesicht hinzufügen) angezeigt wird, wenn in targetFace mehrere Gesichter vorhanden sind, wurde in „There is more than one face in the image“ geändert.

Juli 2016

Neue Funktionen

Die Objektauthentifizierung „Face to Person“ wird in Face - Verify unterstützt.
Ein optionaler mode-Parameter wurde hinzugefügt. Mit diesem Parameter wird die Auswahl von zwei Arbeitsmodi unterstützt: matchPerson und matchFace in mode, matchPerson ist der Standardmodus.
Ein optionaler confidenceThreshold-Parameter wurde hinzugefügt, damit Benutzer den Schwellenwert festlegen können, der besagt, ob ein Gesicht zu einem Personenobjekt in confidenceThreshold gehört.
Die optionalen Parameter start und top wurden in start hinzugefügt, damit Benutzer den Startpunkt und die Gesamtzahl der aufzuführenden PersonGroups angeben können.

Änderungen von V0 bis V1.0

Der Stammdienstendpunkt wurde von https://westus.api.cognitive.microsoft.com/face/v0/ auf https://westus.api.cognitive.microsoft.com/face/v1.0/ aktualisiert. Änderungen wurden an Face - Detect, Face - Identify, Face - Find Similar und Face - Group vorgenommen.
Die minimal erkennbare Gesichtsgröße wurde auf 36×36 Pixel aktualisiert. Gesichter, die kleiner als 36×36 Pixel sind, werden nicht erkannt.
PersonGroup- und Personendaten von V0 wurden als veraltet gekennzeichnet. Auf diese Daten kann mit dem Face-Dienst V1.0 nicht zugegriffen werden.
Der V0-Endpunkt der Face-API ist seit dem 30. Juni 2016 veraltet.

Azure KI Services-Updates

Azure-Ankündigungen von Updates für Azure KI Services