Novedades de Computer Vision
Conozca las novedades del servicio. Estos elementos pueden ser notas de la versión, vídeos, entradas de blogs y otros tipos de información. Agregue esta página a sus marcadores para mantenerse actualizado con el servicio.
Septiembre de 2021
La versión preliminar pública de OCR (lectura) API admite 122 idiomas
OCR (lectura) API de Computer Vision expande los idiomas que admite a 122 con su versión preliminar más reciente:
- Compatibilidad de OCR con texto impreso en 49 nuevos idiomas, entre los que se incluyen el ruso y el búlgaro, así como otros idiomas cirílicos y procedentes del latín.
- Compatibilidad de OCR con texto manuscrito en 6 nuevos idiomas, que incluyen inglés, chino simplificado, francés, alemán, italiano, portugués y español.
- Mejoras para procesar archivos PDF digitales y texto de zona de lectura automática (MRZ) en documentos de identidad.
- Mejoras generales en el rendimiento y en la calidad de la inteligencia artificial
Para aprender a usar las nuevas características en vista previa (gb), consulte la guía paso a paso de OCR.
Agosto de 2021
Expansión del idioma de etiquetado de imágenes
La versión más reciente (v3.2) del etiquetador de imágenes ahora admite etiquetas en 50 idiomas. Para obtener más información, consulte la página Compatibilidad con idiomas.
Mayo de 2021
Actualización del contenedor Spatial Analysis
Se ha lanzado una nueva versión del contenedor Spatial Analysis con un nuevo conjunto de características. Este contenedor de Docker permite analizar vídeo de streaming en tiempo real para comprender las relaciones espaciales entre las personas y su movimiento en entornos físicos.
Las operaciones de Spatial Analysis ahora se pueden configurar para detectar la orientación de una persona.
- Se puede habilitar un clasificador de orientación para las operaciones
personcrossinglineypersoncrossingpolygonmediante la configuración del parámetroenable_orientation. De forma predeterminada, está desactivado.
- Se puede habilitar un clasificador de orientación para las operaciones
Las operaciones de Spatial Analysis ahora también ofrecen configuración para detectar la velocidad de una persona mientras anda o corre.
- La velocidad se puede detectar para las operaciones
personcrossinglineypersoncrossingpolygonmediante la activación del clasificadorenable_speed, que está desactivado de forma predeterminada. La salida se refleja en las salidasspeed,avgSpeedyminSpeed.
- La velocidad se puede detectar para las operaciones
Abril de 2021
Disponibilidad general de Computer Vision v3.2
Computer Vision API v3.2 ahora está disponible con carácter general con las siguientes actualizaciones:
- Modelo de etiquetado de imágenes mejorado: analiza el contenido visual y genera etiquetas pertinentes basadas en los objetos, las acciones y el contenido que se muestran en la imagen. Este modelo está disponible mediante la API de etiquetado de imágenes. Consulte la guía paso a paso de análisis de imágenes y la información general para más información.
- Modelo de moderación de contenido actualizado: detecta la presencia de contenido para adultos y proporciona marcas para filtrar imágenes que contienen contenido visual para adultos, subido de tono y violento. Este modelo está disponible mediante la API de análisis. Consulte la guía paso a paso de análisis de imágenes y la información general para más información.
- OCR (Read) disponible para 73 idiomas, entre los que se incluyen chino simplificado y tradicional, japonés, coreano y los idiomas procedentes del latín.
- OCR (Read) también está disponible como contenedor sin distribución para la implementación local.
Marzo de 2021
Actualización de la versión preliminar pública de Computer Vision 3.2
Se ha actualizado la versión preliminar pública de Computer Vision API v3.2. La versión preliminar tiene todas las características Computer Vision y, además, Read API y Analyze API.
Febrero de 2021
Versión preliminar pública de Read API v3.2 con compatibilidad con OCR para 73 idiomas
La versión preliminar pública de Read API v3.2 de Computer Vision, disponible como servicio en la nube y contenedor de Docker, incluye estas actualizaciones:
- OCR para 73 idiomas entre los que se incluyen chino simplificado y tradicional, japonés, coreano y los idiomas procedentes del latín.
- Orden de lectura natural para la salida de la línea de texto (solo para idiomas procedentes del latín).
- Clasificación de estilos de escritura a mano para líneas de texto junto con una puntuación de confianza (solo para idiomas procedentes del latín).
- Extracción de texto solo de las páginas seleccionadas de un documento.
- Disponible como contenedor sin distribución para la implementación local.
Para más información consulte la guía de procedimientos de Read API.
Enero de 2021
Actualización del contenedor Spatial Analysis
Se ha lanzado una nueva versión del contenedor Spatial Analysis con un nuevo conjunto de características. Este contenedor de Docker permite analizar vídeo de streaming en tiempo real para comprender las relaciones espaciales entre las personas y su movimiento en entornos físicos.
- Las operaciones de Spatial Analysis se pueden configurar para detectar si una persona lleva algún tipo de protección facial, como una mascarilla.
- Se puede habilitar un clasificador de mascarillas para las operaciones
personcount,personcrossinglineypersoncrossingpolygonmediante la configuración del parámetroENABLE_FACE_MASK_CLASSIFIER. - Los atributos
face_maskyface_noMaskse devolverán como metadatos con una puntuación de confianza para cada persona detectada en el flujo de vídeo
- Se puede habilitar un clasificador de mascarillas para las operaciones
- La operación personcrossingpolygon se ha ampliado para permitir el cálculo del tiempo que una persona permanece en una zona. Puede establecer el parámetro
typeen la configuración de zona de la operación enzonedwelltimey un nuevo evento del tipo personZoneDwellTimeEvent incluirá el campodurationMsrellenado con el número de milisegundos que la persona estuvo en la zona. - Cambio importante: se ha cambiado el nombre del evento personZoneEvent a personZoneEnterExitEvent. Este evento lo genera la operación personZoneEnterExitEvent cuando una persona entra o sale de la zona y proporciona información direccional con el lado numerado de la zona que se ha atravesado.
- La dirección URL de vídeo se puede proporcionar como "parámetro privado/ofuscado" en todas las operaciones. La ofuscación es opcional ahora y solo funcionará si se proporcionan
KEYyIVcomo variables de entorno. - La calibración está habilitada de forma predeterminada para todas las operaciones. Establezca
do_calibration: falsepara deshabilitarla. - Se ha agregado compatibilidad con la recalibración automática (que está deshabilitada de forma predeterminada) mediante el parámetro
enable_recalibration. Para más información, consulte Operaciones de Spatial Analysis. - Parámetros de calibración de la cámara en
DETECTOR_NODE_CONFIG. Para más información, consulte Operaciones de Spatial Analysis.
Octubre de 2020
Disponibilidad general de Computer Vision API v3.1
La versión de Computer Vision API en disponibilidad general se ha actualizado a v3.1.
Septiembre de 2020
Versión preliminar del contenedor Spatial Analysis
El contenedor Spatial Analysis ahora está en versión preliminar. La característica Spatial Analysis de Computer Vision permite analizar vídeo de streaming en tiempo real para conocer las relaciones espaciales entre las personas y su movimiento en entornos físicos. Spatial Analysis es un contenedor de Docker que se puede usar de forma local.
La versión preliminar pública de Read API v3.1 agrega OCR para el idioma japonés
La versión preliminar pública de Read API v3.1 de Computer Vision agrega estas funcionalidades:
OCR para el idioma japonés
En cada línea de texto, indique si la apariencia es escritura a mano o estilo de impresión, junto con una puntuación de confianza (solo en idiomas procedentes del latín).
En un documento de varias páginas, extraiga texto solo de las seleccionadas o de un intervalo.
Esta versión preliminar de Read API admite los idiomas inglés, holandés, francés, alemán, italiano, portugués, chino simplificado y español.
Para más información consulte la guía de procedimientos de Read API.
Julio de 2020
Versión preliminar pública de Read API v3.1 con OCR para chino simplificado
La versión preliminar de Read API v3.1 de Computer Vision agrega compatibilidad con chino simplificado.
- Esta versión preliminar de Read API admite los idiomas inglés, holandés, francés, alemán, italiano, portugués, chino simplificado y español.
Para más información consulte la guía de procedimientos de Read API.
Mayo de 2020
Computer Vision API v3.0 entró en disponibilidad general, con actualizaciones para Read API:
- Compatibilidad con inglés, neerlandés, francés, alemán, italiano, portugués y español
- Precisión mejorada
- Puntuación de confianza para cada palabra extraída
- Nuevo formato de salida
Para más información, consulte la introducción al OCR.
Marzo de 2020
- TLS 1.2 ya se exige en todas las solicitudes HTTP para este servicio. Para más información, consulte Seguridad de Azure Cognitive Services.
Enero de 2020
Read API 3.0 versión preliminar pública
Ahora puede usar la versión 3.0 de Read API para extraer texto impreso o manuscrito de las imágenes. En comparación con las versiones anteriores, la versión 3.0 proporciona lo siguiente:
- Precisión mejorada
- Nuevo formato de salida
- Puntuación de confianza para cada palabra extraída
- Compatibilidad de español e inglés con el parámetro de idioma.
Siga las indicaciones de una de las guías de inicio rápido de extracción de texto para empezar a usar la API 3.0.