Novedades de Computer Vision

Conozca las novedades del servicio. Estos elementos pueden ser notas de la versión, vídeos, entradas de blogs y otros tipos de información. Agregue esta página a sus marcadores para mantenerse actualizado con el servicio.

Septiembre de 2021

La versión preliminar pública de OCR (lectura) API admite 122 idiomas

OCR (lectura) API de Computer Vision expande los idiomas que admite a 122 con su versión preliminar más reciente:

  • Compatibilidad de OCR con texto impreso en 49 nuevos idiomas, entre los que se incluyen el ruso y el búlgaro, así como otros idiomas cirílicos y procedentes del latín.
  • Compatibilidad de OCR con texto manuscrito en 6 nuevos idiomas, que incluyen inglés, chino simplificado, francés, alemán, italiano, portugués y español.
  • Mejoras para procesar archivos PDF digitales y texto de zona de lectura automática (MRZ) en documentos de identidad.
  • Mejoras generales en el rendimiento y en la calidad de la inteligencia artificial

Para aprender a usar las nuevas características en vista previa (gb), consulte la guía paso a paso de OCR.

Agosto de 2021

Expansión del idioma de etiquetado de imágenes

La versión más reciente (v3.2) del etiquetador de imágenes ahora admite etiquetas en 50 idiomas. Para obtener más información, consulte la página Compatibilidad con idiomas.

Mayo de 2021

Actualización del contenedor Spatial Analysis

Se ha lanzado una nueva versión del contenedor Spatial Analysis con un nuevo conjunto de características. Este contenedor de Docker permite analizar vídeo de streaming en tiempo real para comprender las relaciones espaciales entre las personas y su movimiento en entornos físicos.

  • Las operaciones de Spatial Analysis ahora se pueden configurar para detectar la orientación de una persona.

    • Se puede habilitar un clasificador de orientación para las operaciones personcrossingline y personcrossingpolygon mediante la configuración del parámetro enable_orientation. De forma predeterminada, está desactivado.
  • Las operaciones de Spatial Analysis ahora también ofrecen configuración para detectar la velocidad de una persona mientras anda o corre.

    • La velocidad se puede detectar para las operaciones personcrossingline y personcrossingpolygon mediante la activación del clasificador enable_speed, que está desactivado de forma predeterminada. La salida se refleja en las salidas speed, avgSpeed y minSpeed.

Abril de 2021

Disponibilidad general de Computer Vision v3.2

Computer Vision API v3.2 ahora está disponible con carácter general con las siguientes actualizaciones:

  • Modelo de etiquetado de imágenes mejorado: analiza el contenido visual y genera etiquetas pertinentes basadas en los objetos, las acciones y el contenido que se muestran en la imagen. Este modelo está disponible mediante la API de etiquetado de imágenes. Consulte la guía paso a paso de análisis de imágenes y la información general para más información.
  • Modelo de moderación de contenido actualizado: detecta la presencia de contenido para adultos y proporciona marcas para filtrar imágenes que contienen contenido visual para adultos, subido de tono y violento. Este modelo está disponible mediante la API de análisis. Consulte la guía paso a paso de análisis de imágenes y la información general para más información.
  • OCR (Read) disponible para 73 idiomas, entre los que se incluyen chino simplificado y tradicional, japonés, coreano y los idiomas procedentes del latín.
  • OCR (Read) también está disponible como contenedor sin distribución para la implementación local.

Marzo de 2021

Actualización de la versión preliminar pública de Computer Vision 3.2

Se ha actualizado la versión preliminar pública de Computer Vision API v3.2. La versión preliminar tiene todas las características Computer Vision y, además, Read API y Analyze API.

Febrero de 2021

Versión preliminar pública de Read API v3.2 con compatibilidad con OCR para 73 idiomas

La versión preliminar pública de Read API v3.2 de Computer Vision, disponible como servicio en la nube y contenedor de Docker, incluye estas actualizaciones:

  • OCR para 73 idiomas entre los que se incluyen chino simplificado y tradicional, japonés, coreano y los idiomas procedentes del latín.
  • Orden de lectura natural para la salida de la línea de texto (solo para idiomas procedentes del latín).
  • Clasificación de estilos de escritura a mano para líneas de texto junto con una puntuación de confianza (solo para idiomas procedentes del latín).
  • Extracción de texto solo de las páginas seleccionadas de un documento.
  • Disponible como contenedor sin distribución para la implementación local.

Para más información consulte la guía de procedimientos de Read API.

Enero de 2021

Actualización del contenedor Spatial Analysis

Se ha lanzado una nueva versión del contenedor Spatial Analysis con un nuevo conjunto de características. Este contenedor de Docker permite analizar vídeo de streaming en tiempo real para comprender las relaciones espaciales entre las personas y su movimiento en entornos físicos.

  • Las operaciones de Spatial Analysis se pueden configurar para detectar si una persona lleva algún tipo de protección facial, como una mascarilla.
    • Se puede habilitar un clasificador de mascarillas para las operaciones personcount, personcrossingline y personcrossingpolygon mediante la configuración del parámetro ENABLE_FACE_MASK_CLASSIFIER.
    • Los atributos face_mask y face_noMask se devolverán como metadatos con una puntuación de confianza para cada persona detectada en el flujo de vídeo
  • La operación personcrossingpolygon se ha ampliado para permitir el cálculo del tiempo que una persona permanece en una zona. Puede establecer el parámetro type en la configuración de zona de la operación en zonedwelltime y un nuevo evento del tipo personZoneDwellTimeEvent incluirá el campo durationMs rellenado con el número de milisegundos que la persona estuvo en la zona.
  • Cambio importante: se ha cambiado el nombre del evento personZoneEvent a personZoneEnterExitEvent. Este evento lo genera la operación personZoneEnterExitEvent cuando una persona entra o sale de la zona y proporciona información direccional con el lado numerado de la zona que se ha atravesado.
  • La dirección URL de vídeo se puede proporcionar como "parámetro privado/ofuscado" en todas las operaciones. La ofuscación es opcional ahora y solo funcionará si se proporcionan KEY y IV como variables de entorno.
  • La calibración está habilitada de forma predeterminada para todas las operaciones. Establezca do_calibration: false para deshabilitarla.
  • Se ha agregado compatibilidad con la recalibración automática (que está deshabilitada de forma predeterminada) mediante el parámetro enable_recalibration. Para más información, consulte Operaciones de Spatial Analysis.
  • Parámetros de calibración de la cámara en DETECTOR_NODE_CONFIG. Para más información, consulte Operaciones de Spatial Analysis.

Octubre de 2020

Disponibilidad general de Computer Vision API v3.1

La versión de Computer Vision API en disponibilidad general se ha actualizado a v3.1.

Septiembre de 2020

Versión preliminar del contenedor Spatial Analysis

El contenedor Spatial Analysis ahora está en versión preliminar. La característica Spatial Analysis de Computer Vision permite analizar vídeo de streaming en tiempo real para conocer las relaciones espaciales entre las personas y su movimiento en entornos físicos. Spatial Analysis es un contenedor de Docker que se puede usar de forma local.

La versión preliminar pública de Read API v3.1 agrega OCR para el idioma japonés

La versión preliminar pública de Read API v3.1 de Computer Vision agrega estas funcionalidades:

  • OCR para el idioma japonés

  • En cada línea de texto, indique si la apariencia es escritura a mano o estilo de impresión, junto con una puntuación de confianza (solo en idiomas procedentes del latín).

  • En un documento de varias páginas, extraiga texto solo de las seleccionadas o de un intervalo.

  • Esta versión preliminar de Read API admite los idiomas inglés, holandés, francés, alemán, italiano, portugués, chino simplificado y español.

Para más información consulte la guía de procedimientos de Read API.

Julio de 2020

Versión preliminar pública de Read API v3.1 con OCR para chino simplificado

La versión preliminar de Read API v3.1 de Computer Vision agrega compatibilidad con chino simplificado.

  • Esta versión preliminar de Read API admite los idiomas inglés, holandés, francés, alemán, italiano, portugués, chino simplificado y español.

Para más información consulte la guía de procedimientos de Read API.

Mayo de 2020

Computer Vision API v3.0 entró en disponibilidad general, con actualizaciones para Read API:

  • Compatibilidad con inglés, neerlandés, francés, alemán, italiano, portugués y español
  • Precisión mejorada
  • Puntuación de confianza para cada palabra extraída
  • Nuevo formato de salida

Para más información, consulte la introducción al OCR.

Marzo de 2020

Enero de 2020

Read API 3.0 versión preliminar pública

Ahora puede usar la versión 3.0 de Read API para extraer texto impreso o manuscrito de las imágenes. En comparación con las versiones anteriores, la versión 3.0 proporciona lo siguiente:

  • Precisión mejorada
  • Nuevo formato de salida
  • Puntuación de confianza para cada palabra extraída
  • Compatibilidad de español e inglés con el parámetro de idioma.

Siga las indicaciones de una de las guías de inicio rápido de extracción de texto para empezar a usar la API 3.0.

Actualizaciones de Cognitive Service

Anuncios de actualización de Azure para Cognitive Services