Modelo predefinido de reconhecimento de texto

Artigo
01/10/2024

O modelo predefinido de reconhecimento de texto extrai palavras de documentos e imagens em fluxos de caracteres legíveis para o computador. Eles usam o OCR (reconhecimento óptico de caracteres) de última geração para detectar textos impressos e manuscritos em imagens.

Esse modelo processa imagens e arquivos de documentos para extrair linhas de texto impresso ou manuscrito.

Uso em Power Apps

O modelo predefinido de reconhecimento de textos está disponível em Power Apps usando o componente Text Recognizer. Mais informações: Usar o componente reconhecedor de textos no Power Apps

Usar em Power Automate

Para obter informações sobre como usar este modelo no Power Automate, consulte Usar o modelo predefinido de reconhecimento de texto no Power Automate.

Idioma, formato e tamanho compatíveis

Os arquivos que você pode digitalizar com o modelo de reconhecimento de textos precisam ter estas características:

Idioma para texto de impressão: Africâner, Albanês, Angika (Devanagiri), Árabe, Asturiano, Awadhi-Hindi (Devanagiri), Azerbaijano (Latim), Bagheli, Basco, Bielorrusso (Cirílico), Bielorrusso (Latim), Bhojpuri-Hindi (Devanagiri), Bislamá, Bodo (Devanagiri), Bósnio (Latino), Brajbha, Bretão, Búlgaro, Bundeli, Buryat (Cirílico), Catalão, Cebuano, Chamling, Chamorro, Chhattisgarhi (Devanagiri), Chinês (Simplificado), Chinês (Tradicional), Córnico, Corso, Tártaro da Crimeia (Latino), Croata, Tcheco, Dinamarquês, Dari, Dhimal (Devanagiri), Dogri (Devanagiri), Holandês, Inglês, Erzya (Cirílico), Estoniano, Feroês, Fijiano, Filipino, Finlandês, Francês, Friulano, Gagauz (Latino), Galego, Alemão, Gilbertês, Gondi (Devanagiri), Groenlandês, Gurung (Devanagiri), Crioulo Haitiano, Halbi (Devanagiri), Hani, Haryanvi, Havaiano, Híndi, Hmong Daw (Latino), Ho(Devanagiri), Húngaro, Islandês, Inari Sami, Indonésio, Interlíngua, Inuktitut (Latino), Irlandês, Italiano, Japonês, Jaunsari (Devanagiri), Javanês, Kabuverdianu, Kachin (Latino), Kangri (Devanagiri), Karachay-Balkar, Kara-Kalpak (Cirílico), Kara-Kalpak (Latino), Kashubian, Cazaque (Cirílico), Cazaque (Latino), Khaling, Khasi, Quiché, Coreano, Korku, Koryak, Kosraean, Kumyk (Cirílico), Curdo (Árabe), Curdo (Latino), Kurukh (Devanagiri), Quirguiz (Cirílico), Lakota, Latim, Lituano, Sorábio Baixo, Lule Sami, Luxemburguês, Mahasu Pahari (Devanagiri), Malaio (Latino), Maltês, Malto (Devanagiri), Manx, Maori, Marati, Mongol (Cirílico), Montenegrino (Cirílico), Montenegrino (Latino), Napolitano, Nepalês, Niueano, Nogay, Sami do Norte (Latino), Norueguês, Occitano, Osseto, Pashto, Persa, Polonês, Português, Punjabi (Árabe), Ripuário, Romeno, Romanche, Russo, Sadri (Devanagiri), Samoano (Latino), Sânscrito (Devanagari), Santali (Devanagiri), Escocês, Gaélico Escocês, Sérvio (Latino), Xerpa (Devanagiri), Sirmauri (Devanagiri), Skolt Sami, Eslovaco, Esloveno, Somali (Árabe), Sami do Sul, Espanhol, Suaíli (Latino), Sueco, Tadjique (Cirílico), Tártaro (Latino), Tétum, Thangmi, Tonga, Turco, Turcomeno (Latino), Tuvano, Sorábio Alto, Urdu, Uigur (Árabe), Uzbeque (Árabe), Uzbeque (Cirílico), Uzbeque (Latino), Volapuque, Walser, Galês, Frísio Ocidental, Maia Iucateque, Zhuang, Zulu
Idioma para texto manuscrito: inglês, chinês (simplificado), francês, alemão, italiano, japonês, coreano, português, espanhol
Formato:
- JPG
- PNG
- BMP
- PDF
Tamanho: máximo de 20 MB
Para documentos em PDF, apenas as 2,000 primeiras páginas são processadas.

Saída do modelo

Se um documento for detectado, o modelo de reconhecimento de texto produzirá as seguintes informações:

Resultados: uma lista de linhas extraídas do texto de entrada.
Texto: cadeias de caracteres que contêm a linha de texto detectada.
BoundingBox: quatro valores que representam a caixa delimitadora, descritos usando as posições superior e esquerda, junto com sua largura e altura.

Limites

Ação	Limite	Período de renovação
Chamadas de reconhecimento de texto (por ambiente)	480	60 segundos

Confira também

Treinamento: Reconhecer texto com o AI Builder (módulo)