O que é o Reconhecimento de Formulários?What is Form Recognizer?

Importante

Agora o TLS 1.2 é obrigatório para todas as solicitações HTTP a este serviço.TLS 1.2 is now enforced for all HTTP requests to this service. Para saber mais, confira Segurança nos Serviços Cognitivos do Azure.For more information, see Azure Cognitive Services security.

O Reconhecimento de Formulários do Azure é um serviço cognitivo que permite criar software de processamento de dados automatizado usando a tecnologia de machine learning.Azure Form Recognizer is a cognitive service that lets you build automated data processing software using machine learning technology. Identifique e extraia texto, pares chave/valor, marcas de seleção, tabelas e estrutura dos seus documentos—o serviço produz dados estruturados que incluem as relações no arquivo original, caixas delimitadoras, confiança, entre outros.Identify and extract text, key/value pairs, selection marks, tables, and structure from your documents—the service outputs structured data that includes the relationships in the original file, bounding boxes, confidence and more. É possível obter resultados com rapidez e precisão, adaptados ao seu conteúdo específico, sem intervenção manual intensa nem ampla experiência em ciência de dados.You quickly get accurate results that are tailored to your specific content without heavy manual intervention or extensive data science expertise. Use o Reconhecimento de Formulários para automatizar a entrada de dados nos seus aplicativos e enriquecer suas funcionalidades de pesquisa de documentos.Use Form Recognizer to automate data entry in your applications and enrich your documents search capabilities.

O Reconhecimento de Formulários é composto por modelos de processamento de documentos personalizados, modelos predefinidos para faturas, recibos, IDs e cartões de visita e pelo modelo de layout.Form Recognizer is composed of custom document processing models, prebuilt models for invoices, receipts, IDs and business cards, and the layout model. Chame os modelos do Reconhecimento de Formulários usando uma API REST ou SDKs da biblioteca de clientes para reduzir a complexidade e integrá-lo a seu fluxo de trabalho ou aplicativo.You can call Form Recognizer models by using a REST API or client library SDKs to reduce complexity and integrate it into your workflow or application.

Esta documentação contém os seguintes tipos de artigos:This documentation contains the following article types:

  • Os guias de início rápido são instruções de introdução que orientam sobre como fazer solicitações ao serviço.Quickstarts are getting-started instructions to guide you through making requests to the service.
  • Os guias de instruções contêm instruções de uso do serviço de maneiras mais específicas ou personalizadas.How-to guides contain instructions for using the service in more specific or customized ways.
  • Os conceitos fornecem explicações detalhadas sobre a funcionalidade e os recursos do serviço.Concepts provide in-depth explanations of the service functionality and features.
  • Os tutoriais são guias mais longos que mostram como usar o serviço como um componente de soluções de negócios mais amplas.Tutorials are longer guides that show you how to use the service as a component in broader business solutions.

Recursos do Reconhecimento de FormuláriosForm Recognizer features

Com o Reconhecimento de Formulários, é fácil extrair e analisar dados de formulários usando estes recursos:With Form Recognizer, you can easily extract and analyze form data with these features:

IntroduçãoGet started

Use a Ferramenta de Reconhecimento de Formulários de Amostra para experimentar os modelos de Layout e Pré-criados e treinar um modelo personalizado para seus documentos.Use the Sample Form Recognizer Tool to try out Layout, Pre-built models and train a custom model for your documents. Você precisará ter uma assinatura do Azure (crie uma gratuitamente), bem como um ponto de extremidade e uma chave de recurso do Reconhecimento de Formulários para experimentar o serviço Reconhecimento de Formulários.You will need an Azure subscription (create one for free) and a Form Recognizer resource endpoint and key to try out the Form Recognizer service.

Siga o Início Rápido da biblioteca de clientes/API REST para começar a extrair dados de seus documentos.Follow the Client library / REST API quickstart to get started extracting data from your documents. Recomendamos usar o serviço gratuito quando estiver aprendendo a tecnologia.We recommend that you use the free service when you're learning the technology. Lembre-se de que o número de páginas gratuitas é limitado a 500 por mês.Remember that the number of free pages is limited to 500 per month.

Você também pode usar as amostras de REST (GitHub) para começar -You can also use the REST samples (GitHub) to get started -

revisar as Especificações das APIs RESTReview the REST APIs

Você usará as APIs a seguir para treinar modelos e extrair dados estruturados de formulários.You'll use the following APIs to train models and extract structured data from forms.

NomeName DescriçãoDescription
Analisar LayoutAnalyze Layout Analise um documento passado como um fluxo para extrair texto, marcas de seleção, tabelas e estrutura do documentoAnalyze a document passed in as a stream to extract text, selection marks, tables, and structure from the document
Treinar Modelo PersonalizadoTrain Custom Model Treine um novo modelo para analisar seus formulários usando cinco formulários do mesmo tipo.Train a new model to analyze your forms by using five forms of the same type. Defina o parâmetro useLabelFile como true para treinar usando dados rotulados manualmente.Set the useLabelFile parameter to true to train with manually labeled data.
Analisar FormulárioAnalyze Form Analise um formulário passado como um fluxo para extrair texto, pares chave/valor e tabelas do formulário com o modelo personalizado.Analyze a form passed in as a stream to extract text, key/value pairs, and tables from the form with your custom model.
Analisar FaturaAnalyze Invoice Analise uma fatura para extrair informações importantes, tabelas e outros tipos de texto da fatura.Analyze an invoice to extract key information, tables, and other invoice text.
Analisar ReciboAnalyze Receipt Analise um documento de recibo para extrair informações importantes e outros tipos de texto do recibo.Analyze a receipt document to extract key information, and other receipt text.
Analisar IDAnalyze ID Analise um documento de cartão de ID para extrair informações importantes e outros tipos de texto do cartão de identificação.Analyze an ID card document to extract key information, and other identification card text.
Analisar o Cartão de VisitaAnalyze Business Card Analise um cartão de visita para extrair informações e texto importantes.Analyze a business card to extract key information and text.

Explore a documentação de referência da API REST para saber mais.Explore the REST API reference documentation to learn more. Se você estiver familiarizado com uma versão anterior da API, confira o artigo O que há de novo para saber mais sobre as alterações recentes.If you're familiar with a previous version of the API, see the What's new article to learn about recent changes.

API de layoutLayout API

O Reconhecimento de Formulários pode extrair de documentos texto, marcas de seleção e estrutura de tabela (os números de linha e coluna associados ao texto) usando o OCR (reconhecimento óptico de caracteres) de alta definição e um modelo aprimorado de aprendizado profundo.Form Recognizer can extract text, selection marks, and table structure (the row and column numbers associated with the text) using high-definition optical character recognition (OCR) and an enhanced deep learning model from documents. Confira o guia conceitual Layout para obter mais informações.See the Layout conceptual guide for more info.

exemplo de tabelas

Modelos personalizadosCustom models

O modelo personalizado do Reconhecimento de Formulários treina para dados próprios e você só precisa de cinco formulários de entrada de exemplo para começar.Form Recognizer custom models train to your own data, and you only need five sample input forms to start. Um modelo de processamento de documento treinado pode gerar dados estruturados que incluem as relações no documento de formulário original.A trained document processing model can output structured data that includes the relationships in the original form document. Depois de treinar no modelo, você pode testá-lo, treinar novamente e, por fim, usá-lo para extrair, de forma confiável, dados de mais formulários de acordo com suas necessidades.After you train the model, you can test and retrain it and eventually use it to reliably extract data from more forms according to your needs.

Você tem as seguintes opções ao treinar modelos personalizados: treinamento usando dados rotulados e sem dados rotulados.You have the following options when you train custom models: training with labeled data and without labeled data.

Treinar sem rótulosTrain without labels

O Reconhecimento de Formulários usa aprendizado não supervisionado para entender o layout e as relações entre campos e entradas em seus formulários.Form Recognizer uses unsupervised learning to understand the layout and relationships between fields and entries in your forms. Quando você envia seus formulários de entrada, o algoritmo agrupa os formulários por tipos, descobre quais chaves e tabelas estão presentes e associa valores a chaves e entradas a tabelas.When you submit your input forms, the algorithm clusters the forms by type, discovers what keys and tables are present, and associates values to keys and entries to tables. O treinamento sem rótulos não exige a rotulagem de dados manual nem a codificação e a manutenção intensivas. Recomendamos que você experimente esse método primeiro.Training without labels doesn't require manual data labeling or intensive coding and maintenance, and we recommend you try this method first.

Confira Criar um conjunto de dados de treinamento para obter dicas sobre como coletar seus documentos de treinamento.See Build a training data set for tips on how to collect your training documents.

Treinar com rótulosTrain with labels

Quando você treina usando dados rotulados, o modelo usa aprendizado supervisionado para extrair os valores de interesse usando os formulários rotulados que você fornece.When you train with labeled data, the model uses supervised learning to extract values of interest, using the labeled forms you provide. Os dados rotulados geram modelos de melhor desempenho e podem produzir modelos que funcionam com formulários complexos ou formulários que contêm valores sem chaves.Labeled data results in better-performing models and can produce models that work with complex forms or forms containing values without keys.

O Reconhecimento de Formulários usa a API de Layout para aprender os tamanhos e as posições esperados de elementos de texto impressos e manuscritos e extrair tabelas.Form Recognizer uses the Layout API to learn the expected sizes and positions of printed and handwritten text elements and extract tables. Em seguida, ele usa rótulos especificados pelo usuário para aprender as associações de chave/valor e as tabelas nos documentos.Then it uses user-specified labels to learn the key/value associations and tables in the documents. Recomendamos que você use cinco formulários rotulados manualmente do mesmo tipo (mesma estrutura) para começar ao treinar um novo modelo e adicionar mais dados rotulados, conforme necessário, a fim de aprimorar a precisão do modelo.We recommend that you use five manually labeled forms of the same type (same structure) to get started when training a new model and add more labeled data as needed to improve the model accuracy. O Reconhecimento de Formulários permite treinar um modelo para extrair pares chave-valor e tabelas usando funcionalidades de aprendizado supervisionado.Form Recognizer enables training a model to extract key value pairs and tables using supervised learning capabilities.

Introdução ao treinamento com rótulosGet started with Train with labels

Modelos predefinidosPrebuilt models

O Reconhecimento de Formulários também inclui modelos predefinidos para o processamento automático de dados de tipos de formulário exclusivos.Form Recognizer also includes Prebuilt models for automated data processing of unique form types.

Modelo de fatura predefinidoPrebuilt Invoice model

O modelo Fatura Predefinida extrai dados de faturas em diversos formatos e retorna dados estruturados.The Prebuilt Invoice model extracts data from invoices in various formats and returns structured data. Esse modelo extrai informações importantes, como a ID da fatura, detalhes do cliente, detalhes do fornecedor, endereço de entrega, endereço de cobrança, total, imposto, subtotal, itens de linha, entre outros.This model extracts key information such as the invoice ID, customer details, vendor details, ship to, bill to, total, tax, subtotal, line items and more. Além disso, o modelo de fatura predefinido é treinado para analisar e retornar todo o texto e as tabelas da fatura.In addition, the prebuilt invoice model is trained to analyze and return all of the text and tables on the invoice. Confira o guia conceitual Faturas para obter mais informações.See the Invoices conceptual guide for more info.

exemplo de fatura

Modelo de Recibo PredefinidoPrebuilt Receipt model

O modelo de Recibo Predefinido é usado para a leitura de recibos de vendas em inglês da Austrália, do Canadá, do Reino Unido, da Índia e dos Estados Unidos: o tipo usado por restaurantes, postos de gasolina, varejo etc.The Prebuilt Receipt model is used for reading English sales receipts from Australia, Canada, Great Britain, India, and the United States—the type used by restaurants, gas stations, retail, and so on. Esse modelo extrai informações essenciais, como data e hora da transação, informações do comerciante, valores de impostos, itens de linha, totais, entre outros.This model extracts key information such as the time and date of the transaction, merchant information, amounts of taxes, line items, totals and more. Além disso, o modelo de recibo predefinido é treinado para analisar e retornar todo o texto de um recibo.In addition, the prebuilt receipt model is trained to analyze and return all of the text on a receipt. Confira o guia conceitual Recibos para obter mais informações.See the Receipts conceptual guide for more info.

exemplo de recibo

Modelo de cartões de ID (identificação) predefinidosPrebuilt Identification (ID) cards model

O modelo de cartões de ID (identificação) permite extrair informações importantes de passaportes do mundo inteiro, bem como de carteiras de motorista dos EUA.The Identification (ID) cards model enables you to extract key information from world-wide passports and US driver licenses. Ele extrai dados como a ID do documento, a data de validade, a data de nascimento, o nome, o país, a região, a zona legível por computador e muito mais.It extracts data such as the document ID, expiration date of birth, date of expiration, name, country, region, machine-readable zone and more. Confira o guia conceitual Cartões de ID (identificação) para obter mais informações.See the Identification (ID) cards conceptual guide for more info.

amostra de cartão de identificação

Modelo de Cartões de Visita PredefinidosPrebuilt Business Cards model

O modelo de Cartões de Visita permite que você extraia informações, como nome da pessoa, cargo, endereço, email, empresa e números de telefone de cartões de visita em inglês.The Business Cards model enables you to extract information such as the person's name, job title, address, email, company, and phone numbers from business cards in English. Confira o guia conceitual Cartões de visita para obter mais informações.See the Business cards conceptual guide for more info.

exemplo de cartão de visita

Requisitos de entradaInput requirements

O Reconhecimento de Formulários funciona em documentos de entrada que atendem aos seguintes requisitos:Form Recognizer works on input documents that meet these requirements:

  • O formato deve ser JPG, PNG, PDF (texto ou digitalizado) ou TIFF.Format must be JPG, PNG, PDF (text or scanned), or TIFF. PDFs com texto inserido são o melhor porque não há nenhuma possibilidade de erro na extração e na localização de caracteres.Text-embedded PDFs are best because there's no possibility of error in character extraction and location.
  • O tamanho do arquivo precisa ser inferior a 50 MB.File size must be less than 50 MB.
  • As imagens de dimensões devem estar entre 50 x 50 pixels e 10.000 x 10.000 pixels.Image dimensions must be between 50 x 50 pixels and 10000 x 10000 pixels.
  • As dimensões de PDF devem ter no máximo 17 x 17 polegadas, correspondentes aos tamanhos de papel ofício ou A3 e menores.PDF dimensions must be at most 17 x 17 inches, corresponding to Legal or A3 paper sizes and smaller.
  • Para PDF e TIFF, somente as primeiras 200 páginas são processadas (com uma assinatura de camada gratuita, somente as duas primeiras páginas são processadas).For PDF and TIFF, only the first 200 pages are processed (with a free tier subscription, only the first two pages are processed).
  • O tamanho total do conjunto de dados de treinamento deve ser de até 500 páginas.The total size of the training data set must be 500 pages or less.
  • Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes de enviá-los.If your PDFs are password-locked, you must remove the lock before submitting them.
  • Se documentos em papel forem digitalizados, os formulários deverão ser digitalizações de alta qualidade.If scanned from paper documents, forms should be high-quality scans.
  • O texto precisa usar o alfabeto latino (caracteres em português).Text must use the Latin alphabet (English characters).
  • Para aprendizado não supervisionado (sem dados rotulados), os dados devem conter chaves e valores.For unsupervised learning (without labeled data), data must contain keys and values.
  • Para aprendizado não supervisionado (sem dados rotulados), as chaves devem aparecer acima ou à esquerda dos valores. Não podem aparecer abaixo nem à direita.For unsupervised learning (without labeled data), keys must appear above or to the left of the values; they can't appear below or to the right.

Implantação local usando contêineres do DockerDeploy on premises using Docker containers

Use os contêineres do Reconhecimento de Formulários (versão prévia) para implantar recursos de API no local.Use Form Recognizer containers (preview) to deploy API features on-premises. Esse contêiner do Docker permite que você aproxime o serviço de seus dados para fins de conformidade, segurança ou outras razões operacionais.This Docker container enables you to bring the service closer to your data for compliance, security, or other operational reasons.

Disponibilidade e redundância do serviçoService availability and redundancy

O serviço de Reconhecimento de Formulários é resiliente por zona?Is Form Recognizer service zone-resilient?

Sim.Yes. O serviço de Reconhecimento de Formulários é resiliente por zona por padrão.The Form Recognizer service is zone-resilient by default.

Como faço para configurar o serviço de Reconhecimento de Formulários para ser resiliente por zona?How do I configure the Form Recognizer service to be zone-resilient?

Nenhuma configuração do cliente será necessária para habilitar a resiliência de zona.No customer configuration is necessary to enable zone-resiliency. A resiliência por zona para recursos do Reconhecimento de Formulários está disponível por padrão e é gerenciada pelo próprio serviço.Zone-resiliency for Form Recognizer resources is available by default and managed by the service itself.

Segurança e privacidade de dadosData privacy and security

Assim como ocorre com todos os serviços cognitivos, os desenvolvedores que usam o serviço Reconhecimento de Formulários devem estar cientes das políticas da Microsoft referentes aos dados do cliente.As with all the cognitive services, developers using the Form Recognizer service should be aware of Microsoft policies on customer data. Confira a página de Serviços Cognitivos na Central de Confiabilidade da Microsoft para saber mais.See the Cognitive Services page on the Microsoft Trust Center to learn more.

Próximas etapasNext steps

Experimente nossa ferramenta online e o início rápido para saber mais sobre o serviço de Reconhecimento de Formulários.Try our online tool and quickstart to learn more about the Form Recognizer service.