Что такое API "Анализ текста"?What is the Text Analytics API?

API Анализа текста — это облачная служба, которая предоставляет функцию обработки естественного языка (NLP) для интеллектуального анализа текста, включая: анализ тональности, интеллектуальный анализ мнений, извлечение ключевых фраз, определение языка и распознавание именованных сущностей.The Text Analytics API is a cloud-based service that provides Natural Language Processing (NLP) features for text mining and text analysis, including: sentiment analysis, opinion mining, key phrase extraction, language detection, and named entity recognition.

API — это компонент Microsoft Cognitive Services, коллекции алгоритмов машинного обучения и ИИ в облаке для использования в проектах по разработке.The API is a part of Azure Cognitive Services, a collection of machine learning and AI algorithms in the cloud for your development projects. Эти функции можно использовать с REST API или клиентской библиотекой.You can use these features with the REST API, or the client library.

Анализ мненийSentiment analysis

Используйте анализ тональности высказываний, чтобы узнать, что пользователи думают о вашем бренде или торговой марке, интеллектуально анализируя текст для получения сведений о тональности выражений (положительная или отрицательная).Use sentiment analysis and find out what people think of your brand or topic by mining the text for clues about positive or negative sentiment.

Эта функция предоставляет метки тональностей (например, "отрицательная", "нейтральная" и "положительная") на основе оценки наивысшей достоверности, полученной службой на уровне предложения и документа.The feature provides sentiment labels (such as "negative", "neutral" and "positive") based on the highest confidence score found by the service at a sentence and document-level. Функция также возвращает оценки достоверности в диапазоне от 0 до 1 для каждого предложения и документа по положительной, нейтральной и отрицательной тональностям.This feature also returns confidence scores between 0 and 1 for each document & sentences within it for positive, neutral and negative sentiment. Вы можете выполнять службу локально с помощью контейнера.You can also be run the service on premises using a container.

Интеллектуальный анализ данных — это функция анализа тональности (начиная с версии 3.1 — предварительная версия).Starting in the v3.1 preview, opinion mining is a feature of Sentiment Analysis. Эта функция также известна как анализ тональности на основе аспекта обработки естественного языка (NLP). Она предоставляет более детализированные сведения о мнениях, связанных с аспектами (например, атрибуты продуктов или услуг) в тексте.Also known as Aspect-based Sentiment Analysis in Natural Language Processing (NLP), this feature provides more granular information about the opinions related to aspects (such as the attributes of products or services) in text.

Извлечение ключевой фразыKey phrase extraction

Чтобы быстро найти основные понятия в тексте, используйте функцию извлечения ключевых фраз.Use key phrase extraction to quickly identify the main concepts in text. Например, для текста "Еда была вкусной, и там замечательные сотрудники" функция извлечения ключевых фраз вернет основные тезисы в записи: "еда" и "замечательные сотрудники".For example, in the text "The food was delicious and there were wonderful staff", Key Phrase Extraction will return the main talking points: "food" and "wonderful staff".

Определение языкаLanguage detection

Функция определения языка может определить, на каком языке написан входной текст, и сообщить единый код языка для каждого документа, представленного по запросу, на разных языках, диалектах и некоторых местных наречиях.Language detection can detect the language an input text is written in and report a single language code for every document submitted on the request in a wide range of languages, variants, dialects, and some regional/cultural languages. Код языка сопряжен с оценкой достоверности.The language code is paired with a confidence score.

Распознавание именованных сущностейNamed entity recognition

Функция Распознавания именованных сущностей (NER) может идентифицировать и классифицировать сущности в тексте: людей, места, организации и количества. Также можно определить известные сущности и связать их с дополнительной информацией в Интернете.Named Entity Recognition (NER) can Identify and categorize entities in your text as people, places, organizations, quantities, Well-known entities are also recognized and linked to more information on the web.

Развертывание в локальной среде с помощью контейнеров DockerDeploy on premises using Docker containers

Для развертывания функций API в локальной среде используйте контейнеры API "Анализ текста".Use Text Analytics containers to deploy API features on-premises. Эти контейнеры Docker позволяют разместить службу ближе к данным для обеспечения безопасности, соответствия требованиям и других эксплуатационных преимуществ.These docker containers enable you to bring the service closer to your data for compliance, security or other operational reasons. Для API "Анализ текста" предлагаются такие контейнеры:Text Analytics offers the following containers:

  • анализ тональностиsentiment analysis
  • извлечение ключевых фраз (предварительная версия);key phrase extraction (preview)
  • распознавание языка (предварительная версия);language detection (preview)
  • Анализ текста для здравоохранения (предварительная версия).Text Analytics for health (preview)

Асинхронные операцииAsynchronous operations

Конечная точка /analyze позволяет асинхронно использовать выбранные функции API "Анализ текста", такие как NER и извлечение ключевых фраз.The /analyze endpoint enables you to use select features of the Text Analytics API asynchronously, such as NER and key phrase extraction.

Стандартный рабочий процессTypical workflow

Рабочий процесс прост: данные отправляются для анализа, а выходные данные обрабатываются в коде.The workflow is simple: you submit data for analysis and handle outputs in your code. Анализаторы используются как есть без дополнительной конфигурации или настройки.Analyzers are consumed as-is, with no additional configuration or customization.

  1. Создайте ресурс Azure для Анализа текста.Create an Azure resource for Text Analytics. После этого получите ключ, созданный для аутентификации ваших запросов.Afterwards, get the key generated for you to authenticate your requests.

  2. Сформулируйте запрос, содержащий ваши данные как необработанный неструктурированный текст в формате JSON.Formulate a request containing your data as raw unstructured text, in JSON.

  3. Отправьте запрос конечной точке, установленной во время регистрации, добавив требуемый ресурс: анализ тональности, извлечение ключевых фраз, определение языка или распознавание именованных сущностей.Post the request to the endpoint established during sign-up, appending the desired resource: sentiment analysis, key phrase extraction, language detection, or named entity recognition.

  4. Выполните потоковую передачу ответа или сохраните его локально.Stream or store the response locally. В зависимости от запроса результаты — это либо оценка тональности, либо коллекция извлеченных ключевых фраз, либо код языка.Depending on the request, results are either a sentiment score, a collection of extracted key phrases, or a language code.

Выходные данные возвращаются как единый документ JSON с результатами для каждого опубликованного текстового документа на основе идентификатора.Output is returned as a single JSON document, with results for each text document you posted, based on ID. Впоследствии можно проанализировать, визуализировать или разделить результаты и превратить их в практические аналитические сведения.You can subsequently analyze, visualize, or categorize the results into actionable insights.

Данные не хранятся в учетной записи.Data is not stored in your account. В операциях, выполняемых API анализа текста, не отслеживается состояние. Это означает, что предоставляемый текст обрабатывается и результаты возвращаются сразу.Operations performed by the Text Analytics API are stateless, which means the text you provide is processed and results are returned immediately.

Анализ текста для разных уровней программированияText Analytics for multiple programming experience levels

Вы можете начать использовать API Анализа текста в своих процессах, даже если у вас мало опыта в программировании.You can start using the Text Analytics API in your processes, even if you don't have much experience in programming. В этих руководствах описано, как можно разными способами использовать API для анализа текста с учетом ваших навыков.Use these tutorials to learn how you can use the API to analyze text in different ways to fit your experience level.

Поддерживаемые языкиSupported languages

Этот раздел перемещен в отдельную статью, чтобы оптимизировать поиск информации.This section has been moved to a separate article for better discoverability. Соответствующее содержимое см. в статье Language and region support for the Text Analytics API (Поддержка языков и регионов для API "Анализ текста").Refer to Supported languages in the Text Analytics API for this content.

Ограничения данныхData limits

Все конечные точки API анализа текста принимают необработанные текстовые данные.All of the Text Analytics API endpoints accept raw text data. Дополнительные сведения см. в статье Ограничения данных и частоты для использования API "Анализ текста".See the Data limits article for more information.

Кодировка ЮникодUnicode encoding

API анализа текста использует кодировку Юникод для текстового представления и подсчета количества символов.The Text Analytics API uses Unicode encoding for text representation and character count calculations. Запросы могут быть представлены как в UTF-8, так и в UTF-16 без каких-либо измеримых различий в количестве символов.Requests can be submitted in both UTF-8 and UTF-16 with no measurable differences in the character count. Кодовые точки Юникод используются в качестве эвристики для определения длины символов и считаются эквивалентными для ограничения данных анализа текста.Unicode codepoints are used as the heuristic for character length and are considered equivalent for the purposes of text analytics data limits. Если вы используете StringInfo.LengthInTextElements, чтобы получить число символов, вы используете тот же метод, который используется для измерения объема данных.If you use StringInfo.LengthInTextElements to get the character count, you are using the same method we use to measure data size.

Дальнейшие действияNext steps