Советы обогащения ИИ в службе "Поиск ИИ Azure"

В этой статье содержатся советы, помогающие приступить к работе с обогащением ИИ и наборами навыков, используемыми во время индексирования.

Совет 1. Запуск простого и начала небольшого

Мастер импорта данных и мастер импорта и векторизации данных в портал Azure поддерживает обогащение ИИ. Без написания кода можно создать и проверить все объекты, используемые в конвейере обогащения: индексатор, индексатор, источник данных и набор навыков.

Еще одним способом начать просто является создание источника данных с несколькими документами или строками в таблице, которая является представителем документов, которые будут индексированы. Небольшой набор данных — лучший способ повысить скорость поиска и устранения проблем. Запустите пример с помощью сквозного конвейера и проверка, что результаты соответствуют вашим потребностям. Когда вы удовлетворены результатами, вы готовы добавить дополнительные файлы в источник данных.

Совет 2. Посмотрите, что работает, даже если есть некоторые сбои

Иногда небольшой сбоя препятствует работе индексатора. Это допустимо, если вы планируете устранять проблемы по очереди. Тем не менее определенные типы ошибок можно пропускать, чтобы индексатор продолжал работу, а вы могли увидеть, какие потоки выполняются.

Чтобы игнорировать ошибки во время разработки, задайте maxFailedItems и maxFailedItemsPerBatch как -1 в составе определения индексатора.

{
  // rest of your indexer definition
   "parameters":
   {
      "maxFailedItems":-1,
      "maxFailedItemsPerBatch":-1
   }
}

Примечание.

Рекомендуется задать maxFailedItems значение maxFailedItemsPerBatch 0 для рабочих нагрузок.

Совет 3. Использование сеанса отладки для устранения неполадок

Сеанс отладки — это визуальный редактор, показывающий граф зависимостей набора навыков, входные и выходные данные и определения. Он работает путем загрузки одного документа из индекса поиска с текущей конфигурацией индексатора и набора навыков. Затем можно запустить весь набор навыков, область в один документ. В сеансе отладки можно определить и устранить ошибки, проверить изменения и зафиксировать изменения в родительском наборе навыков. Пошаговое руководство см. в руководстве по отладке сеансов.

Совет 4. Ожидаемое содержимое не отображается

Если содержимое отсутствует, проверка для удаленных документов в портал Azure. На странице службы поиска откройте индексаторы и просмотрите столбец Docs успешно. Щелкните журнал выполнения индексатора, чтобы просмотреть определенные ошибки.

Если проблема связана с размером файла, может появиться ошибка: "Имя> файла большого <двоичного <объекта" имеет размер байтов размера файла>, превышающий максимальный размер извлечения документов для текущего уровня служб". Дополнительные сведения об ограничениях индексатора см. в разделе "Ограничения службы".

Еще одна причина отказа при отображении содержимого может быть связана с ошибками сопоставления операций ввода-вывода. Например, целевое имя выходного параметра — "People", но имя поля индекса указано со строчной буквы: "people". Система может возвращать сообщения 201, указывающие на успешное выполнение всего конвейера, в результате чего вы решите, что индексирование прошло успешно. А на самом деле поле будет пустым.

Совет 5. Расширение обработки за пределы максимального времени выполнения

Анализ изображений является вычислительным способом даже в простых случаях, поэтому, когда изображения особенно большие или сложные, время обработки может превышать максимально допустимое время.

Для индексаторов, имеющих наборы навыков, выполнение набора навыков ограничивается на 2 часа для большинства уровней. Если обработка набора навыков завершается сбоем в течение этого периода, вы можете поместить индексатор в 2-часовое расписание повторяющегося расписания, чтобы индексатор взял обработку, где он остался.

Запланированное индексирование возобновляется в последнем известном хорошем документе. В повторяющихся расписаниях индексатор может работать через невыполненную работу образа в течение ряда часов или дней, пока не будут обработаны все необработанные изображения. Дополнительные сведения о синтаксисе расписания см. в разделе Планирование индексатора.

Примечание.

Если для индексатора задано определенное расписание, но каждый раз возникает ошибка на одном и том же документе, то индексатор начнет запускаться с большими интервалами (вплоть до одного раза в 24 часа) до тех пор, пока процесс не будет успешно выполнен. = Если вы считаете, что устранена проблема, из-за которой индексатор застрял в определенной точке, можно выполнить запуск индексатора по запросу, и если этот процесс успешно выполняется, индексатор вернется к заданному интервалу расписания снова.

Совет 6. Увеличение пропускной способности индексирования

Для параллельного индексирования данные распределяются по нескольким контейнерам или нескольким виртуальным папкам в одном контейнере. Затем можно создать несколько пар источника данных и индексатора. Все индексаторы могут использовать один и тот же набор навыков и выполнять запись в один и тот же целевой индекс поиска. Поэтому приложению поиска не нужно знать об этом секционировании.

См. также