Пользовательский переводчик для начинающих

Статья
07/20/2023

Пользовательский переводчик позволяет создать систему перевода, отражающую терминологию и стиль, характерные для бизнеса, отрасли и предметной области. Обучить и развернуть пользовательскую систему несложно, для этого не нужны навыки программирования. Настраиваемая система перевода легко интегрируется в существующие приложения, рабочие процессы и веб-сайты и доступна в Azure через ту же облачную облачную службу API перевода текста Microsoft, которая ежедневно выполняет миллиарды переводов.

Платформа позволяет пользователям создавать и публиковать пользовательские системы перевода на английском языке. Пользовательская Переводчик поддерживает более 60 языков, которые сопоставляют напрямую с языками, доступными для NMT. Полный список приведен в разделеПоддержка языков Переводчика.

Подходит ли мне пользовательская модель перевода?

Хорошо обученная пользовательская модель перевода обеспечивает более точные переводы для конкретного домена, так как он использует ранее переведенные документы в домене для изучения предпочитаемых переводов. Переводчик использует эти термины и фразы в контексте для создания правильных переводов на целевом языке с соблюдением грамматики, зависящей от контекста.

Для обучения полной пользовательской модели перевода требуется значительный объем данных. Если в документах, использованных для обучения, нет по крайней мере 10 000 предложений, вы не сможете обучить полноценную языковую модель перевода. Однако вы можете обучить модель только для словаря или использовать высококачественные встроенные переводы, доступные с помощью API перевода текста.

Screenshot illustrating the difference between custom and general models.

В чем заключается обучение пользовательской модели перевода?

Для создания пользовательской модели перевода требуется:

Понимание варианта использования.
Получение переведенных данных, относящихся к предметной области (лучше, если это будут переводы, выполненные человеком).
Возможность оценивать качество перевода или переводы на целевой язык.

Как оценить мой вариант использования?

Первый шаг к формированию источника профессиональных обучающих данных — четкое понимание вашего варианта использования и того, что вы будете считать успехом. При этом нужно учесть ряд факторов.

Какой результат вы хотите получить и как он будет измеряться?
В какой сфере вы ведете бизнес?
Есть ли у вас предложения, относящиеся к предметной области похожие по терминологии и стилю?
Предполагает ли ваш вариант использования несколько предметных областей? Если да, следует ли создавать одну систему перевода или несколько?
Есть ли у вас требования, влияющие на регион расположения неактивных данных и данных в процессе передачи?
Есть ли целевые пользователи в одном или нескольких регионах?

Как предоставлять исходные данные?

Поиск качественных данных в домене часто сопряжен с трудностями, которые зависят от классификации пользователей. Ниже приведены некоторые вопросы, которые можно задать себе при оценке доступных для вас данных.

Предприятия часто имеют множество данных перевода, накопленных за несколько лет использования услуг переводчика-человека. Имеются ли у вашей компании предыдущие данные перевода, которые можно использовать?
Есть ли у вас огромное количество одноязычных данных? Одноязычные данные — это данные только на одном языке. Если да, можно ли получить переводы для этих данных?
Можно ли просканировать веб-порталы, чтобы собрать исходные предложения и синтезировать их перевод на целевой язык?

Что следует использовать для учебных материалов?

Оригинал	Что он делает	Правила для выполнения
Двуязычные учебные документы	Обучает систему применять вашу терминологию и стиль.	Будьте снисходительны. Любой предметный перевод, выполненный человеком, будет лучше машинного. Добавляйте и удаляйте документы по ходу работы и постарайтесь улучшить оценку BLEU.
Настройка документов	Помогает научиться применять параметры нейронного машинного перевода.	Будьте строги. Создайте их, чтобы быть оптимальным представителем того, что вы собираетесь перевести в будущем.
Проверка документов	Позволяет вычислить оценку BLEU.	Будьте строги. Составляйте тестовые документы так, чтобы они были оптимально соответствовали тому, что вы собираетесь переводить в будущем.
Словарь фраз	Принудительно выдает заданный перевод в течение всего времени.	Ставьте ограничения. Словарь фраз учитывает регистр, а все слова и фразы, занесенные в список, переводятся указанным способом. Во многих случаях лучше не использовать словарь фраз и дать системе возможность обучиться.
Словарь предложений	Принудительно выдает заданный перевод в течение всего времени.	Будьте строги. В словаре предложений не учитывается регистр, и он хорошо подходит для коротких предложений, которые нередко встречаются в предметной области. Чтобы засчитывалось совпадение со словарем предложений, запись в словаре должна полностью и точно совпадать с полученным предложением. Если совпадает только часть предложения, такая запись не применяется.

Что такое оценка BLEU?

BLEU (Bilingual Evaluation Understudy) — это алгоритм оценки точности машинного перевода с одного языка на другой. Пользовательский переводчик использует метрику BLEU как один из способов оценки точности перевода.

Оценка BLEU — это число от 0 до 100. Нулевой показатель указывает на некачественный перевод, который совершенно не соответствует справочному. Оценка 100 означает идеальный перевод, идентичный справочному. Необязательно стремиться к результату 100 — оценка BLEU между 40 и 60 указывает на высокое качество перевода.

Дополнительные сведения

Что произойдет, если я не буду отправлять данные для настройки или тестирования?

Предложения, используемые для настройки и тестирования, оптимально соответствуют тому, что вы собираетесь переводить в будущем. Если вы не отправляете данные для настройки или тестирования, Пользовательский переводчик будет автоматически исключать из учебных документов предложения, чтобы использовать их в качестве данных для настройки и тестирования.

Создано системой	Выбор вручную
Удобный процесс.	Обеспечивает точную настройку для будущих потребностей.
Хороший выбор, если вы уверены, что обучающие данные оптимально соответствуют тому, что вы планируете переводить.	Предоставляет больше свободы при формировании обучающих данных.
Легко выполнить заново при расширении или сокращении предметной области.	Позволяет использовать больше данных и лучше соответствует предметной области.
Меняются при каждом цикле обучения.	Не меняется при повторных циклах обучения.

Как обрабатываются обучающие материалы с помощью Пользовательского переводчика?

Для подготовки к обучению документы проходят ряд шагов обработки и фильтрации. Эти этапы описаны ниже. Понимание процесса фильтрации поможет вам разобраться с числом отображаемых предложений, а также с действиями, которые вы можете выполнить при подготовке документов для обучения с помощью Пользовательского переводчика.

Выравнивание предложений

Если формат документа отличается от XLIFF, TMX или ALIGN, Пользовательский переводчик по одному выравнивает каждое предложение исходного и целевого документов. Переводчик не производит выравнивание документов — он следует соглашению об именовании, чтобы найти соответствующий документ на другом языке. В исходном тексте Пользовательский переводчик пытается найти соответствующее предложение на целевом языке. Он использует разметку документа, например внедренные теги HTML, чтобы упростить выравнивание.

Если вы видите большое несоответствие между количеством предложений в исходных и целевых документах, исходный документ может быть не параллельным или не может быть выровнен. Если в паре документов разница в количестве предложений составляет более 10%, проверьте документы и убедитесь, что они параллельны.
Извлечение данных для настройки и тестирования

Данные для настройки и тестирования являются необязательными. Если их не предоставить, система удалит соответствующий процент данных из учебных документов, которые будут использоваться для настройки и тестирования. Удаление происходит динамически в рамках процесса обучения. Поскольку этот этап осуществляется в ходе обучения, отправленные документы не затрагиваются. Последний показатель количества использованных предложений для каждой категории данных (обучение, настройка, тестирование и словарь) отображается на странице сведений о модели после успешного завершения обучения.
Фильтр длины
- Удаляет предложения только из одного слова с обеих сторон.
- Удаляет предложения, включающие больше 100 слов, с обеих сторон. Кроме китайского, японского и корейского.
- Удаляет предложения, содержащие меньше трех символов. Кроме китайского, японского и корейского.
- Удаляет предложения, содержащие больше 2000 символов, на китайском, японском и корейском языках.
- Удаляет предложения, где буквы и цифры занимают менее 1%.
- Удаляет записи словаря, содержащие более 50 слов.
Пробел
- Заменяет любую последовательность символов пробела, включая табуляцию и переход на новую строку, одним пробелом.
- Удаляет начальные и конечные пробелы в предложении.
Конечный знак препинания в предложении
- Заменяет несколько знаков препинания в конце предложения одним знаком. Нормализация японских символов.
- Преобразует буквы и цифры полной ширины в символы половинной ширины.
Неэкранированные теги XML

Преобразует неэкранированные теги в экранированные:

Тег превращается в

< & Lt;

> & Gt;

& & Amp;
Недопустимые знаки

Пользовательский переводчик удаляет предложения, содержащие символ Юникода U+FFFD. Символ U+FFFD указывает на сбой преобразования кодировки.

Тег	превращается в
<	& Lt;
>	& Gt;
&	& Amp;

Какие действия следует предпринять перед отправкой данных?

Удалите предложения с недопустимой кодировкой.
Удалите управляющие символы Юникода.
Если возможно, выровняйте предложения (в исходном и целевом текстах).
Удалите исходные и целевые предложения, которые не соответствуют исходному и целевому языкам.
Если исходные и целевые предложения используют смешанные языки, убедитесь, что непереведенные слова оставлены намеренно, например, если это названия организаций и продуктов.
Исправьте грамматические и орфографические ошибки, чтобы эти ошибки не появились в модели.
Хотя наш процесс обучения обрабатывает исходные и целевые строки, содержащие несколько предложений, лучше если одно исходное предложение будет сопоставлено с одним целевым предложением.

Как оценить результаты?

После успешного обучения модели можно просмотреть оценку BLEU модели и оценку базовой модели BLEU на странице сведений о модели. Мы используем один и тот же набор тестовых данных для создания оценки BLEU модели и базовой оценки BLEU. Эти данные помогут вам принять обоснованное решение о том, какая модель лучше подходит для вашего варианта использования.

Следующие шаги

Работа с кратким руководством

Пользовательский переводчик для начинающих

Подходит ли мне пользовательская модель перевода?

В чем заключается обучение пользовательской модели перевода?

Как оценить мой вариант использования?

Как предоставлять исходные данные?

Что следует использовать для учебных материалов?

Что такое оценка BLEU?

Что произойдет, если я не буду отправлять данные для настройки или тестирования?

Как обрабатываются обучающие материалы с помощью Пользовательского переводчика?

Выравнивание предложений

Извлечение данных для настройки и тестирования

Фильтр длины

Пробел

Конечный знак препинания в предложении

Неэкранированные теги XML

Недопустимые знаки

Какие действия следует предпринять перед отправкой данных?

Как оценить результаты?

Следующие шаги

Дополнительные ресурсы