Импорт доменов из файла Excel в обнаружении знаний — службы качества данных (DQS)

Применимо к:SQL Server

В этом разделе описывается, как импортировать один или несколько доменов из файла Excel в действии обнаружения знаний служб качества данных (DQS). Процесс импорта упрощает процесс формирования набора знаний, экономя время и силы. Это позволяет пользователям, у которых данные хранятся в файлах Excel или текстовых файлах, создавать базу знаний с применением этих данных. (См. раздел Импорт значений из файла Excel в домен для получения дополнительных сведений об импорте значений в домен существующей базы знаний.) Экспорт в файл Excel не поддерживается.

Перед началом

Предварительные условия

Чтобы импортировать домены из файла Excel, необходимо установить Excel на компьютере, на котором установлен клиент качества данных; Необходимо создать файл Excel со значениями домена (см . инструкции по импорту); необходимо создать и открыть базу знаний для импорта домена.

Безопасность

Разрешения

Для импорта доменов из файла Excel необходимо иметь роль dqs_kb_editor или dqs_administrator в базе данных DQS_MAIN.

Импорт доменов из файла Excel в базу знаний

  1. Запустите клиент DQS. Сведения об этом см. в разделе "Запуск клиентского приложения качества данных".

  2. На домашнем экране клиента качества данных выполните одно из следующих действий:

    • Создайте новую базу знаний для импорта данных. Для этого нажмите кнопку Создать базу знаний, введите имя базы знаний, выберите Нет в поле Создать базу знаний из, выберите действие Обнаружение набора знаний и нажмите кнопку Создать.

    • Откройте существующую базу знаний для импорта. Для этого нажмите кнопку Открыть базу знаний, выберите базу знаний, выберите Обнаружение набора знаний, затем нажмите кнопку Далее.

  3. На странице Сопоставление выберите Файл Excel как Источник данных.

  4. Нажмите кнопку Обзор в строке Файл Excel .

  5. В диалоговом окне Выбрать файл Excel перейдите в папку с файлом Excel, из которого будут импортироваться данные, выберите файл Excel и нажмите кнопку Открыть.

  6. В раскрывающемся списке Лист выберите лист в файле Excel, откуда будет осуществляться импорт.

  7. Выберите Использовать первую строку как заголовок , если следует рассматривать первую строку как заголовок данных, а значения в первой строке как имена столбцов. Отмените выбор варианта Использовать первую строку как заголовок , если содержимое первой строки должно рассматриваться как значение данных. В этом случае службы DQS будут использовать в качестве заголовков имена столбцов Excel (буквы алфавита).

  8. Выберите столбец, затем либо сопоставьте с ним существующий домен, либо создайте новый домен. Для этого щелкните значок Создать домен , в результате чего откроется диалоговое окно Создать домен , затем сопоставьте домен со столбцом. Тип данных домена должен совпадать с типом данных столбца. Повторите эти действия для всех столбцов таблицы.

  9. Нажмите кнопку Далее.

  10. На странице Обнаружение выберите Пуск , чтобы запустить анализ данных в электронной таблице Excel.

    Заметка

    Если вы выйдете из этой страницы до того, как будут переданы данные, процесс передачи файла будет прерван.

  11. Убедитесь, что анализ завершен успешно, и нажмите кнопку Далее.

  12. На странице Управление значениями домена проверьте правильность списка Домены , а также наличие значений в таблице доменов.

  13. Нажмите кнопку Готово, затем кнопку Опубликовать , чтобы опубликовать базу знаний, либо Нет , чтобы не публиковать.

  14. Убедитесь, что база знаний опубликована, и нажмите кнопку ОК.

Дальнейшие действия. После импорта доменов из файла Excel

После импорта доменов из файла Excel можно добавить наборы знаний в домены или использовать домены в проекте очистки данных или сопоставления в зависимости от содержания доменов. Дополнительные сведения см. в разделах Обнаружение знаний, Управление доменом, Управление составным доменом, Создание политики сопоставления, Очистка данных и Сопоставление данных.

How the import works

В ходе операции импорта служба DQS интерпретирует файл Excel следующим образом:

  • Столбец представляет домен

  • Строка представляет запись данных

  • Первая строка представляет имена доменов либо первое значение или запись данных, в зависимости от того, установлен ли флажок Использовать первую строку в качестве заголовка .

Для операции импорта действуют следующие правила.

  • Эта операция импортирует значения домена в базу знаний. Правила домена или политика сопоставления не импортируются.

  • Файл Excel может иметь расширение .xlsx, .xls или .csv. Microsoft Excel необходимо установить на клиентском компьютере клиента data Quality, чтобы импортировать значения домена или полный домен. Поддерживаются Excel 2003 и более поздние версии. При использовании 64-разрядной версии Excel поддерживаются только файлы Excel 2003; файлы Excel 2007 и 2010 не поддерживаются.

  • Файлы Excel с расширением .xlsx не поддерживаются для 64-разрядной версии Excel. Если вы используете 64-разрядный Excel, сохраните файл электронной таблицы в виде XLS-файла.

  • В XLSX- и XLS-файлах тип данных столбца определяется по преобладающему типу данных в первых восьми строках. Если данные в ячейке не соответствуют данному типу, ячейке присваивается значение NULL.

  • В CSV-файле тип данных определяется по преобладающему типу данных в первых восьми строках.

  • Значение в электронной таблице Excel, которое не соответствует правилу домена, импортируется как недопустимое значение.

  • Если файл Excel поврежден или представлен в недопустимом формате, операция импорта вызывает ошибку.