Configurazione dei componenti linguistici full-text

A partire da SQL Server 2008, la ricerca full-text supporta quasi 50 lingue, tra cui inglese, spagnolo, cinese, giapponese, arabo, bengalese e hindi. Per un elenco completo delle lingue full-text supportate, vedere sys.fulltext_languages (Transact-SQL). A ognuna delle colonne contenute nell'indice full-text è associato un identificatore delle impostazioni locali (LCID) di Microsoft Windows che corrisponde a una lingua supportata dalla ricerca full-text. L'identificatore LCID 1033, ad esempio, corrisponde all'inglese americano, mentre l'identificatore LCID 2057 corrisponde all'inglese britannico. Per ogni lingua full-text supportata, in SQL Server sono disponibili componenti linguistici che supportano l'indicizzazione e l'esecuzione di query su dati full-text archiviati in quella lingua.

I componenti linguistici includono un word breaker e uno stemmer. Un word breaker trova i delimitatori di parola in base alle regole lessicali di una determinata lingua (word breaking). A ogni word breaker è associato uno stemmer che coniuga i verbi per la stessa lingua. Per ulteriori informazioni, vedere Word breaker e stemmer.

A partire da SQL Server 2008, viene inoltre fornito un elenco di parole non significative di sistema. Per parola non significativa si intende una parola inutile ai fini della ricerca e pertanto ignorata dalle query full-text. Ad esempio, nelle impostazioni locali della lingua italiana parole quali "circa", "con", "devo" e "cui" sono considerate non significative. In genere, è necessario configurare uno o più file del thesaurus ed elenchi di parole non significative. Per ulteriori informazioni, vedere Parole non significative ed elenchi di parole non significative.

In SQL Server vengono inoltre installati un file del thesaurus per ogni lingua full-text e un file del thesaurus globale. I file del thesaurus installati sono praticamente vuoti, ma è possibile modificarli per definire sinonimi per una lingua o uno scenario aziendale specifico. Sviluppando un thesaurus basato sui dati full-text in uso, è possibile ampliare in modo efficace l'ambito delle query full-text su tali dati. Per ulteriori informazioni, vedere Configurazione del thesaurus.

L'indicizzazione di un documento in una colonna del tipo di dati varbinary, varbinary(max), image o xml richiede l'applicazione di un filtro per eseguire ulteriori operazioni di elaborazione. Il filtro deve essere specifico del tipo di documento (doc, pdf, xls, xml e così via). Per ulteriori informazioni, vedere Filtri di ricerca full-text.

Nota

I word breaker, gli stemmer e i filtri vengono eseguiti nel processo host del daemon di filtri (fdhost.exe). Per informazioni su questo processo, vedere Architettura della ricerca full-text.