Estrazione termini - trasformazioneTerm Extraction Transformation

La trasformazione Estrazione termini consente di estrarre termini da un testo in una colonna di input di una trasformazione e quindi scrivere tali termini in una colonna di output della trasformazione.The Term Extraction transformation extracts terms from text in a transformation input column, and then writes the terms to a transformation output column. La trasformazione è applicabile solo a testo in lingua inglese, utilizza un dizionario inglese interno e le proprie informazioni sulla lingua inglese.The transformation works only with English text and it uses its own English dictionary and linguistic information about English.

È possibile utilizzare la trasformazione Estrazione termini per individuare il contenuto di un set di dati.You can use the Term Extraction transformation to discover the content of a data set. Il testo contenuto nei messaggi di posta elettronica, ad esempio, può fornire utili commenti e suggerimenti sui prodotti. È pertanto possibile utilizzare la trasformazione Estrazione termini per estrarre gli argomenti di discussione dei messaggi al fine di analizzare tali commenti e suggerimenti.For example, text that contains e-mail messages may provide useful feedback about products, so that you could use the Term Extraction transformation to extract the topics of discussion in the messages, as a way of analyzing the feedback.

Tipi di dati e termini estrattiExtracted Terms and Data Types

La trasformazione Estrazione termini può essere configurata in modo da estrarre solo sostantivi, solo sintagmi nominali o entrambi.The Term Extraction transformation can extract nouns only, noun phrases only, or both nouns and noun phases. Un sostantivo è costituito da una sola parola, mentre un sintagma nominale include almeno due parole, di cui una costituita da un sostantivo e l'altra da un sostantivo o da un aggettivo.A noun is a single noun; a noun phrases is at least two words, of which one is a noun and the other is a noun or an adjective. Ad esempio, se la trasformazione usa l'opzione per i soli sostantivi, estrae termini come bicicletta e paesaggio. Se la trasformazione usa l'opzione per i sintagmi nominali, estrae termini come nuova bicicletta blu, casco da biciclettae biciclette confezionate.For example, if the transformation uses the nouns-only option, it extracts terms like bicycle and landscape; if the transformation uses the noun phrase option, it extracts terms like new blue bicycle, bicycle helmet, and boxed bicycles.

Gli articoli e i pronomi non vengono estratti.Articles and pronouns are not extracted. Ad esempio, la trasformazione Estrazione termini estrae il termine bicicletta da la bicicletta, la mia biciclettae quella bicicletta.For example, the Term Extraction transformation extracts the term bicycle from the text the bicycle, my bicycle, and that bicycle.

Per ogni termine estratto la trasformazione Estrazione termini genera un punteggio,The Term Extraction transformation generates a score for each term that it extracts. costituito da un valore TFIDF o dalla frequenza della riga, che indica il numero di corrispondenze con il termine normalizzato presenti nell'input.The score can be either a TFIDF value or the raw frequency, meaning the number of times the normalized term appears in the input. In entrambi i casi, il punteggio viene rappresentato da un numero reale che è maggiore di 0.In either case, the score is represented by a real number that is greater than 0. Ad esempio, il punteggio TFIDF potrebbe avere il valore 0,5 e la frequenza sarebbe un valore come 1,0 o 2,0.For example, the TFIDF score might have the value 0.5, and the frequency would be a value like 1.0 or 2.0.

L'output della trasformazione Estrazione termini include solo due colonne,The output of the Term Extraction transformation includes only two columns. una con i termini estratti e l'altra con il punteggio.One column contains the extracted terms and the other column contains the score. I nomi predefiniti delle colonne sono Termine e Punteggio.The default names of the columns are Term and Score. Poiché la colonna di testo nell'input può contenere più termini, l'output della trasformazione Estrazione termini include in genere un numero di righe maggiore rispetto all'input.Because the text column in the input may contain multiple terms, the output of the Term Extraction transformation typically has more rows than the input.

Se i termini estratti vengono scritti in una tabella, potranno essere utilizzati da altre trasformazioni di ricerca, ad esempio le trasformazioni Ricerca termini, Ricerca fuzzy e Ricerca.If the extracted terms are written to a table, they can be used by other lookup transformation such as the Term Lookup, Fuzzy Lookup, and Lookup transformations.

La trasformazione Estrazione termini può essere applicata solo a testo contenuto in colonne con tipo di dati DT_WSTR o DT_NTEXT.The Term Extraction transformation can work only with text in a column that has either the DT_WSTR or the DT_NTEXT data type. Se una colonna contiene testo ma non ha uno di questi tipi di dati, sarà possibile utilizzare la trasformazione Conversione dati per aggiungere al flusso di dati una colonna con tipo di dati DT_WSTR o DT_NTEXT e copiare nella nuova colonna i valori della colonna originale.If a column contains text but does not have one of these data types, the Data Conversion transformation can be used to add a column with the DT_WSTR or DT_NTEXT data type to the data flow and copy the column values to the new column. L'output della trasformazione Conversione dati può essere quindi utilizzato come input della trasformazione Estrazione termini.The output from the Data Conversion transformation can then be used as the input to the Term Extraction transformation. Per altre informazioni, vedere Trasformazione Conversione dati.For more information, see Data Conversion Transformation.

Termini di esclusioneExclusion Terms

Facoltativamente, la trasformazione Estrazione termini può fare riferimento a una colonna in una tabella che contiene termini di esclusione, ovvero parole che la trasformazione deve ignorare durante l'estrazione dei termini da un set di dati.Optionally, the Term Extraction transformation can reference a column in a table that contains exclusion terms, meaning terms that the transformation should skip when it extracts terms from a data set. Ciò è utile quando è già stato identificato un set di termini non rilevanti per un'azienda o un settore specifico, in genere perché si presentano con una frequenza tale da non essere significativi.This is useful when a set of terms has already been identified as inconsequential in a particular business and industry, typically because the term occurs with such high frequency that it becomes a noise word. Durante l'estrazione di termini da un set di dati che contiene informazioni sul servizio di assistenza clienti per una particolare marca di automobili, ad esempio, è possibile escludere la marca stessa, perché viene citata troppo spesso per essere significativa.For example, when extracting terms from a data set that contains customer support information about a particular brand of cars, the brand name itself might be excluded because it is mentioned too frequently to have significance. I valori nell'elenco di esclusione possono essere pertanto personalizzati in base al set di dati che si sta utilizzando.Therefore, the values in the exclusion list must be customized to the data set you are working with.

Quando si aggiunge un termine all'elenco di esclusioni, vengono esclusi anche tutti i termini, parole o sintagmi nominali, che contengono tale termine.When you add a term to the exclusion list, all the terms—words or noun phrases—that contain the term are also excluded. Ad esempio, se l'elenco di esclusione include la singola parola dati, verranno esclusi anche tutti i termini che contengono questa parola, come dati, origine dati integrità dei datie convalida dei dati .For example, if the exclusion list includes the single word data, then all the terms that contain this word, such as data, data mining, data integrity, and data validation will also be excluded. Per escludere solo i composti che contengono la parola dati, è necessario aggiungerli in modo esplicito all'elenco di esclusione.If you want to exclude only compounds that contain the word data, you must explicitly add those compound terms to the exclusion list. Ad esempio, per estrarre le incidenze di datiescludendo convalida dei dati, è necessario aggiungere convalida dei dati all'elenco di esclusione e assicurarsi che la parola dati venga rimossa dall'elenco.For example, if you want to extract incidences of data, but exclude data validation, you would add data validation to the exclusion list, and make sure that data is removed from the exclusion list.

La tabella di riferimento deve essere una tabella di un database di SQL ServerSQL Server o di Access.The reference table must be a table in a SQL ServerSQL Server or an Access database. La trasformazione Estrazione termini utilizza una connessione OLE DB distinta per connettersi alla tabella di riferimento.The Term Extraction transformation uses a separate OLE DB connection to connect to the reference table. Per altre informazioni, vedere Gestione connessione OLE DB.For more information, see OLE DB Connection Manager.

La trasformazione Estrazione termini funziona in una modalità con pre-memorizzazione nella cache completa.The Term Extraction transformation works in a fully precached mode. In fase di esecuzione legge i termini di esclusione dalla tabella di riferimento e li archivia nella propria memoria privata, prima di elaborare le righe di input della trasformazione.At run time, the Term Extraction transformation reads the exclusion terms from the reference table and stores them in its private memory before it processes any transformation input rows.

Estrazione di termini da un testoExtraction of Terms from Text

Per estrarre termini da un testo, la trasformazione Estrazione termini esegue le operazioni seguenti.To extract terms from text, the Term Extraction transformation performs the following tasks.

Identificazione di paroleIdentification of Words

La trasformazione Estrazione termini identifica innanzitutto le parole eseguendo le operazioni seguenti:First, the Term Extraction transformation identifies words by performing the following tasks:

  • Suddivisione del testo in parole, tramite spazi, interruzioni di riga e altri caratteri di terminazione delle parole utilizzati nella lingua inglese.Separating text into words by using spaces, line breaks, and other word terminators in the English language. Ad esempio, segni di punteggiatura come ?For example, punctuation marks such as ? e : sono caratteri di word breaking.and : are word-breaking characters.

  • Mantenimento delle parole legate da segni meno o caratteri di sottolineatura.Preserving words that are connected by hyphens or underscores. Le parole snap-in e front-end , ad esempio, restano come unica parola.For example, the words copy-protected and read-only remain one word.

  • Mantenimento come parola unica degli acronimi che includono punti.Keeping intact acronyms that include periods. Ad esempio, l'azienda A.B.C Company verrebbe suddivisa in token come ABC e Company.For example, the A.B.C Company would be tokenized as ABC and Company.

  • Suddivisione delle parole in corrispondenza di caratteri speciali.Splitting words on special characters. Ad esempio, la parola data/ora viene estratta come data e ora, la parola (bicicletta) come biciclettae C# viene considerato C. I caratteri speciali vengono ignorati e non possono essere lessicalizzati.For example, the word date/time is extracted as date and time, (bicycle) as bicycle, and C# is treated as C. Special characters are discarded and cannot be lexicalized.

  • Riconoscimento dei casi in cui i caratteri speciali, come l'apostrofo, non devono essere utilizzati per suddividere le parole.Recognizing when special characters such as the apostrophe should not split words. Ad esempio, la parola inglese bicycle's non viene suddivisa in due parole e produce il singolo termine bicycle (sostantivo).For example, the word bicycle's is not split into two words, and yields the single term bicycle (noun).

  • Suddivisione di espressioni di data e ora, espressioni di valuta, indirizzi di posta elettronica e indirizzi postali.Splitting time expressions, monetary expressions, e-mail addresses, and postal addresses. Ad esempio, la data 31 gennaio 2004 viene separata in tre token, 31, gennaioe 2004.For example, the date January 31, 2004 is separated into the three tokens January, 31, and 2004.

Parole con tagTagged Words

La trasformazione Estrazione termini applica un tag a ogni parola in modo da identificarla come una delle parti del discorso seguenti:Second, the Term Extraction transformation tags words as one of the following parts of speech:

  • Sostantivo in forma singolare,A noun in the singular form. ad esempio bicicletta e pomodoro.For example, bicycle and potato.

  • Sostantivo in forma plurale,A noun in the plural form. ad esempio biciclette e pomodori.For example, bicycles and potatoes. Tutti i sostantivi in forma plurale non lemmatizzati vengono sottoposti a stemming.All plural nouns that are not lemmatized are subject to stemming.

  • Nome proprio in forma singolare,A proper noun in the singular form. ad esempio Tintoretto e sabato.For example, April and Peter.

  • Nome proprio in forma plurale,A proper noun in the plural form. ad esempio Tintoretti e sabati.For example Aprils and Peters. È possibile eseguire lo stemming dei soli nomi propri che fanno parte del lessico interno, limitato alle parole italiane standard.For a proper noun to be subject to stemming, it must be a part of the internal lexicon, which is limited to standard English words.

  • Aggettivo,An adjective. ad esempio blu.For example, blue.

  • Aggettivo comparativo per il confronto di due elementi,A comparative adjective that compares two things. ad esempio maggiore e migliore.For example, higher and taller.

  • Aggettivo superlativo che identifica un elemento con una qualità di livello superiore o inferiore a quello di almeno altri due elementi,A superlative adjective that identifies a thing that has a quality above or below the level of at least two others. ad esempio massimo e ottimo.For example, highest and tallest.

  • Numero,A number. ad esempio 62 e 2004.For example, 62 and 2004.

    Le parole non identificate come una delle parti del discorso precedenti vengono ignorate.Words that are not one of these parts of speech are discarded. Questo avviene ad esempio per verbi e pronomi.For example, verbs and pronouns are discarded.

Nota

La classificazione delle parti del discorso è basata su un modello statistico e potrebbe non essere perfettamente accurata.The tagging of parts of speech is based on a statistical model and the tagging may not be completely accurate.

Se la trasformazione Estrazione termini è configurata in modo da estrarre solo i sostantivi, verranno estratte solo le parole classificate come forme singolari o plurali di sostantivi e nomi propri.If the Term Extraction transformation is configured to extract only nouns, only the words that are tagged as singular or plural forms of nouns and proper nouns are extracted.

Se la trasformazione Estrazione termini è configurata in modo da estrarre solo sintagmi nominali, è possibile che parole classificate come sostantivi, nomi propri, aggettivi e numeri vengano combinate in modo da formare un sintagma nominale, che tuttavia deve includere almeno una parola classificata come forma singolare o plurale di un sostantivo o nome proprio.If the Term Extraction transformation is configured to extract only noun phrases, words that are tagged as nouns, proper nouns, adjectives, and numbers may be combined to make a noun phrase, but the phrase must include at least one word that is tagged as a singular or plural form of a noun or a proper noun. Ad esempio, il sintagma nominale altitudine superiore combina una parola classificata come aggettivo superlativo (superiore) e una parola classificata come sostantivo (altitudine).For example, the noun phrase highest mountain combines a word tagged as a superlative adjective (highest) and a word tagged as noun (mountain).

Se la trasformazione Estrazione termini è configurata in modo da estrarre sia sostantivi che sintagmi nominali, verranno applicate sia le regole relative ai sostantivi che quelle relative ai sintagmi nominali.If the Term Extraction is configured to extract both nouns and noun phrases, both the rules for nouns and the rules for noun phrases apply. Ad esempio, dal testo molte belle biciclette blu la trasformazione estrae bicicletta e belle biciclette blu.For example, the transformation extracts bicycle and beautiful blue bicycle from the text many beautiful blue bicycles.

Nota

I termini estratti sono soggetti alle soglie di lunghezza e frequenza utilizzate dalla trasformazione.The extracted terms remain subject to the maximum term length and frequency threshold that the transformation uses.

Parole in forma flessivaStemmed Words

La trasformazione Estrazione termini esegue lo stemming (ricerca di radici di parole) dei sostantivi in modo da estrarre solo la forma singolare.The Term Extraction transformation also stems nouns to extract only the singular form of a noun. Ad esempio, la trasformazione estrae uomo da uomini, camicia da camiciee pesca da pesche.For example, the transformation extracts man from men, mouse from mice, and bicycle from bicycles. Per questo scopo viene utilizzato il dizionario interno.The transformation uses its dictionary to stem nouns. I gerundi vengono trattati come sostantivi, se presenti nel dizionario.Gerunds are treated as nouns if they are in the dictionary.

Utilizzando il dizionario interno la trasformazione Estrazione termini esegue quindi le operazioni di stemming delle parole riportate negli esempi, in modo da ottenere la forma presente nel dizionario.The Term Extraction transformation stems words to their dictionary form as shown in these examples by using the dictionary internal to the Term Extraction transformation.

  • Rimozione della desinenza inglese s dai nomi.Removing s from nouns. Ad esempio, bicycles diventa bicycle.For example, bicycles becomes bicycle.

  • Rimozione della desinenza inglese es dai nomi.Removing es from nouns. Ad esempio, stories diventa story.For example, stories becomes story.

  • Recupero dal dizionario della forma singolare per i sostantivi irregolari.Retrieving the singular form for irregular nouns from the dictionary. Ad esempio, geese diventa goose.For example, geese becomes goose.

Parole normalizzateNormalized Words

La trasformazione Estrazione termini normalizza i termini che hanno iniziale maiuscola solo a causa della propria posizione nella frase, sostituendoli con la forma senza maiuscole.The Term Extraction transformation normalizes terms that are capitalized only because of their position in a sentence, and uses their non-capitalized form instead. Ad esempio, nelle frasi Cani che inseguono gatti e Montagne con sentieri ripidi, le parole Cani e Montagne vengono normalizzate in cane e montagna.For example, in the phrases Dogs chase cats and Mountain paths are steep, Dogs and Mountain would be normalized to dog and mountain.

La trasformazione Estrazione termini normalizza le parole in modo che le versioni con e senza maiuscole di una stessa parola non vengano considerate come termini diversi.The Term Extraction transformation normalizes words so that the capitalized and noncapitalized versions of words are not treated as different terms. Ad esempio, nei testi A Milano puoi vedere molte biciclette e Biciclette di colore blu, biciclette e Biciclette vengono riconosciuti come lo stesso termine e la trasformazione mantiene solo bicicletta.For example, in the text You see many bicycles in Seattle and Bicycles are blue, bicycles and Bicycles are recognized as the same term and the transformation keeps only bicycle. Le parole e i nomi propri non elencati nel dizionario interno non vengono normalizzati.Proper nouns and words that are not listed in the internal dictionary are not normalized.

Normalizzazione con distinzione tra maiuscole e minuscoleCase-Sensitive Normalization

È possibile configurare la trasformazione Estrazione termini in modo da considerare le parole maiuscole e minuscole come termini diversi o come varianti diverse di uno stesso termine.The Term Extraction transformation can be configured to consider lowercase and uppercase words as either distinct terms, or as different variants of the same term.

  • Se la trasformazione è configurata per riconoscere la distinzione tra maiuscole e minuscole, Metodo e metodo vengono estratti come due termini diversi.If the transformation is configured to recognize differences in case, terms like Method and method are extracted as two different terms. Le parole con iniziale maiuscola che non si trovano all'inizio di una frase non vengono mai normalizzate e vengono classificate come nomi propri.Capitalized words that are not the first word in a sentence are never normalized, and are tagged as proper nouns.

  • Se la trasformazione è configurata in modo da non distinguere tra maiuscole e minuscole, termini come Metodo e metodo vengono riconosciuti come varianti di un singolo termine.If the transformation is configured to be case-insensitive, terms like Method and method are recognized as variants of a single term. L'elenco dei termini estratti può includere Metodo o metodo, a seconda di quale compare per primo nel set di dati di input.The list of extracted terms might include either Method or method, depending on which word occurs first in the input data set. Se la parola Metodo ha iniziale maiuscola solo perché è la prima parola di una frase, verrà estratta in forma normalizzata.If Method is capitalized only because it is the first word in a sentence, it is extracted in normalized form.

Delimitatori di parole e frasiSentence and Word Boundaries

Per suddividere il testo in frasi, la trasformazione Estrazione termini utilizza i caratteri seguenti come delimitatori di frase:The Term Extraction transformation separates text into sentences using the following characters as sentence boundaries:

  • Caratteri ASCII di interruzione di riga, 0x0d (ritorno a capo) e 0x0a (avanzamento riga).ASCII line-break characters 0x0d (carriage return) and 0x0a (line feed). Tali caratteri vengono utilizzati come delimitatori di frase solo se nella riga sono presenti due o più caratteri di interruzione di riga.To use this character as a sentence boundary, there must be two or more line-break characters in a row.

  • Segno meno (–).Hyphens (–). Tale carattere viene utilizzato come delimitatore di frase solo se non è preceduto né seguito da una lettera.To use this character as a sentence boundary, neither the character to the left nor to the right of the hyphen can be a letter.

  • Carattere di sottolineatura ().Underscore (). Tale carattere viene utilizzato come delimitatore di frase solo se non è preceduto né seguito da una lettera.To use this character as a sentence boundary, neither the character to the left nor to the right of the hyphen can be a letter.

  • Tutti i caratteri Unicode minori o uguali a 0x19 o maggiori o uguali a 0x7b.All Unicode characters that are less than or equal to 0x19, or greater than or equal to 0x7b.

  • Combinazioni di numeri, segni di punteggiatura e caratteri alfabetici.Combinations of numbers, punctuation marks, and alphabetical characters. Ad esempio, A23B#99 restituisce il termine A23B.For example, A23B#99 returns the term A23B.

  • The characters, %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “, and ‘.The characters, %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “, and ‘.

    Nota

    Gli acronimi che includono uno o più punti (.) non vengono suddivisi in più frasi.Acronyms that include one or more periods (.) are not separated into multiple sentences.

    La trasformazione Estrazione termini suddivide quindi le frasi in parole utilizzando i delimitatori di parola seguenti:The Term Extraction transformation then separates the sentence into words using the following word boundaries:

  • SpaceSpace

  • SchedaTab

  • Carattere ASCII 0x0d (ritorno a capo)ASCII 0x0d (carriage return)

  • Carattere ASCII 0x0a (avanzamento riga)ASCII 0x0a (line feed)

    Nota

    Se un apostrofo si trova in un'espressione costituita da una contrazione, ad esempio we're o it's, l'espressione verrà suddivisa in corrispondenza dell'apostrofo, altrimenti le lettere che seguono l'apostrofo verranno eliminate.If an apostrophe is in a word that is a contraction, such as we're or it's, the word is broken at the apostrophe; otherwise, the letters following the apostrophe are trimmed. L'espressione inglese we're , ad esempio, viene suddivisa in we e 're, mentre bicycle's viene tagliato in modo da ottenere bicycle.For example, we're is split into we and 're, and bicycle's is trimmed to bicycle.

Configurazione della trasformazione Estrazione terminiConfiguration of the Term Extraction Transformation

Per generare i risultati la trasformazione Estrazione termini utilizza algoritmi interni e modelli statistici.The Text Extraction transformation uses internal algorithms and statistical models to generate its results. Può essere necessario eseguire la trasformazione Estrazione termini più volte ed esaminare i risultati per configurare la trasformazione in modo da generare il tipo di risultati più adatto per la propria soluzione di text mining.You may have to run the Term Extraction transformation several times and examine the results to configure the transformation to generate the type of results that works for your text mining solution.

Questa trasformazione include un input regolare, un output e un output degli errori.The Term Extraction transformation has one regular input, one output, and one error output.

È possibile impostare le proprietà tramite Progettazione SSISSSIS o a livello di codice.You can set properties through SSISSSIS Designer or programmatically.

Per ulteriori informazioni sulle proprietà che è possibile impostare nella finestra di dialogo Editor avanzato o a livello di codice, fare clic su uno degli argomenti seguenti:For more information about the properties that you can set in the Advanced Editor dialog box or programmatically, click one of the following topics:

Editor trasformazione Estrazione termini (scheda Estrazione termini)Term Extraction Transformation Editor (Term Extraction Tab)

Utilizzare la scheda Estrazione termini della finestra di dialogo Editor trasformazione Estrazione termini per specificare una colonna di testo contenente il testo da estrarre.Use the Term Extraction tab of the Term Extraction Transformation Editor dialog box to specify a text column that contains text to be extracted.

OpzioniOptions

Colonne di input disponibiliAvailable Input Columns
Utilizzando le caselle di controllo, selezionare un'unica colonna di testo da utilizzare per l'estrazione dei termini.Using the check boxes, select a single text column to use for term extraction.

NomeTerm
Consente di digitare un nome per la colonna di output che conterrà i termini estratti.Provide a name for the output column that will contain the extracted terms.

PunteggioScore
Consente di digitare un nome per la colonna di output che conterrà il punteggio per ogni termine estratto.Provide a name for the output column that will contain the score for each extracted term.

Configura output erroriConfigure Error Output
Usare la finestra di dialogo Configura output errori per specificare la gestione degli errori per le righe che causano errori.Use the Configure Error Output dialog box to specify error handling for rows that cause errors.

Editor trasformazione Estrazione termini (scheda Esclusione)Term Extraction Transformation Editor (Exclusion Tab)

Utilizzare la scheda Esclusione della finestra di dialogo Editor trasformazione Estrazione termini per impostare una connessione a una tabella di esclusione e specificare le colonne che contengono termini di esclusione.Use the Exclusion tab of the Term Extraction Transformation Editor dialog box to set up a connection to an exclusion table and specify the columns that contain exclusion terms.

OpzioniOptions

Usa termini di esclusioneUse exclusion terms
Consente di indicare se escludere termini specifici durante l'estrazione dei termini specificando una colonna che contiene termini di esclusione.Indicate whether to exclude specific terms during term extraction by specifying a column that contains exclusion terms. Se si sceglie di escludere termini, è necessario specificare le proprietà delle origini dei dati seguenti.You must specify the following source properties if you choose to exclude terms.

gestione connessione OLE DBOLE DB connection manager
Selezionare una gestione connessione OLE DB esistente oppure fare clic su Nuovaper creare una nuova connessione.Select an existing OLE DB connection manager, or create a new connection by clicking New.

NuovaNew
Consente di creare una nuova connessione a un database usando la finestra di dialogo Configura gestione connessione OLE DB .Create a new connection to a database by using the Configure OLE DB Connection Manager dialog box.

Tabella o vistaTable or view
Consente di specificare la tabella o la vista che contiene i termini di esclusione.Select the table or view that contains the exclusion terms.

ColonnaColumn
Consente di selezionare la colonna della tabella o della vista che contiene i termini di esclusione.Select the column in the table or view that contains the exclusion terms.

Configura output erroriConfigure Error Output
Usare la finestra di dialogo Configura output errori per specificare la gestione degli errori per le righe che causano errori.Use the Configure Error Output dialog box to specify error handling for rows that cause errors.

Editor trasformazione Estrazione termini (Scheda Avanzate)Term Extraction Transformation Editor (Advanced Tab)

Usare la scheda Avanzate della finestra di dialogo Editor trasformazione Estrazione termini per specificare le proprietà per l'estrazione, ad esempio la frequenza, la lunghezza e le eventuali parole o frasi da estrarre.Use the Advanced tab of the Term Extraction Transformation Editor dialog box to specify properties for the extraction such as frequency, length, and whether to extract words or phrases.

OpzioniOptions

SostantivoNoun
Consente di specificare che la trasformazione estrarrà solo singoli sostantivi.Specify that the transformation extracts individual nouns only.

Sintagma nominaleNoun phrase
Consente di specificare che la trasformazione estrarrà solo sintagmi nominali.Specify that the transformation extracts noun phrases only.

Sostantivo e sintagma nominaleNoun and noun phrase
Consente di specificare che la trasformazione estrarrà sia sostantivi che sintagmi nominali.Specify that the transformation extracts both nouns and noun phrases.

FrequenzaFrequency
Consente di specificare che il punteggio è rappresentato dalla frequenza del termine.Specify that the score is the frequency of the term.

TFIDFTFIDF
Consente di specificare che il punteggio è rappresentato dal valore TFIDF del termine.Specify that the score is the TFIDF value of the term. Il punteggio TFIDF è il prodotto della frequenza dei termini e della frequenza inversa dei documenti, definito come: TFIDF di un termine T = (frequenza di T) * log( (numero di righe nell'input) / (numero di righe contenenti T) )The TFIDF score is the product of Term Frequency and Inverse Document Frequency, defined as: TFIDF of a Term T = (frequency of T) * log( (#rows in Input) / (#rows having T) )

Soglia di frequenzaFrequency threshold
Consente di specificare il numero di volte in cui una parola o una frase deve ricorrere prima che venga estratta.Specify the number of times a word or phrase must occur before extracting it. Il valore predefinito è 2.The default value is 2.

Lunghezza massima termineMaximum length of term
Consente di specificare la lunghezza massima in parole di una frase.Specify the maximum length of a phrase in words. Questa opzione ha effetto soltanto sui sintagmi nominali.This option affects noun phrases only. Il valore predefinito è 12.The default value is 12.

Estrazione con distinzione maiuscole/minuscoleUse case-sensitive term extraction
Consente di specificare se eseguire l'estrazione rilevando la distinzione tra maiuscole e minuscole.Specify whether to make the extraction case-sensitive. Il valore predefinito è False.The default is False.

Configura output erroriConfigure Error Output
Usare la finestra di dialogo Configura output errori per specificare la gestione degli errori per le righe che causano errori.Use the Configure Error Output dialog box to specify error handling for rows that cause errors.

Vedere ancheSee Also

Errori di Integration Services e riferimento ai messaggi Integration Services Error and Message Reference
Trasformazione Ricerca terminiTerm Lookup Transformation