Share via


microsoftml.n_gram_hash: convierte texto en características mediante n-gramas con hash

Uso

microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
    ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
    all_lengths: bool = True, seed: numbers.Real = 314489979,
    ordered: bool = True, invert_hash: numbers.Real = 0)

Descripción

Extrae n-gramas del texto y los convierte en vectores mediante el truco de hash.

Argumentos

hash_bits

Número de bits en los que se aplica el código hash. Debe estar entre 1 y 30, ambos inclusive. (configuración).

ngram_length

Longitud de los n-gramas (configuración).

skip_length

Número máximo de tokens que se omitirán al construir un n-grama (configuración).

all_lengths

Indica si deben incluirse todas las longitudes de n-grama hasta ngramLength o solo ngramLength (configuración).

seed

Inicialización de hash (configuración).

ordered

Determina si la posición de cada columna de origen debe incluirse en el hash (cuando hay varias columnas de origen). (configuración).

invert_hash

Limite el número de claves usadas para generar el nombre de ranura a este número. 0 significa que no se invierte el hash, -1 significa que no hay límite. (configuración).

Vea también

n_gram, featurize_text