Share via


WordEmbeddingEstimator Klasse

Definition

Text-Featurizer, der Vektoren von Texttoken in einen numerischen Vektor konvertiert, indem ein vorab trainiertes Einbettungsmodell verwendet wird.

public sealed class WordEmbeddingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.Transforms.Text.WordEmbeddingTransformer>
type WordEmbeddingEstimator = class
    interface IEstimator<WordEmbeddingTransformer>
Public NotInheritable Class WordEmbeddingEstimator
Implements IEstimator(Of WordEmbeddingTransformer)
Vererbung
WordEmbeddingEstimator
Implementiert

Hinweise

Stimatoreigenschaften

Muss dieser Schätzer die Daten untersuchen, um seine Parameter zu trainieren? No
Eingabespaltendatentyp Textvektor
Ausgabespaltendatentyp Bekannte Größe des Vektors Single
Exportierbar in ONNX No

Dies WordEmbeddingTransformer erzeugt eine neue Spalte, die in den Parametern für die Ausgabespaltennamen angegeben ist, wobei jeder Eingabevektor einem numerischen Vektor zugeordnet wird, der eine Größe von 3 * Dimensionalität des verwendeten Einbettungsmodells aufweist. Beachten Sie, dass dies unabhängig von der Größe des Eingabevektors ist.

Wenn Sie beispielsweise GloVe50D verwenden, das selbst 50dimensional ist, ist die Ausgabespalte ein Vektor von Größe 150. Das erste Drittel der Steckplätze enthält die Mindestwerte in den Einbettungen, die jeder Zeichenfolge im Eingabevektor entsprechen. Der zweite Drittel enthält den Mittelwert der Einbettungen. Das letzte Drittel der Steckplätze enthält maximale Werte für die aufgetretenen Einbettungen. Die min/max stellt ein umgebendes Hyperrechteck für die Wörter im Einbettungsraum des Worts bereit. Dies kann für längere Ausdrücke helfen, bei denen der Mittelwert vieler Wörter das nützliche Signal ausfällt.

Der Benutzer kann ein benutzerdefiniertes vortrainiertes Einbettungsmodell oder eins der verfügbaren vortrainierten Modelle angeben. Die verfügbaren Optionen sind verschiedene Versionen von GloVe-Modellen, FastText und SSWE.

Überprüfen Sie den Abschnitt "Siehe auch", um Links zu Verwendungsbeispielen zu finden.

Methoden

Fit(IDataView)

Züge und gibt einen WordEmbeddingTransformer.

GetOutputSchema(SchemaShape)

Gibt das SchemaShape Schema zurück, das vom Transformator erzeugt wird. Wird für die Schemaverteilung und Überprüfung in einer Pipeline verwendet.

Erweiterungsmethoden

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

Fügen Sie einen "Zwischenspeicherungsprüfpunkt" an die Schätzkette an. Dadurch wird sichergestellt, dass die nachgelagerten Schätzer anhand zwischengespeicherter Daten trainiert werden. Es ist hilfreich, einen Cache-Prüfpunkt vor Trainern zu haben, die mehrere Datendurchläufe übernehmen.

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

Wenn sie eine Schätzung erhalten, geben Sie ein Umbruchobjekt zurück, das einen Delegaten aufruft, sobald Fit(IDataView) er aufgerufen wird. Es ist häufig wichtig, dass ein Schätzer Informationen darüber zurückgibt, was passt, weshalb die Fit(IDataView) Methode ein speziell typiertes Objekt zurückgibt, anstatt nur ein allgemeines ITransformerObjekt zurückzugeben. IEstimator<TTransformer> Gleichzeitig werden jedoch häufig Pipelines mit vielen Objekten gebildet, daher müssen wir möglicherweise eine Kette von Schätzern erstellen, über EstimatorChain<TLastTransformer> die der Schätzer, für den wir den Transformator erhalten möchten, irgendwo in dieser Kette begraben wird. Für dieses Szenario können wir über diese Methode eine Stellvertretung anfügen, die aufgerufen wird, sobald sie aufgerufen wird.

Gilt für:

Weitere Informationen