TextFeaturizingEstimator Kelas
Definisi
Penting
Beberapa informasi terkait produk prarilis yang dapat diubah secara signifikan sebelum dirilis. Microsoft tidak memberikan jaminan, tersirat maupun tersurat, sehubungan dengan informasi yang diberikan di sini.
Estimator yang mengubah kumpulan dokumen teks menjadi vektor fitur numerik. Vektor fitur adalah jumlah kata dan/atau karakter n-gram yang dinormalisasi (berdasarkan opsi yang disediakan).
public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
- Warisan
-
TextFeaturizingEstimator
- Penerapan
Keterangan
Karakteristik Estimator
Apakah estimator ini perlu melihat data untuk melatih parameternya? | Ya. |
Jenis data kolom input | teks |
Jenis data kolom output | Vektor dari Single |
Dapat diekspor ke ONNX | Tidak |
Estimator ini memberi pengguna solusi satu atti untuk melakukan:
- Deteksi Bahasa
- Tokenisasi
- Normalisasi teks
- Penghapusan stopword yang telah ditentukan dan kustom
- [ekstraksi Ngram berbasis Word atau berbasis karakter dan ekstraksi SkipGram (melalui opsi lanjutan)](https://en.wikipedia.org/wiki/N-gram)
- TF, IDF, atau TF-IDF
- [Normalisasi vektor L-p] (xref: Microsoft.ML.Transforms.LpNormNormalizingTransformer)
Secara default fitur terbuat dari (kata/karakter) n-gram/skip-gram dan jumlah fitur sama dengan ukuran kosakata yang ditemukan dengan menganalisis data. Untuk menghasilkan kolom tambahan dengan token yang dihasilkan, gunakan OutputTokensColumnName. Jumlah fitur juga dapat ditentukan dengan memilih jumlah maksimum n-gram untuk disimpan di , di TextFeaturizingEstimator.Optionsmana estimator dapat disetel lebih lanjut.
Periksa bagian Lihat Juga untuk tautan ke contoh penggunaan.
Metode
Fit(IDataView) |
Melatih dan mengembalikan ITransformer. |
GetOutputSchema(SchemaShape) |
Mengembalikan SchemaShape skema yang akan diproduksi oleh transformator. Digunakan untuk propagasi dan verifikasi skema dalam alur. |
Metode Ekstensi
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
Tambahkan 'titik pemeriksaan penembolokan' ke rantai estimator. Ini akan memastikan bahwa estimator hilir akan dilatih terhadap data cache. Sangat membantu untuk memiliki titik pemeriksaan penembolokan sebelum pelatih yang mengambil beberapa data berlalu. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
Mengingat estimator, kembalikan objek pembungkus yang akan memanggil delegasi setelah Fit(IDataView) dipanggil. Seringkali penting bagi estimator untuk mengembalikan informasi tentang apa yang cocok, itulah sebabnya Fit(IDataView) metode mengembalikan objek yang ditik secara khusus, bukan hanya umum ITransformer. Namun, pada saat yang sama, IEstimator<TTransformer> sering dibentuk menjadi alur dengan banyak objek, jadi kita mungkin perlu membangun rantai estimator melalui EstimatorChain<TLastTransformer> tempat estimator yang ingin kita dapatkan transformator dikubur di suatu tempat dalam rantai ini. Untuk skenario itu, kita dapat melalui metode ini melampirkan delegasi yang akan dipanggil setelah pas dipanggil. |
Berlaku untuk
Lihat juga
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk