Serbest biçimli metin arama için işlemeProcessing free-form text for search

Arama desteklemek için serbest biçimli metin işleme paragraf metni içeren belgeleri karşı gerçekleştirilebilir.To support search, free-form text processing can be performed against documents containing paragraphs of text.

Metin arama, bir belge koleksiyonu karşı önceden hesaplanan özel bir dizin oluşturarak çalışır.Text search works by constructing a specialized index that is precomputed against a collection of documents. Bir istemci uygulaması arama terimlerini içeren bir sorgu gönderir.A client application submits a query that contains the search terms. Sorgu belgelerin her belge arama ölçütlerini ne kadar iyi eşleştiğini göre sıralanmış bir listesini içeren bir sonuç kümesi döndürür.The query returns a result set, consisting of a list of documents sorted by how well each document matches the search criteria. Sonuç kümesini de belgedeki eşleşen tümceciği vurgulamak uygulamanın sağlar belge ölçütleri ile eşleşen içerik içerebilir.The result set may also include the context in which the document matches the criteria, which enables the application to highlight the matching phrase in the document.

Bir arama işlem hattı diyagramı

Serbest biçimli metin işleme, büyük miktarlarda veri gürültülü metin kullanışlı, işlem yapılabilir verilerden üretebilir.Free-form text processing can produce useful, actionable data from large amounts of noisy text data. Sonuçlar, iyi tanımlanmış ve sorgulanabilir yapısı yapılandırılmamış belgeleri verebilirsiniz.The results can give unstructured documents a well-defined and queryable structure.

ZorluklarChallenges

  • Serbest biçimli metin belgeleri koleksiyonunu işleme genellikle işlem bakımından yoğun yanı sıra zaman yoğun oluşur.Processing a collection of free-form text documents is typically computationally intensive, as well as time intensive.
  • Etkili bir şekilde serbest biçimli metin arama için arama dizini benzer bir yapı koşullarınızda göre belirsiz aramayı desteklemelidir.In order to search free-form text effectively, the search index should support fuzzy search based on terms that have a similar construction. Örneğin, "ran" ve "çalışıyor" içeren belgeleri, sorgular için "Çalıştır" dizinleri başsözcüğe ve dil dallanma, yerleşik arama eşleşirFor example, search indexes are built with lemmatization and linguistic stemming, so that queries for "run" will match documents that contain "ran" and "running."

MimariArchitecture

Çoğu senaryoda, kaynak metin belgeleri nesne depolama gibi Azure Depolama'da veya Azure Data Lake Store içine yüklenir.In most scenarios, the source text documents are loaded into object storage such as Azure Storage or Azure Data Lake Store. Bir özel durum, SQL Server veya Azure SQL veritabanı içinde tam metin arama kullanıyor.An exception is using full text search within SQL Server or Azure SQL Database. Bu durumda, belge verileri, veritabanı tarafından yönetilen tablolara yüklenir.In this case, the document data is loaded into tables managed by the database. Depolanan sonra belge dizini oluşturmak için bir toplu işte işlenir.Once stored, the documents are processed in a batch to create the index.

Teknoloji seçimleriTechnology choices

Azure Search, Elasticsearch ve HDInsight ile Solr bir arama dizini oluşturma seçeneklerini içerir.Options for creating a search index include Azure Search, Elasticsearch, and HDInsight with Solr. Bu teknolojilerin her bir belge koleksiyonu arasında bir arama dizini doldurabilirsiniz.Each of these technologies can populate a search index from a collection of documents. Azure arama, Excel ve PDF biçimleri için düz metin arasında belgeler için dizin otomatik olarak doldurabilirsiniz dizin oluşturucular sağlar.Azure Search provides indexers that can automatically populate the index for documents ranging from plain text to Excel and PDF formats. HDInsight üzerinde Apache Solr düz metin, Word ve PDF dahil olmak üzere birçok türdeki ikili dosyaları dizine ekleyebilir.On HDInsight, Apache Solr can index binary files of many types, including plain text, Word, and PDF. Dizini oluşturulmuş sonra istemciler arama arabirimi bir REST API aracılığıyla erişim sağlayabilir.Once the index is constructed, clients can access the search interface by means of a REST API.

Metin verilerinizde SQL Server veya Azure SQL veritabanında depolanıyorsa, veritabanına oluşturulmuş tam metin araması kullanabilirsiniz.If your text data is stored in SQL Server or Azure SQL Database, you can use the full-text search that is built into the database. Veritabanı, metin, ikili veya aynı veritabanının içinde depolanmış XML verileri dizinden doldurur.The database populates the index from text, binary, or XML data stored within the same database. İstemciler, T-SQL sorgularını kullanarak arar.Clients search by using T-SQL queries.

Daha fazla bilgi için veri depolarını arama.For more information, see Search data stores.