|
必須從所有文件中提取所有術語並將其儲存在索引中。使用戶有機會單獨配置此提取。在配置過程中開發人員決定要在索引中包含哪些欄位。要理解這一點你必須退一步。使用的物件是任何形式的文件。然而從的角度來看文件本身包含欄位。其中有。作者姓名文件標題或文件名稱。每個欄位都有唯一的標籤和值。例如名為的欄位可以具有值使用說明。建立索引時您可以決定要包含哪些元資料當文檔被標記化。對於機器來說文件首先是資訊的集合。
即使您從位元層級轉向人類可讀的內容文件仍然是一系列字元字母標點符號空格。根據這些資料量標記化用於建立最終可以搜尋的分段術語通常是單字。這種標記 手机号码数据 化最簡單的方法是使用空白方法當出現空格空白時術語結束。但是如果固定術語由多個單字組成例如則這沒有幫助。字典也用於此目的這也可以在程式碼中實現。在分析數據時標記化是其中的一部分也會執行標準化。這意味著這些術語已採用標準化形式例如所有大寫字母均為小寫。也會建立排序。
這透過不同的演算法起作用例如透過測量。作為用戶您可能希望首先獲得最相關或最新的結果搜尋引擎的演算法使這成為可能。為了讓使用者找到任何東西他們必須在一行文字中輸入搜尋字詞。在上下文中這個或多個術語稱為查詢。查詢的英文單字表示輸入不必僅由一個或多個單字組成還可以包含或和等修飾符以及佔位符。程式庫中的一個類別將輸入轉換為搜尋引擎的特定搜尋請求。開發人員也可以設定選項。可以對解析器進行配置使其根據使用者的需求進行精確自訂。
|
|