首頁 » 除停用词去除半角转

除停用词去除半角转

整个搜索引擎包括理解召回和排序重排等多个模块。下面将介绍房产搜索引擎的整体框架以及每个模块的作用。 理解 理解可以被视为一种分析过程。对用户输入的进行预处理分词纠错扩展意图识别赋予权重等操作再做为检索条件进 行业电邮清单 行数据召回。 深度解析 | 房产垂直搜索引擎构建上 这个过程可能比较复杂我们可以通过一个例子来进行简单分析。 

 

 例如用户输入为 两居的二手房可以进行

以下操作 预处理 预处理指对整个输入进行简单处理将大小转换为小写无意义符号去除停 在我们每一次植入的内容产 用词去除半角转换过长截断繁转简等。通过上述方法对数据进行初步处理。 对上述做预处理后可以得到两居二手房 分词 分词指根据一些规则将一段文本切换为若干个字或词语的流程如永远有光芒可拆分为永远有光芒这里的每一个字或词可以看作一个输入单元的的收费标准便是按为单位计费的。

 

 常见的分词工具有 。值得一提的是大

多分词工具也支持自定义词典。对于垂直搜索引擎而言结合分词工具和自定会 韓國數據 因义词典切分自然语言十分方便。 通过使用分词工具我们可以将可切分为两居二手房个。 纠错 纠错 是预处理中的重要流程之一通过对用户输入的进行修正或重写提高搜索结果的精准度。纠错一般包括以下几种方法拼写检查词典纠错基于上下文纠错机器学习深度学习等方法。

返回頂端