前几天朋友问我同义词怎么处理,要不要做成不同页面来获取排名,给了这2个词: personalized mug 和 custom mug 。
我截图做了标注给他,回复:Google 现在已经能识别这些同义词。所以当搜索 personalized mug 和 custom mug 时,搜索结果的重复度很高(准确来讲,网页召回阶段是相同,排名阶段有少量差异)。而且上图看见,搜索 personalized 时, custom 也会飘红,所以建议是做一个页面就好了(即2个同义词用一个页面来获取排名)。
Query 处理简介
以上的情况主要是在搜索引擎的 Query 处理阶段。这是用户输入关键词后的第一个阶段。以 Google 搜索引擎举例,当 Google 拿到用户的 Query 词(即搜索词)之后,并不是直接去索引库中查找,而是对 Query 词做了一些处理,比如规范化、分词、扩展和分析等,可以让搜索引擎去除干扰,更理解用户的查询,尽可能地准确地找到用户所需的信息。
主要有以下几个部分:
- 标点符号处理。去除无关字符,比如特殊符号,标点符号
- 大小写处理。将大写都改为小写
- 去掉停用词。比如 the、of、a,这些太常见,且不包含信息的单词
- 单复数处理。将复数统一为单数,如 phones 改为 phone
- 时态处理。都时态统一为基本时态,如 runs 改为 run
- 错别字处理。纠正拼写错误,如 gogle 改为 google
另外为了找到更全面的信息,还会做一些扩展,比如:
- 同义词扩展。将查询中的某些词替换为它们的同义词,以捕获用户可能使用的不同表述
- 查询扩展。基于词汇的共现,用户的搜索历史,或者其他信息源来扩展或修改查询
以上环节完成之后,就会形成一个清晰又丰富的词组,可以去索引库中找到更多更准确的网页了。
在 AI 时期,Query 处理对搜索引擎会更重要,因为 Query 更长,更需要了解用户的意图。最后,因为并不是专业的搜索引擎开发人员,所以有错误之处还请多指教。
过去的今天:
- 2020: Wordpress 网站使用SQL指令批量替换数据库内容(0)
本文属转载文章,其版权归 SEO技术流 所有。