搜索引擎的工作流程(搜索引擎的工作流程和原理)
本文目录一览:
搜索引擎工作原理
搜索引擎的工作原理总共有四步:
第一步:爬行,搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链
接,所以称为爬行。
第二步:抓取存储,搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。
第三步:预处理,搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
第四步:排名,用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。
不同的搜索引擎查出来的结果是根据引擎内部资料所决定的。比如:某一种搜索引擎没有这种资料,您就查询不到结果。
扩展资料:
定义
一个搜索引擎由搜索器、索引器、检索器和用户接四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
起源
所有搜索引擎的祖先,是1990年由Montreal的McGillUniversity三名学生(AlanEmtage、Peter
Deutsch、BillWheelan)发明的Archie(ArchieFAQ)。AlanEmtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。
Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,NevadaSystemComputingServices大学于1993年开发了一个Gopher(GopherFAQ)搜索工具Veronica(VeronicaFAQ)。Jughead是后来另一个Gopher搜索工具。
参考资料来源:百度百科-搜索引擎
搜索引擎的工作过程包括以下哪些步骤
搜索引擎的整个工作过程包括三个部分:
1、抓取
搜索引擎为想要抓取互联网站的页面,不可能手动去完成,那么百度,google的工程师就编写了一个程序,他们给这个自动抓取的程序起了一个名字,蜘蛛(也可以叫做“机器人”或者“网络爬虫”)。
互联网上的信息存储在无数个服务器上,任何搜索引擎要想回答用户的搜索,首先要把网页存在自己本地的服务器上,这靠的就是网络爬虫。它不停的向各种网站发送请求,将所得到的网页存储起来。
通常的做法是利用网页之间的链接从一个网页出发,提取出指向其他页面的链接,把它们当成将下次要请求的对象,不停重复这个过程。有很多细节要被考虑。比如避免循环链接的网页;解析网页文档,提取里边的链接;当链接无法打开时对错误进行处理等。
2、索引
索引就是帮助程序进行快速查找的。大家都用过英汉词典。字典前边的按照单词首字母排列的部分就是索引。搜索引擎也一样。这里要介绍第一个最重要的数据结构:反转列表。
搜索引擎所拥有的文档中出现的每一个单词都拥有一个反转列表。它记录了这个单词在多少文档中出现,分别是哪些文档,每个文档分部出现多少次,分别出现在什么位置等信息。这样当搜索相关单词时,Google就不用遍历所有的文档,只需要查找每个单词对应的反转列表就可以知道这个词在哪里出现了。
每一个网络文档不仅只有文本信息。它还可能包括文件名,引用等部分。为了提高搜索质量,搜索引擎需要对文档的不同部分分别处理,构造反转列表。每一部分的单词都要被加入到这个词属于此部分的反转列表里。
3、搜索
有了索引,就可以快速找到所需内容了。前边说过搜索引擎根据用户的信息需求查找匹配的内容。信息需求来自于用户输入。搜索引擎用把用户输入的搜索字符进行一些类似于创建索引时对文本的处理,然后生成解析树。总之,以上技巧最终目标是帮助搜索引擎更好理解用户的信息需求,以便查找出更高质量的文档。
4、排序
用户输入的关键词,就可以查看到相关的内容了。这个时候,就会一条一条的展示,那谁排在第一,谁排在第二,我们把这种结果的排序,称为排名。
排名会是很复杂的,系统会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列。
搜索引擎的工作流程
作为消费者,我们平时上网购物,为了节省时间,很多情况是直接输入自己想要的产品进行搜索,就可以轻松的找到。当然,如果从商家的角度出发,如何让潜在的客户迅速搜索到自己的产品是非常重要的。下面是以淘系电商平台为例,学习搜索的工作流程。
主要包含四大部份:
一、商品收录。
商品收录就是将平台上的产品收录到搜索引擎。并不是什么产品都会收录,一般未上架的产品不会被收录。只有上架了的产品才会被收录,收录后才有机会展现,才有可能会被消费者搜索得到。
二、商品索引。
商品索引过程非常复杂,是从多个服务器索引过来。
比如按点击付费的“直通车”,标有“hot”字样的是它的展示位置,但这种类型的展示位置是有限的。
“千人千面”是根据客人的不同购物习惯推荐不同的产品。由于不同的人群有不同的喜好,哪怕她们在同一时间搜索同样的关键词,得到的结果也是不相同的。
关于“新品”,新上架的产品没有任何标签.但是平台会给序一定的权重,哪怕是在销量不高的情况下,也会有机会排在前列。
三、用户搜索词处理 ,
1.拆分搜索关键词
2.拆分商品标题
3.是否包含搜索词根.
如果两者词根匹配,产品就可以在搜索结果中有展现的机会。
比如,消费者搜索的关键词为“高端品牌 外套”,这个词会被拆分为"高端","品牌","外套".。而平台收录的商品中,标题中含有"高端","品牌","外套"这些词根的商品就有机会展现。如下图展现的产品中,标题中都含有这些词根。
四、产品排序。
在产品排序中,展现具有类目优先性。词根与类目相同的关键词,产品会优先展示。在选词的时候,可以先查询该关键词的主要类目,对比其与产品类目是否一致。
在产品排序中,有些产品是无法展现的。
比如,过于低价的产品;主图违规的产品;涉嫌虚假交易的商品。
搜索引擎中的搜索器工作程序是
搜索引擎的工作包括如下过程:搜索器在因特网中发现、搜集网页信息;搜索引擎对所搜集的信息进行提取和组织,并建立索引库;由检索器根据用户输入的查询关键词,在索引库中快速检出相关文档,进行文档与查询内容的相关度比较,对检出的结果进行排序,并将查询结果返回给用户。

关于搜索引擎的工作流程和搜索引擎的工作流程和原理的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注云尚网络www.ysfad.net。
发表评论




暂时没有评论,来抢沙发吧~