我们每天都在进行搜索,搜索引擎也是进行网络优化的重要方式,但你知道网络营销搜索引擎如何工作?今天带领大家来了解:


  一、搜索引擎的基本架构
  搜索引擎的组件主要提供两个功能:索引处理和查询处理。
  文本采集:用于发现网页、电子邮件、新闻、备忘录、书信等文本内容,以便可以搜索这些文件。
  文本转换:将收集的文本转换为索引项或者特征。索引是文档的一部分,存储在索引表中并用于搜索。特征是文档的一部分,用于表达文档的内容。
  索引创建:使用文本转换组件的输出结果,创建索引或者数据结构,以便实现快速搜索。
  用户交互:提供搜索用户和搜索引擎之间的接口。功能其一接受用户查询并将它转换为索引项。其次,从搜索引擎获得有序文档列表并重新组织成搜索结果以显示给用户。
  排序:搜索引擎系统的核心。它使用从用户交互组件得到的转换之后的查询,并基于检索模型生成按分数排序的文档列表。
  评价:用于评测和检测系统的效果的效率。任务之一利用日志数据来记录和分析用户的行为。评价的结果用来调整和改善排序组件的性能。
  二、搜索引擎工作原理的三个阶段
  搜索引擎工作原理分成三个阶段依次为:爬行和抓取、预处理和排名。
  爬行和抓取:这是搜索引擎工作的第一步,完成数据收集任务。蜘蛛遵守robots.txt的协议(哪些不希望被哪个搜索引擎抓取),跟踪链接(优化站点结构,降低跟踪难度),吸引蜘蛛(导入链接更多、距离主页接近、权重高、更新快速、URL结构浅)提交链接或XML文件以便于爬行,蜘蛛抓取数据存入数据库并在爬行和抓取时也会进行一定程序的复制内容检测。
  预处理:从HTML文件中提取文本、中文分词(两个字或四个字都可以算词,在百度快照中可以查看分词结果)、去停止词(的啊地the to)、消除噪声(寻找内容主题部分)、去重(同一文章出现在同一网站不同网址或不同网站)、正向索引、倒排索引、链接关系计算、特殊文件处理、质量判断。

 

特别声明:本站的所有作品版权均属于文芳阁,未经本网授权不得转载、摘编或利用其它方式使用上述作品,违背上述声明者,我们将追究其相干法律责任。
外链发布
文芳阁专注于原创文章代写,SEO文章代写,网站优化文章代写等服务
合作大于100篇的客户,可由我们的写手在贵网站直接更新SEO原创文章(100篇可分为30天更新文章,每天3篇,长时间维持一定数量的文章对网站收录及权重都会加分)

©2009-2018粤ICP备11096607号-15

公司简介|联系我们|广告服务|帮助中心|意见反馈