搜索引擎(往往集成在浏览器上,浏览器只是一个请求,处理过程不在本地)是一个帮助用户从各个网域搜索关键字来找到用户想要网页的程序。

基础原理:提取html中 <TITTLE></TITTLE> 中的关键字。与用户输入做对比。

一些进阶算法:

  1. 对于一些不安全的网站过滤
  2. 多台服务器协作搜索(保证不会重复搜索….)
  3. 将搜索回的网址进行预处理
  4. 对于用户个性化使用的判断
  5. 对于用户习惯的收集(cookie)
  6. 大数据分析(综合大量用户行为数据进行数据集训练)
  7. 中文网页的特殊处理方式

搜索引擎——原理技术与系统.pdf