搜索引擎(往往集成在浏览器上,浏览器只是一个请求,处理过程不在本地)是一个帮助用户从各个网域搜索关键字来找到用户想要网页的程序。
基础原理:提取html中 <TITTLE></TITTLE> 中的关键字。与用户输入做对比。
一些进阶算法:
- 对于一些不安全的网站过滤
- 多台服务器协作搜索(保证不会重复搜索….)
- 将搜索回的网址进行预处理
- 对于用户个性化使用的判断
- 对于用户习惯的收集(cookie)
- 大数据分析(综合大量用户行为数据进行数据集训练)
- 中文网页的特殊处理方式
搜索引擎——原理技术与系统.pdf