搜索引擎是一个对互联网信息资源进行搜索整理和分类,并储存在网络数据库氏灶悄中供用户查询的系统,包括信息搜集、信息分类、用户查询三部分。
工作原理
1.爬行:搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。
2.抓取存储:搜索引擎辩仔是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。
3.预处理:搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理歼渣。
Internr是一个信息海洋,各种资源应有尽有,而且各种信息与资源每天都在不停更新。但是,要首孙源想知道所需的资源到底在哪个网页上可以找到,可不是一件容易的事情。要想充分享受hatemet带来的便利,在Internr上自由驰骋,首先需要一个冲浪向导。这个向导就是各个搜索引擎。通过访问搜索引擎,在搜索引擎上可以查找各种信息,大大加快了冲浪的进程,而且可以找到很多意想不到的精彩网站。
搜索引擎本身大多也是WWW的网站,它给用户提供了查询自己所需要的网页和信息的服务,通过它的引导,用户一方面可以轻松地找到自己需要的相关信息,一方面避免了迷失在五彩缤纷的WWW海洋中。目前,各个搜索引擎网站已经凯衡从单纯提供搜索引擎转向提供全方位的WWW服务,包括广告、免费邮件、新闻、娱乐等。搜索引擎网站已经发展成为WWW网站最重要的支柱力量之一。
下面以我们中国人自己建立的搜索引擎网站——Sohu(搜狐)为例,大致了解一下搜索引擎的特点和作用。
启动浏览器并连接入网后,在地址栏(注意,这些详细的操作后面会有具体的介绍,这里不做过多的解释)输入Sohu的地址,也就是它的URL,http://www.sohu.com,然后就可以进入Sohu的主页。
从Sohu的页面上可以看到搜索框,我们可以在搜索框中输入想要查询的信息,然后进行搜索,也可以利用Sohu网站专门提供的分类搜索目录进行一步步的查询,在这个过程中,不仅可以查到自己需要的信者态息,还可以获得许多与此相关的信息,或者其他一些意想不到的信息,这种服务的提供比以前任何一种查询信息的服务都要方便和迅捷。