|
ゅo樱桃小语: |
【撞死好了】
作者:cherry 日期:2007-03-20
【80后新贵财富榜........】
作者:cherry 日期:2007-03-20
80新贵财富单
李想:身价两亿元人民币1981年生,泡泡网CEO.从最初几千元的进账到一亿以上身价,时间不过短短四年。
戴志康:身价过亿元人民币1981年生,康盛世界CEO.靠做软件起家。
韩寒:身价400万元人民币1982年生,作家。其第一部小说《三重门》迄今为止发行了190万余册,稿费超过200万。
赵宁:身价过亿元人民币1983年生,非常在线CEO.2003年休学创业。后成立非常在线,做IT专业硬件。
高燃:身价过亿元人民币1981年生。MySee总裁。财经记者出身,2003年进入IT界创业。
李想:身价两亿元人民币1981年生,泡泡网CEO.从最初几千元的进账到一亿以上身价,时间不过短短四年。
戴志康:身价过亿元人民币1981年生,康盛世界CEO.靠做软件起家。
韩寒:身价400万元人民币1982年生,作家。其第一部小说《三重门》迄今为止发行了190万余册,稿费超过200万。
赵宁:身价过亿元人民币1983年生,非常在线CEO.2003年休学创业。后成立非常在线,做IT专业硬件。
高燃:身价过亿元人民币1981年生。MySee总裁。财经记者出身,2003年进入IT界创业。
【心情定格】
作者:cherry 日期:2007-03-20
我希望有一次心情的定格,
不管是忧郁也好,伤心也好,能让我好好的去品味,
痛快地感受一下真实的感觉,世俗带着我们走在市侩的高速公路上,快却不能避免世俗,不愿触及的丑态倒映在车窗,无关的丑恶也会玷污我们的眼睛。要是有单一的感情定格不也是一种幸福的体验么!
希望我定格在一个长椅上,天空飘着雨点,四周都是暖暖的黑夜,但决不是黑色,不是那种可怕的黑暗!惬意的闭眸...对!是春天!所以不会寒冷。躲在安全的夜色怀抱中,畅想我的未来.......一句:夜给了我黑色的眼睛,我却用它寻找光明! 荡漾在心头!
如果大地的每个角落都充满了光明
谁还需要星星
谁还会
在夜里凝望
寻找遥远的安慰
不管是忧郁也好,伤心也好,能让我好好的去品味,
痛快地感受一下真实的感觉,世俗带着我们走在市侩的高速公路上,快却不能避免世俗,不愿触及的丑态倒映在车窗,无关的丑恶也会玷污我们的眼睛。要是有单一的感情定格不也是一种幸福的体验么!
希望我定格在一个长椅上,天空飘着雨点,四周都是暖暖的黑夜,但决不是黑色,不是那种可怕的黑暗!惬意的闭眸...对!是春天!所以不会寒冷。躲在安全的夜色怀抱中,畅想我的未来.......一句:夜给了我黑色的眼睛,我却用它寻找光明! 荡漾在心头!
如果大地的每个角落都充满了光明
谁还需要星星
谁还会
在夜里凝望
寻找遥远的安慰
【一个CS痴迷者】
作者:cherry 日期:2007-03-19
【[转]涛哥百度二级域名大全】
作者:cherry 日期:2007-03-16
平常注意到百度有很多二级域名,最近凡是看到的都收集起来。这里收集的百度二级域名是全部正在使用的,已经没有使用的没有统计(表现为无法打开)。以前有粉丝收集过百度二级域名大全,已经有很多无法打开了,加上现在又新增了很多二级域名,今天百度粉丝网做个全面的统计。
我大致的分为3大类:
产品服务类107个;(不用说了,肯定是最多的,呵呵)
市场活动类43个;(一些活动或者市场方面的域名,内部域名也归为此类)
地区搜索类34个;(由于地区搜索类的域名很多,所以单独分为一类)
数据总结:
百度现正在使用的二级域名共185个;其中产品服务类占58%,市场活动类占19%,地区搜索类占23%;
有一些不同的域名指向一个产品:百度视频搜索7个,百度贴吧6个;百度知道5个;百度mp3搜索4个;百度百科3个;百度资讯3个;大百度交流平台2个;百度图片搜索2个;百度竞价2个;百度空间7个;百度首页3个;百度地图3个;百度指数2个;百度邮箱二级域名7个,百度影视2个,百度搜藏5个;
我大致的分为3大类:
产品服务类107个;(不用说了,肯定是最多的,呵呵)
市场活动类43个;(一些活动或者市场方面的域名,内部域名也归为此类)
地区搜索类34个;(由于地区搜索类的域名很多,所以单独分为一类)
数据总结:
百度现正在使用的二级域名共185个;其中产品服务类占58%,市场活动类占19%,地区搜索类占23%;
有一些不同的域名指向一个产品:百度视频搜索7个,百度贴吧6个;百度知道5个;百度mp3搜索4个;百度百科3个;百度资讯3个;大百度交流平台2个;百度图片搜索2个;百度竞价2个;百度空间7个;百度首页3个;百度地图3个;百度指数2个;百度邮箱二级域名7个,百度影视2个,百度搜藏5个;
【最新Google排名算法专利】
作者:cherry 日期:2007-03-16
六、最新Google排名算法专利(2006年08月28日)
8月22号,美国专利局刚刚批准了一份有关Google排名算法的专利,标题是”搜索结果排名中引入支持性编辑意见的系统和方法(System and method for supporting editorial opinion in the ranking of search results)“。
简单的说,这个专利提出了用人工编辑修正搜索结果的方法,大致程序是:
把搜索词按不同的话题分组,分组方法有可能类似于开放目录等目录结构。
编辑在不同搜索词分组下进行搜索,找出好的网站和坏的网站,编辑所做的评级被量化为某种参数。
如果某个搜索属于已经有人工编辑评级的范围,那么Google会查看自动算法排列出的结果与编辑给的评级有什么关系,尤其是自动排名结果中的网站与那些所谓好的网站(favored)和不好的网站(non-favored)有没有什么关系。
某一个关键词的搜索排名如果自动算法与编辑意见不一样的时候,把排名转换到已经引入编辑意见的结果,然后把已经改正的搜索结果返回给用户。
经过比较改正后的参数也会被记录在这个网站下,也就是这个网站将会获得某种程度的评级(好的或坏的)。
这只是我大概看一下的个人理解,请以Google专利原文为准。
有几个可以思考的地方。
这个专利是2000年12月递交的申请,今年8月22号才得到批准。专利申请和批准时间与Google是否已经开始使用这个系统,什么时间开始使用并没有太大的关系。也许早就在用,也许永远也不用。
8月22号,美国专利局刚刚批准了一份有关Google排名算法的专利,标题是”搜索结果排名中引入支持性编辑意见的系统和方法(System and method for supporting editorial opinion in the ranking of search results)“。
简单的说,这个专利提出了用人工编辑修正搜索结果的方法,大致程序是:
把搜索词按不同的话题分组,分组方法有可能类似于开放目录等目录结构。
编辑在不同搜索词分组下进行搜索,找出好的网站和坏的网站,编辑所做的评级被量化为某种参数。
如果某个搜索属于已经有人工编辑评级的范围,那么Google会查看自动算法排列出的结果与编辑给的评级有什么关系,尤其是自动排名结果中的网站与那些所谓好的网站(favored)和不好的网站(non-favored)有没有什么关系。
某一个关键词的搜索排名如果自动算法与编辑意见不一样的时候,把排名转换到已经引入编辑意见的结果,然后把已经改正的搜索结果返回给用户。
经过比较改正后的参数也会被记录在这个网站下,也就是这个网站将会获得某种程度的评级(好的或坏的)。
这只是我大概看一下的个人理解,请以Google专利原文为准。
有几个可以思考的地方。
这个专利是2000年12月递交的申请,今年8月22号才得到批准。专利申请和批准时间与Google是否已经开始使用这个系统,什么时间开始使用并没有太大的关系。也许早就在用,也许永远也不用。
【五、搜索引擎技术及趋势】
作者:cherry 日期:2007-03-16
五、搜索引擎技术及趋势
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。
搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。
搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。
一、分类
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。
2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:“天网”、悠游、OpenFind等。
3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等
二、性能指标
我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(Recall)和精度(Pricision)衡量一个搜索引擎的性能。
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。
搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。
搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。
一、分类
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。
2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:“天网”、悠游、OpenFind等。
3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等
二、性能指标
我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(Recall)和精度(Pricision)衡量一个搜索引擎的性能。
【四、 Google排名优化】
作者:cherry 日期:2007-03-16
四、 Google排名优化
优化的方式形形色色,一般无外乎按照一定的关键词,通过对网站结构,页面因素和外部链接的优化,使网站得到最佳的搜索引擎排名。但事实上我们发现,有一些网站由于采取了不正确的优化策略,不但未能有效提升网站的排名,反而使网站排名惨跌甚至遭到搜索引擎删除。在此我们列出被Google明令禁止的属SPAM性质的优化技术。
一:隐藏文本/隐藏链接
一般指网页专为搜索引擎所设计,但普通访问者无法看到的文本内容或链接。在形形色色的隐藏技术中,最常见的就是把文本或链接文字的字体颜色设置为与背景色相同或十分接近。
隐藏文本内容(Invisable/hidden text)
意欲在不影响网站美观的前提下通过包含大量关键词的网页提高关键词相关性得分,从而达到改善搜索引擎排名的目的。
隐藏链接(Invisable/hidden links)
意欲在不影响网站美观的前提下通过在其它页面添加指向目标优化页的隐形链接,通过提升链接得分而改善搜索引擎排名。
现在大多数搜索引擎都能检测隐藏技术,并视为作弊。因而包含隐含文本的网页面临被搜索引擎降低排名甚至删除列表的惩罚。虽然在Google上不乏使用隐形技术而侥幸逃脱的网站,但多数人还是认为不值得冒这个险。其实通过添加可视文本内容并保证一定的关键词密度可达到相同的优化效果。
二:网页与Google描述不符
一般发生于先向搜索引擎提交一个网站,等该网站被收录后再以其它页面替换该网站。“诱饵行为(Bait-&-Switch)”就属于此类偷梁换柱之举--创建一个优化页和一个普通页,然后把优化页提交给搜索引擎,当优化页被搜索引擎收录后再以普通页取而代之。
优化的方式形形色色,一般无外乎按照一定的关键词,通过对网站结构,页面因素和外部链接的优化,使网站得到最佳的搜索引擎排名。但事实上我们发现,有一些网站由于采取了不正确的优化策略,不但未能有效提升网站的排名,反而使网站排名惨跌甚至遭到搜索引擎删除。在此我们列出被Google明令禁止的属SPAM性质的优化技术。
一:隐藏文本/隐藏链接
一般指网页专为搜索引擎所设计,但普通访问者无法看到的文本内容或链接。在形形色色的隐藏技术中,最常见的就是把文本或链接文字的字体颜色设置为与背景色相同或十分接近。
隐藏文本内容(Invisable/hidden text)
意欲在不影响网站美观的前提下通过包含大量关键词的网页提高关键词相关性得分,从而达到改善搜索引擎排名的目的。
隐藏链接(Invisable/hidden links)
意欲在不影响网站美观的前提下通过在其它页面添加指向目标优化页的隐形链接,通过提升链接得分而改善搜索引擎排名。
现在大多数搜索引擎都能检测隐藏技术,并视为作弊。因而包含隐含文本的网页面临被搜索引擎降低排名甚至删除列表的惩罚。虽然在Google上不乏使用隐形技术而侥幸逃脱的网站,但多数人还是认为不值得冒这个险。其实通过添加可视文本内容并保证一定的关键词密度可达到相同的优化效果。
二:网页与Google描述不符
一般发生于先向搜索引擎提交一个网站,等该网站被收录后再以其它页面替换该网站。“诱饵行为(Bait-&-Switch)”就属于此类偷梁换柱之举--创建一个优化页和一个普通页,然后把优化页提交给搜索引擎,当优化页被搜索引擎收录后再以普通页取而代之。
【三、搜索引擎垃圾技术】
作者:cherry 日期:2007-03-16
三、搜索引擎垃圾技术
搜索引擎垃圾技术是利用不道德的技巧去提高自己搜索引擎上的排名。不诚实的网站管理员就是利用这样的手段去欺骗搜索引擎从而获得较高的排名。这样的做法会让你的网站在短期内排名得到提高,但是后果却是十分严重的。有可能导致搜索引擎把你的网站从他的数据库里永久删除!以下是九个经常使用到的搜索引擎垃圾技术:
1、 隐藏文本:利用文本与背景色的相同来达到隐藏关键字的目的。这样,用户是看不到这样字,不影响用户的正常阅读,但是搜索引擎却一目了然。这是一种最常用的搜索引擎垃圾技术。
2、 重复关键字:经常与隐藏文本一起使用。但是这种做法会不页面的底部不断的以小号字重复关键字,或者把它隐藏在meta标签里面。这是最流行的搜索引擎垃圾技术。
3、 使用无关关键字:从不在他们的网站中使用一些热门的关键字,而是使用一些与他们网站无关的关键字。这样,有些人用这些冷门的关键字进行搜索时就会找到他的网站。但是这样做是完全没有用的,当访问者发现这个网站不是他们想要的内容的时候,他们就会立即离开。这样做既欺骗了搜索引擎也欺骗了访问者。
4、 隐藏标签:把关键字隐藏在html标签里面,如:style tags ,alt tags 等等。隐藏链接对一些搜索引擎来说也会被认为是搜索引擎垃圾技术,但另外一些则不是这样。
5、 相同或相似页面:不要复制页面(或门户页面),或者给这些相同页面不同的名字然后又提交到搜索引擎中。这是搜索引擎跟分类目录都明显反对的
6、 页面交换技术:这是对搜索引擎访问时采用一个页面以提高在搜索引擎上的排名,而面对访问者的时候却采用另外一个页面。这样做也会在一时半刻得到不错的网站排名,但是后果是:一旦搜索引擎发现了,你的网站将会在他的数据库中永远除名。
7、 链接搜索引擎垃圾技术:搜索引擎会认为那些通过自助链接系统建立的链接为搜索引擎垃圾技术。
8、 无内容:网站没有专一的内容对于搜索者来说是垃圾网站。不合法的内容、复制的内容和那些全都是友情链接的网页,对于搜索引擎来说也是搜索引擎垃圾技术。
9、 过度提交:每个搜索引擎都会限定一个网站提交网页的数量与提交的频率。在一个月之内不要向同一个搜索引擎提交多于一次(即只能提交一次),也不能向同一搜索引擎在一天之内提交多个页面。切记不要向他们提交门户页面。一定要根据搜索引擎的指导方针行事
搜索引擎垃圾技术是利用不道德的技巧去提高自己搜索引擎上的排名。不诚实的网站管理员就是利用这样的手段去欺骗搜索引擎从而获得较高的排名。这样的做法会让你的网站在短期内排名得到提高,但是后果却是十分严重的。有可能导致搜索引擎把你的网站从他的数据库里永久删除!以下是九个经常使用到的搜索引擎垃圾技术:
1、 隐藏文本:利用文本与背景色的相同来达到隐藏关键字的目的。这样,用户是看不到这样字,不影响用户的正常阅读,但是搜索引擎却一目了然。这是一种最常用的搜索引擎垃圾技术。
2、 重复关键字:经常与隐藏文本一起使用。但是这种做法会不页面的底部不断的以小号字重复关键字,或者把它隐藏在meta标签里面。这是最流行的搜索引擎垃圾技术。
3、 使用无关关键字:从不在他们的网站中使用一些热门的关键字,而是使用一些与他们网站无关的关键字。这样,有些人用这些冷门的关键字进行搜索时就会找到他的网站。但是这样做是完全没有用的,当访问者发现这个网站不是他们想要的内容的时候,他们就会立即离开。这样做既欺骗了搜索引擎也欺骗了访问者。
4、 隐藏标签:把关键字隐藏在html标签里面,如:style tags ,alt tags 等等。隐藏链接对一些搜索引擎来说也会被认为是搜索引擎垃圾技术,但另外一些则不是这样。
5、 相同或相似页面:不要复制页面(或门户页面),或者给这些相同页面不同的名字然后又提交到搜索引擎中。这是搜索引擎跟分类目录都明显反对的
6、 页面交换技术:这是对搜索引擎访问时采用一个页面以提高在搜索引擎上的排名,而面对访问者的时候却采用另外一个页面。这样做也会在一时半刻得到不错的网站排名,但是后果是:一旦搜索引擎发现了,你的网站将会在他的数据库中永远除名。
7、 链接搜索引擎垃圾技术:搜索引擎会认为那些通过自助链接系统建立的链接为搜索引擎垃圾技术。
8、 无内容:网站没有专一的内容对于搜索者来说是垃圾网站。不合法的内容、复制的内容和那些全都是友情链接的网页,对于搜索引擎来说也是搜索引擎垃圾技术。
9、 过度提交:每个搜索引擎都会限定一个网站提交网页的数量与提交的频率。在一个月之内不要向同一个搜索引擎提交多于一次(即只能提交一次),也不能向同一搜索引擎在一天之内提交多个页面。切记不要向他们提交门户页面。一定要根据搜索引擎的指导方针行事
【二、搜索引擎的工作原理】
作者:cherry 日期:2007-03-16
二、搜索引擎的工作原理
全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。
和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
1、从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
2、建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。
和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
1、从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
2、建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。















