|
 |
[信息组织]搜索引擎的组成 |
Lee 发表于 2006/3/15 22:43:34 | 搜索引擎一般由Crawler、分析器、索引器、索引数据库、检索器和用户接口组成。Crawler以广度优先或深度优先的方法从Web上下载页面;分析器对下载页面的内容进行分析以用于索引,具体包括分词、过滤、转换等工作;索引器将文档表示为一种便于检索的方式并存储在索引数据库中,一般采用的方法有矢量空间模型、倒排文档、概率模型等;检索器实现用户查询关键词和目标文档匹配度的计算,根据计算结果所有符合查询要求的页面URL按照相关度递减的顺序排列,并返回给用户;用户接口为用户提供一个输入查询请求,定制查询结果的Web页面并将查询结果格式化后返回给浏览器。
|
|
[信息组织]Traditional Search Engines |
Lee 发表于 2006/3/8 18:46:18 | Traditional search engines return ranked retrieval lists that offer little or no information on the semantic relationships among documents. Knowledge workers spend a substantial amount of their time browsing and reading to find out how documents are related to one another and where each falls into the overall structure of the problem domain. Yet only when knowledge workers begin to locate the similarities and differences among pieces of information
|
|
[信息组织]网络信息组织中的分类法与主题法 |
Lee 发表于 2006/2/28 14:34:11 |
【标题】网络信息组织中的分类法与主题法
【作者】李育嫦
【作者简介】李育嫦,女, 1968 年生,广东肇庆学院图书馆馆员。广东肇庆学院图书馆 肇庆 526061
【内容提要】分类法与主题法是网络信息组织的两种主要方法。文章综述了分类法与主题法在网络信息组织中的应用现状、存在问题及进一步完善的办法,并指出分类主题一体化是网络信息组织的发展趋势。
【摘要题】信息化与网络化建设
【关键词】网络信息组织 / 分类法 / 主题法 / 分类主题一体化 / 关键词 / 搜索引擎
【正文】
网络信息组织就是采用一定的方式,将 Internet 中某一方面大量的、分散的、杂乱的信息(网站或网页中可索引的公共信息,不包括各种专门数据库的信息)经过整序、优化,形成一个便于有效利用的系
|
|
[信息组织]Yahoo搜索引擎的分类体系及性能评价 |
Lee 发表于 2006/2/28 14:27:28 |
目前很多的搜索引擎都是将人工编制的等级式主题目录和计算机检索软件提供的关键词等检索手段结合起来,完成网络信息资源的组织任务。Yahoo就是这种等级式主题指南类搜索引擎的典型代表。 Yahoo的魅力,就在于它的可浏览式等级主题索引。按照主题建立分类索引,提供全面的分类体系结构,并结合高质量的检索软件,Yahoo成功地建立起了一套独特的信息管理和组织机制,使得对网络信息的全面检索变成现实。现对Yahoo的类目体系、分类原理、检索方式、性能评价等作进一步的探讨。
一、类目体系 Yahoo由14个基本大类组成,包括Art&Humanities(艺术与人文)、Business&Economy(商业与经济)、Computers&Internet(电脑与网际网路/网络)、Education(教育)、Entertainment(娱乐)、Government(政府)、Health(健康与医药)、News&Media(新闻与媒体)、Recreation&Sports(休闲与运动)、Reference(参考资
|
|
[信息组织]挑战Google----搜索引擎新秀Kosmix |
Lee 发表于 2006/2/25 11:11:05 |
Google两个共同创始人的两个大学同窗(印度人)Anand Rajaraman和Venky Harinarayan,创立了一个新的搜索引擎Kosmix,打算与Google竞争。
与Google搜索基于链接分析有所不同,Kosmix的搜索以网页的整体内容为基础,推出了一种新型的“分类搜索技术”('categorisation' technology):要求用户先指定一个分类类别,把搜索限制在这个类别之内,找到的页面与搜索词的关联度较高。然后再查看与该页面链接的更多页面的内容,因此,在页面的主题(Subject)方面有更好的判断。
这样的搜索,如果实现得好,能产生较高的主题相关性,搜索的准确性较高。Kosmix公司去年才成立,还处于初步阶段,目前看起来起点不低,但搜索业界也已经从技术决定一切,逐渐走向技术、市场、服务等综合性的竞争。
---- from http://spaces.msn.com
搜索引擎巨擎Google公司的合伙人Anand Rajaram
|
|
[信息组织]理想的网络信息组织模式 |
Lee 发表于 2006/2/18 12:54:12 |
对网络信息的组织进行分析后,笔者认为目前的信息组织方式都不尽如人意,满足不了网上信息查询的需要,理想的模式应该是以“分类———主题”综合的方式进行组织,从而为不同层次和需求的用户分别提供分类的、主题的、分类—主题的信息查询功能,遵循实用性和易用性原则,实现网络查询。它应该包括如下3个部分:
●建立一个结构简洁的信息分类组织体系,它应涵盖各知识领域,结构清晰、层次简明,能满足网上信息组织的需要。类目划分层次以三四级为宜,增强系统性。
●建立一个智能化的控制词表,实施对作者语言与用户语言的控制与转换。它应该具有自学习功能,能不断调整和更新标引语言。
●把建立分类体系与控制分类体系相联系,即将标引语言纳入分类体系,这样可以在 任何类下进行语词检索。以上信息组织模式是把知识的自然语言表述与查询结合为一体,把信息的分类组织与语词组织融为一体,从而满足网上信息的组织与查询的需要。
&
|
|
| |
 | |
|
Blog 信 息 |
blog名称:风落沙 日志总数:348 评论数量:550 留言数量:52 访问次数:1603084 建立时间:2005年1月28日 |
|
友 情 连 接 |

|
|
|

| |
|