您的当前位置：首页正文

网络信息资源检索途径与方法探析

2022-10-28 来源：趣尚旅游网

网络信息资源检索途径与方法探析

摘要:了解网络信息资源的特点,掌握网络检索工具及其检索方法是现代图书馆员应当具备的基本技能。本文从网络信息资源的定义及特点入手,介绍了网络信息资源检索工具及其类型,并对“关键词检索”、“分类检索”、“链接检索”等三种检索途径及其检索方法与检索技巧进行了分析与探讨。

关键词:网络信息资源搜索引擎信息检索检索工具检索技巧

信息社会中,网络信息是重要的社会资源,网络信息的开发和利用直接影响着社会的创新能力。现代图书馆肩负着网络信息整序和指导网络信息有效利用的职能,图书馆员必须了解网络信息的特点,掌握网络信息检索工具及其检索方法,具备网络信息检索、评价、整序及其开发利用的基本技能。

1 网络信息资源及其特点

网络信息资源是在INTERNET上存储和交流的、可被人们开发和利用的信息和知识的总称。这些以网络为载体,以文件为表现形式的信息和知识,可以从内容、形式、用途、使用对象等不同角度,划分为诸如:社会科学信息资源和自然科学信息资源、FTP信息资源和软件信息资源、公共信息资源和商业信息资源、成人信息资源和少儿信息资源等等类型,网络信息资源以网站为单位进行管理,以网页和文件

为单位被人们利用。

网络信息资源是由无数的组织、机构、团体和个人组织和管理的资源。与其信息资源相比,具有如下特点:(1)就表现形式而言:①数量庞大,增长迅速;②内容丰富、覆盖面广;③分布无序,表现形式多样;④传输速度快,共享程度高;⑤交互性强,使用成本低;⑥变化频繁、难测、质量良莠不齐;⑦生灭聚散无定律。(2)就学科内容而言:由于研究水平、研究群体、与经济发展的关系、社会重视程度等等因素的影响,不同学科的信息资源在总量上存在着较大的差异。(3)就使用语言或所属国家、地区而言。受语言使用人口、国家或地区经济发展水平、信息政策、国民受教育程度、全民信息意识等等因素的影响,不同语言或不同国家、地区的网络信息资源发展极不平衡。

2 网络信息资源检索工具及其类型

有效地利用网络信息资源,首先需要对某一类型或某一主题的网络信息有一个全面的了解和总体的把握,进而获取特定的、能够满足查询需求的网络信息资源。因此,就需要进行网络信息资源检索。检索,是网络信息资源利用的前提和基础性工作,目的是了解有关信息资源的数量、语言或国家分布及资源的权威性、学术性、时效性等相关信息,为网络信息资源的开发和利用提供咨询和指引门径。其次,是要解决好海量信息的无序分散与特定资源的有序利用问题。

目前,网络信息资源检索工具大致可分为二种:一是利用程序自动索引,在用户端提供有序化的匹配信息;二是由人工按一定的标准收录和标引网站,以第三方身份提供整序平台,用户通过整序平台查找有序化的信息和资源。前者整序方法所使用的工具,是基于程序的关键词搜索引擎(Keyword Search Engine)或称全文搜索引擎(Full-Text Search Engine),后者则是以分类指南网站为代表的分类搜索引擎(Directory)。

网络信息资源检索主要利用上述二种类型的网络资源整序和检索工具,而且,信息资源检索本身也是一种整序的手段,由于其针对性较强,有特定的范围和明确的质量要求,从用户角度而言,也可称之为“专题整序”,相对整序工具来说,可以称之为“二次整序”。

3 网络信息资源检索途径与检索技巧

网络信息资源检索的途径大致可分为:关键词检索、分类检索、链接检索三种。

3.1 关键词检索

关键词检索是根据信息资源的内容性质,提炼出最能概括和体现资源主题的关键性词语,利用关键词搜索引擎查找相关网页信息。常用于信息资源检索的关键词搜索引擎主要有Google、Lycos、Altavista、百度、搜狗等。

例如,要了解可用于查找各国钱币图案的网络信息资源,我们可以分别用“钱币”、“钞票”、“纸币”、“硬币”、“金币”、“银币”、“纪念币”、“古币”、“paper money”、“coin(s)”、“banknote(s)”等作为关键词进行网页检索,也可以用“国家名+币种”(如“Burundi coin(s)”、“France banknote(s)”、“china coins “Qing Dynasty””等)等多个关键词进行某一国家钱币图案搜索,还可以用“site:国家域名后缀+关键词1+关键词2...”(如“site:us Coin banknote”、“site:uk ancient coins”等)等构建复合检索式,对某一国家和地区范围内的相关信息资源进行检索,甚至可以利用图像搜索引擎,从某种钱币图案入手,进而查找相关网页……关键词信息资源检索的方法多种多样,检索效果在很大程度上取决于关键词的选择和对搜索技巧的掌握。

值得注意的是,关键词信息资源检索中得到的结果并非都可以作为“资源”来使用,必须对其进行甄别,筛选出最符合检索要求和使用价值较大的网页或各类文档。

一次检索往往返回大量的结果,根据排序算法(如Google等),级别(PageRank)较高的网页一定处在结果列表的较前位置,网页的位置向后顺延,重要性依次降低。根据这一原理,我们通常只把信息资源检索的范围限定在结果列表的前两、三个页面,以保证获得信息的效率和质量。

另外,还可以根据网页URL的构成,通过对结果页面在其网站结构中的物理位置和对其所在网站主题的考察,初步判断网页的质量和

价值。一般情况下,符合检索要求的网页处在其网站结构中的较上层位置,与网站主题一致或密切相关,这样的网页内容一般较为可靠,使用价值也较高。反之,处于较低层次,与网站主题关系不大甚至无关的网页,其作为“资源”的使用价值就会大打折扣。

由于搜索技术和搜索引擎自身功能的限制,关键词搜索引擎无法完全索引和全面揭示那些处于网站深层结构(Deep structure)中的网页、拒绝链接或未被链接的“孤岛网页”、动态网页、数据库等等“看不见的网页(The Invisible Web)”。据Bright Planet公司的《Deep Web White Paper》调查与研究显示:隐蔽网络资源(Invisible Web resources)的数量大约为7,500TB,是WWW的400-550倍;隐蔽网络拥有5,500亿私人文档,而可见网络(Visible Web resources)只拥有10亿私人文档;隐蔽网络站点的月访问量是可见网络的150％;隐蔽网络信息资源是Internet上发展最快的信息资源,大约一半的隐蔽网络信息资源存在于主体明确的网络数据库中;95％的隐蔽网络信息资源可免费获取。不言而喻,“看不见的网页”是一种重要的不可替代网络信息资源,在资源检索中必须给予足够的重视。

关键词检索只能对网络信息资源有一个初步、大致的了解,系统掌握、全面揭示和客观描述某类网络信息资源还须使用分类检索的方法。

3.2 分类检索

分类检索是以分类搜索引擎为工具,根据所需信息资源的学科性质和主题概念,确定其在分类体系中的类目归属,至上而下地层层寻检,逐级浏览,查找相关网站的信息。常用于信息资源检索的分类搜索引擎主要有Yahoo、Dmoz等。进行Invisible Web资源检索,尤其不可忽视的是The Invisible Web Directory (http://invisible-web.net/)和Librarians´ Index to the Internet(http://www.ipl.org/)。前者是《隐蔽网络:揭开搜索引擎看不到的信息源》的作者Chris Sherman和 Gary Price创办的专门用于指导检索Invisible Web资源的主题分类指南,网站的宗旨是“寻找搜索引擎无法找到的隐藏的网络信息资源”,后者是著名的图书馆员编制和维护的包括14,000多个网站的主题目录,常用于查找普通搜索引擎无法索引的数据库资源。

网络资源分类调查的效果,取决于对分类搜索引擎的驾驭能力,而熟练地掌握和使用分类搜索引擎,需要对网络分类体系的构建原理及其特点、分类搜索的方法与途径等有一个较为全面和透彻的了解。

3.3 链接检索

链接检索是利用网页之间的超级链接(Hyperlink)指引路径,从已知资源查找相关资源的一种便捷的网络信息资源检索方法。

网络最显著的特征是“联系”和“交流”,无论是否自愿,只要身处“网”中,联系和交流就不可避免。内容相同或相近的信息资源之间,由于仰慕、宣传、推荐、引用、参考或协议、共享、网站优化等原因,

往往以超级链接形式表示关联,单向或互相指引和利用。超级链接是现代互联网信息资源之间最基本、最常用的联系方式。

超级链接是指网站内不同的页面之间,网站与WEB之间的链接关系,它可以使同一网站内的相距较远的网页成为有机联系的整体,能够使不同网站之间建立联系。超级链接由链接载体(源端点)和链接目标(目标端点)两部分组成,通常分为显性链接和隐性链接。

显性链接,也称直接链接,是在网页上有“LINK”、“XX连接”字样和目标端点LOGO指示的可以看得见的、可以直接利用的链接。显性链接对源端点资源具有支持和印证的作用,同时也宣传、推荐了目标端点资源。通常情况下,显性链接的质量能够在很大程度上反映源端点管理者的态度和信息资源的质量,如果链接的信息资源网页级别(PageRank)高,访问量大、主旨关键词检索排名靠前,基本上可以认为源端点资源是严肃、负责和具备一定的质量水准的。反之,如果显性链接多为空链、死链、错链、与主题无关的链接,甚至是无聊或色情网站,那么,源端点信息资源的质量和信誉就会大打折扣。

隐性链接,也称反向链接,是某一网站由外部主动与其自身的链接,即被链接。如果单纯从链接数量考虑,某一资源被大量的其他相关信息资源链接,起码说明其知名度较高、人气较旺。然而,为了能够对某一资源作出中肯的评价,还需要从反向链接是否为“专家网页(an expert page)”、是否具有较高的网页级别(higher PageRank)、是否被著名分类搜索引擎收录(appears in a famous directory listing)等方面进行

考察。

反向链接虽然是隐形的,我们可以利用搜索引擎的“link:”语法,或使用专用工具了解反向链接的数量。用“link:”语法查询反向链接:NSSDC Photo是美国国家空间科学数据中心 (NSSDC)的空间科学图片库,有包括水星、金星、地球、月球、火星、木星、土星、海王星、冥王星、小行星、彗星、太阳系、银河系、星云等各式各样的照片万余件,是查找各种天体图片的主要和常用的资源,其URL为http://nssdc.gsfc.nasa.gov/photo_gallery/

。

用

Google

查

询:“link:nssdc.gsfc.nasa.gov/photo_gallery”,约有575项链接到nssdc.gsfc.nasa.gov/photo_gallery 的查询结果。能够检测反向链接的专用工具很多,有的只提供某一个搜索引擎的查询结果,如yahoo反向链接检测器(http://www.webconfs.com/anchor-text-analysis.php),有的可以调用多个搜索引擎进行反向链接查询,如Marketleap(http://www.marketleap.com/siteindex/),能够同时显示Alltheweb、AltaVista、Google/AOL、HotBot/Inktomi、MSN等搜索引擎的反向链接查询结果。我们在网络信息资源检索中使用的反向链接检测工具,实际上是为搜索引擎优化(SEO)服务的商业性专业工具,不同工具对同一资源的反链检测数据多有出入也在情理之中,但它对资源检索毕竟具有一定的参考价值。

总之,无计划的信息生产和不可控制的网络膨胀与人们对网络信息资源有目的性的特定需求,是互联网络发展和利用过程中始终存在

的主要矛盾。在解决这一矛盾的过程中,网络自动整序和智能检索技术应运而生,并不断地发展和完善,人们最终必将能够完全地驾驭和自在地利用网络。

参考文献

[1]王世民.网络学术信息资源的获取方式[J].情报探索,2008,(10):48-49.

[2]方锦平.隐形网络及其信息资源的获取途径[J].现代情报,2008,(5):76-78.

[3]侯集体.网络信息资源的搜集与整合[J].现代情报,2005,(2):82-84.

[4]邢志宇,等.实用网络搜索[M].西安:西安地图出版社,2005:155-160.

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文