-- 作者:admin
-- 发布时间:5/7/2004 11:41:00 AM
-- [转帖]资源描述架构在都柏林核心集的应用介绍
http://dimes.lins.fju.edu.tw/pub/bul-ncl-taiwan-5-1/rdf1.html 资源描述架构在都柏林核心集的应用介绍 吴政叡 (Cheng-Juei Wu) 辅仁大学图书信息系专任副教授 E-mail: lins1022@fujens.fju.edu.tw 中文摘要 元数据是将来用来描述(网络)资源的格式,由于资源的种类复杂,多种元数据共存共荣乃为未来必然的趋势,因此需要有一种适当的工具,来同时携带多种元数据来往于网络上,而「资源描述架构」(RDF)即为此种工具之一。本文主要是介绍「资源描述架构」及其在「都柏林核心集」的可能应用,资源描述结构是由W3C主导和结合多个元资料团体(如都柏林核心集等)所发展而成的一个架构,可用来携带多种不同的元资料来往于因特网和WWW上。本文介绍了RDF的核心数据模式,以及「具体化」(Reification)和「声明」(Assertion)等的机制,最后是一个使用 XML语法和 RDF核心数据模式,来携带都柏林核心集记录的实例。 关键词:元数据,资源描述架构,都柏林核心集,Metadata,RDF,Dublin Core。 一、前言 资源描述结构(Resource Description Framework,简称 RDF)是一个用来携带多种不同的元数据来往于网络上的工具。[注 1] 元数据(Metadata)最常见的英文定义是 "data about data",可直译为描述数据的数据,主要是描述数据属性的信息,用来支持如指示储存位置、资源寻找、文件纪录、评价、过滤等的功能。以图书馆的角度来看,就其本义和功能而言,元数据可说是电子式目录,因为编制目录的目的,即在描述收藏数据的内容或特色,进而达成协助数据检索的目的。[注 2] 因此元数据是用来揭示各类型电子文件或档案的内容和其它特性,其典型的作业环境是计算机网络作业环境。换言之,元数据是因应现代数据处理上的二大挑战而兴起的:一是电子档案成为数据的主流,另外一个是网络上大量文件的管理和检索需求。 至于元数据的种类,下面是一些常见的清单。首先,国际图书馆协会联盟(International Federation of Library Association and Institutions,简称 IFLA)在描述元数据资源的首页中 [注 3],列举了以下的元资料种类: Dublin Core、EAD(Encoded Archival Description)、FGDC's Content Standard for Digital Geospatial Metadata、DIF (Directory Interchange Format)、GILS (Government Information Locator Service)、IAFA/whois++ templates、MARC、PICS (Platform for Internet Content Selection)、RDM(Resource Description Messages)、SOIF(Summary Object Interchange Format)、SHOE(Simple HTML Ontology Extensions)、TEI、URC(Uniform Resource Characteristics)、X3L8 Proposed ANSI standard for data representation。 其次是在『Judy And Magda's List of Metadata Initiatives』的网页中,按类别提出一些经常被广泛使用或具有潜力的元数据如下︰ [注 4] (一) 通用描述型 -- MARC、Dublin Core、Edinburgh Engineering Virtual Library (EEVL)、Semantic Header for Internet Documents、GILS、URC、X3L8 Proposed ANSI standard for data representation、IAFA Templates、NetFirst、Header for HTML documents、SOIF、MCF(Meta content Format)、PICS。 (二) 文字文件描述型 -- TEI、BibTex、Gruber Ontology for Bibliographic Data、RFC 1807。 (三) 数据数据类-- ICPSR Data Documentation Initiative、SDSM(Standard for Survey Design and Statistical Methodology Metadata)。 (四) 音乐类 -- SMDL(Standard Music Description Language)、 (五) 图像与对象类 -- CDWA(Categories for the Description of Works of Art)、CIMI(Consortium for the Computer Interchange of Museum Information)、VRA Core Categories、MESL Data Dictionary。 (六) 地理资料类 -- FGDC's Content Standards for Digital Geospatial Metadata。 (七) 档案保存类 -- EAD、Z39.50 Profile for Access to Digital Collections、Fattahi Prototype Catalogue of Super Records。 由以上的列表和清单可知,因为网络资源的种类复杂,用途殊异,因此多种元数据共存共荣实为不可避免的趋势,因此需要有一种适当的工具,来同时携带多种元数据来往于网络上,而「资源描述架构」即为此种工具之一。 资源描述结构(Resource Description Framework,简称 RDF)是由全球信息网协会(W3C)主导和结合多个元资料团体(如都柏林核心集等)所发展而成的一个架构,可用来携带多种不同的元资料来往于因特网和WWW上。因为W3C先前曾致力发展一个元资料─PICS(Platform for Internet Content Selection) [注 5],因此RDF受到PICS很深的影响,在语法上则是遵循另一个W3C致力推广的架构 -- XML(Extensible Markup Language)[注 6],由于目前XML已受到业界广泛的支持,如浏览器的两大霸主Netscape [注 7] 和 Internet Explorer [注 8] 都已经各自制作使用XML格式的元数据规格,并且也已呈送W3C审核,因此XML与RDF的发展可说是备受瞩目。 二、RDF的核心数据模式与声明的机制 以下根据W3C 的RDF工作小组的草案 [注 9],来对 RDF模型做更进一步的介绍,基本上RDF是一个与任何特定(计算机)语法无关的抽象的数据(表达)模式,用来呈现一个特性与其值。而所谓的「特性」(Property),可能是 资源的属性:如题名、著者等,都柏林核心集的题名(Title)字段即可归属于这类。 资源间的关系:如都柏林核心集的关连(Relation)和来源(Source)两字段即属于这类范畴。 RDF的另外一个特点是语法独立性,因此两段看起来差异很大的RDF陈述,事实上可能是描述相同的一件事,这是因为RDF是一个抽象的数据模式。由于这个抽象的特点,各种不同的元数据(如都柏林核心集)均可利用此种抽象的数据模式,来表达它们的内容。 RDF的核心数据模式(RDF Core)定义如下: (一) N:一个点(Node)的集合(Set),此处的「集合」是一个数学的名词和概念,在此的意义和用法正如在数学中一般。而「点」可以是一个资源(如网页)或是对象(Object),甚至可以是一个「特性」(Property)。[作者注:「特性」的意义请参见前面的描述。] (二) P(特性型态):是一个 N 的子集合(Subset)。 (三) T:一个含有三个元素的「有序对」(Tuple),其形式为(P, N, V),即有序对中的第一个元素来自前面的集合 P,第二个元素来自前面的集合 N,第三个元素V可以是来自集合 N,或者是一个单纯的值(如字符串 ”吴政叡”)。 例子:吴政叡是网页 http://mes.lins.fju.edu.tw 的著者,可用RDF的有序对表示如下: {著者,[http://mes.lins.fju.edu.tw],[吴政叡]} 上述的有序对中,著者是一个「特性」,[吴政叡]是此特性的值,网页 http://mes.lins.fju.edu.tw 是一个点(Node)。 从另外一个角度,可把RDF核心数据模式的三个元素有序对(P, N, V),以数学中的图学表示如下: N -- P -- > V 即将 N 和V视为点,P是从N 到V弧线的标示,因此上述的例子又可表示为 [http://mes.lins.fju.edu.tw] -- 著者 -- > [吴政叡] 此外又可透过所谓的「具体化」(Reification)将「特性」(Property)变成一个新的点(假设为 X),从而产生三个新的有序对如下: (一) {PropName, X, P}。 (二) {PropObj, X, N}。 (三) {PropValue, X, V}。 以上面的例子来说,若将「特性」著者具体化为新的点X后,将产生如下的三个新有序对 (一) {PropName, X, 著者}。 (二) { PropObj, X, [http://mes.lins.fju.edu.tw]}。 (三) { PropValue, X, [吴政叡]}。 若将描述同一个资源的众多特性的有序对集结起来,即成为RDF的「声明」(Assertion),例如描述网页 http://mes.lins.fju.edu.tw 的两个有序对 (一) {著者,[http://mes.lins.fju.edu.tw],[吴政叡]} (二) {题名,[http://mes.lins.fju.edu.tw],[吴政叡的首页]} 组合起来即构成RDF的「声明」。 三、一个都柏林核心集记录的RDF实例 都柏林核心集(Dublin Core)为备受瞩目的元资料之一,是 1995 年 3 月由国际图书馆计算机中心(Online Computer Library Center,简称OCLC)和 National Center for Supercomputing Applications(NCSA)所联合赞助的研讨会,经过五十二位来自图书馆、计算机和网络方面的学者和专家,共同研讨下的产物。目的是希望建立一套描述网络上电子文件特色的方法,来协助信息检索。研讨会的中心问题是--如何用一个简单的元数据记录来描述种类繁多的电子对象?[注 10] 主要的目标是发展一个简单有弹性,且非图书馆专业人员也可轻易了解和使用的数据描述格式,来描述网络上的电子文件。 都柏林核心集最近一次的研讨会为第五次研讨会,于1997年10月6-8日在芬兰的赫尔辛基举行,由于在写作本书时,第五次研讨会的正式报告尚未出版,祇好先根据澳洲国家图书馆的一位与会者--Bemal Rajapatirana的报告先行介绍第五次研讨会的情况与成果 [注11],待第五次研讨会的正式报告出炉后,作者会另撰专文来加以介绍。 根据Bemal Rajapatirana的报告,与会者达成了如下的几项共识: (一) 加快标准化的脚步—由于都柏林核心集的15个基本项目架构,自第四次研讨会以来已普遍获得认同,同时都柏林核心集也得到世界各国很多研究者的肯定,并且尝试建造系统,此时若无一定的标准来遵循,将使系统的建造者无所适从和系统的更改频繁。因此基于都柏林核心集已趋成熟的共识,决定推派代表撰写RFC的草案,呈交给 IETF进行标准化的过程。 (二) 区分简单和复杂两种都柏林核心集格式—简言之,所谓简单(simple)和复杂(complex)格式的区分,一般而言主要是以有无使用任何修饰词作为标准来划分的。由于都柏林核心集的15个基本项目已有共识,因此简单都柏林核心集的标准化过程将会较早开始。 (三) 语法上采用HTML和RDF格式为主—HTML的格式目前是使用4.0版本,写法请参见作者的另一篇文章 [注 12]。 (四) 成立工作小组—针对一些尚未有定论的议题,组成工作小组进行研讨,主要有 (1) 内容或格式尚未有定论的基本项目,如Date、Relation、Rights Management等项目。 (2) 修饰词。 (3) 特殊性议题,如都柏林核心集和Z39.50间的互换。 (五) 次项目(或类别修饰词)的制定原则 (1) 与基本项目一致,都是可省略的选择项。 (2) 次项目须能进一步协助诠释项目的内容。 (3) 祇展开一层,免得结构过于复杂。 (4) 数目尽可能精简,有可能需要类别修饰词的基本项目,将限于Title、Creator、Contributor、Publisher、Date、Relation、Coverage等。 1997年10月公布的数据著录项目列表如下:[注13] (一) 主题和关键词(Subject):作品所属的学术领域,控制语汇用 scheme 注明出处如 LCSH,亦可包含分类号如杜威十进分类号(Dewey Decimal Number)。 例子:Subject = 都柏林核心集。 (二) 题名(Title):作品名称。 例子:Title = 都柏林核心集与元数据实验系统。 (三) 著者(Creator):作品的创作者或组织。 例子:Creator = 吴政叡。 (四) 简述(Description):文件的摘要或影像资源的内容叙述。 (五) 出版者(Publisher):负责发行作品的组织。 (六) 其它参与者(Contributors):除了著者外,对作品创作有贡献的其它相关人士或组织。 〔注: 如书中插图的制作者。〕 (七) 出版日期(Date):作品公开发表的日期,建议使用如下格式– YYYY-MM-DD和参考下列网址:http://www.w3.org/TR/NOTE-datetime。在此网页中共规范有六种格式,都是根据国际标准日期暨时间格式 – ISO(国际标准组织)8601制定而成,是ISO 8601的子集合(subset),现在列举和解说如下以供参考:[注 14] 例子:1997-09-07(公元1997年9月7日)。 (八) 资源类型(Type):作品的类型或所属的抽象范畴,例如网页、小说、诗、技术报告、字典等,建议参考下列网址:http://sunsite.berkeley.edu/Metadata/types.html。 例子:Type = Text.Dictionary。 例子:Type = 文字.技术报告。 (九) 数据格式(Format):告知检索者在使用此作品时,所须的计算机软件和硬设备,例如 text/html(MIME格式)、ASCII、Postscript(一种打印机通用格式)、可执行程序、JPEG(一种通用图像格式)。亦可扩展至非电子文件,例如book(书本)、丛书、期刊。 例子:Format = text/html。 (十) 资源识别代号(Identifier):字符串或号码可用来唯一标示此作品,例如URN、URL、ISSN、ISBN等。 (十一) 关连(Relation):与其它作品(不同内容范畴)的关连,或所属的系列和档案库。 例子:Relation = http://mes.lins.fju.edu.tw/。 (十二) 来源(Source):作品从何处衍生而来(同内容范畴),例如莎士比亚的某个电子书出自那个纸本。 (十三) 语言(Language):作品所使用的语言,建议遵循 RFC 1766 的规定,请参考下列网址:http://ds.internic.net/rfc/rfc1766.txt,RFC 1766 是使用 ISO 639的二个字母的语言代码。[注 15] 例子:Language = en。[注16] (十四) 涵盖时空(Coverage):作品所涵盖的时期和地理区域。 (十五) 版权规范(Rights):作品版权声明和使用规范。 以下是使用 XML语法和 RDF核心数据模式来携带一个都柏林核心集记录的实例: <xml::namespace href="http://purl.oclc.org/metadata/dublin_core_elements" as="DC"> < xml::namespace href="http://www.w3.org/schemas/rdf-schema" as="RDF"> <RDF:serialization> <RDF:assertions href="http://mes.lins.fju.edu.tw/mes/"> <DC:creator>吴政叡</DC:creator> <DC:title>元数据实验系统</DC:title> <DC:subject>都柏林核心集</DC:subject> <DC:subject>元资料</DC:subject> <DC:description>有鉴于元数据对数据著录和检索的重要性,作者建立了一个相关的实验系统—元数据实验系统 (Metadata Experimental System,简称MES,网址: http://140.136.85.194/mes 或 http://mes.lins.fju.edu.tw/mes),作者建立MES目的,除了是让读者透过这个系统,对元数据及其未来的可能运作方式,有更具体的认知外;也希望利用此一实验系统,来测试和验证元数据的功能和效用,例如都柏林核心集这种简易的数据描述格式,是否如制定者们所预期的,足以满足大部分网络文件著录和检索的需求。MES是一开放性的实验系统,欢迎任何人上站著录自己的网页或文件,以供他人查询和检索。 </DC:description> <DC:date> <ISO8601>1997-009</ISO8601> </DC:date> <DC:type>homepage</DC:type> <DC:format >text/html</DC:format> <DC:identifier><url>http://140.136.85.194/mes</url></DC:identifier> <DC:rights>所有版权属于吴政叡</DC:rights> </RDF:assertions> </RDF:serialization> 下面的RDF文法是摘录自W3C 的RDF工作小组 1997年10月2日公开的草案 [注 17],此文法是以计算机界通用的BNF(Backus-Naur Form)[注 18] 形式呈现,同时由于工作小组的草案是会随时增修的,请自行连上W3C 的网站(http://www.w3.org/Metadata/RDF/Group/WD-rdf-syntax)查看最新的发展。 (一) RDF ::= '<RDF:serialization> ' node* ' </RDF:serialization>' (二) node ::= resource | assertions | aggregate (三) resource ::= '<RDF:resource' idAttr? '>' property* '</RDF:resource>' (四) assertions ::= '<RDF:assertions' idRefAttr* '>' property* '</RDF:assertions>' (五) aggregate ::= sequence | bag | alternatives (六) sequence ::= '<RDF:seq' idAttr? '>' aggnode* '</RDF:seq>' (七) bag ::= '<RDF:bag' idAttr? '>' aggnode* '</RDF:bag>' (八) alternatives ::= '<RDF:alternatives' idAttr? '>' aggnode* '</RDF:alternatives>' (九) aggnode ::= node | '<RDF:li' hrefAttr '/>' (十) idRefAttr ::= hrefAttr | idAttr (十一) hrefAttr ::= 'href="' resourceURI '"' (十二) idAttr ::= 'id="' IDsymbol '"' (十三) resourceURI ::= (see RFC1738) (十四) IDsymbol ::= (any legal XML name symbol) (十五) property ::= '<' propName idAttr? '>' propValue '</' propName '>' | '<' propName idRefAttr '/>' (十六) propName ::= name | namePrefix ':' name (十七) propValue ::= node | string (十八) name ::= (any legal XML name symbol) (十九) namePrefix ::= (any legal XML namespace prefix) (二十) string ::= (any XML text) 四、结语 元数据的兴起和WWW与搜寻引擎的盛行颇有关连,WWW盛行后,为因应检索网页内容的需要而有搜寻引擎的产生,搜寻引擎运作的方式,基本上是属于全文检索,主要是透过自动抓取程序在因特网上抓取网页,然后以自动拆字(或词)作索引的方式来建立其数据库,做为检索的基础,这种操作方式的特点是高运作效率和一网打尽,因此有高回收率与低精确率的特性,这个低精确率的缺点,随着WWW网页数量的急遽膨胀,成为无法忍受的致命伤。 很明显的,我们需要更多的信息,来从回复的款目当中,挑选我们真正需要的数据,而这些信息必须由数据提供者来提供,因此如何制定一套数据描述格式,来有效率的描述收藏的数据,成为一个重要的课题,这正是元资料日渐受到重视的原因。这种对数据须加以适当描述的体会,正是图书馆制作目录的动机,于是这个古老的经验又得到再一次的肯定。 都柏林核心集(Dublin Core)是一个简单有弹性,且非图书馆专业人员也可轻易了解和使用的数据描述格式。这种简单有弹性和适合各种专业人员的特性,正是它在国外越来越受到欢迎的主要因素,也是作者特别青睐都柏林核心集的原因,这是因为作者同时具有图书馆学和计算机的背景,了解到在现阶段,一种适合各专业人士的简易元资料的必要性;一方面传统的机读编目格式过于繁琐,也继承太多的传统包袱,同时传统图书馆的著录方式并不适合非图书馆专业的人。另一方面以作者对目前人工智能、类神经元网络、模糊逻辑等相关学科的了解,知道创造一个具有现今一般图书馆员智能的自动化系统,在现阶段仍是一个遥不可及的梦想,因为至今我们连模仿一个三岁小孩说和听故事的智力都有困难,更别说是模仿一个成年的专业人士。所以综合来说,在现阶段数据的描述仍需以人工操作为主,同时以今日因特网上数据膨胀的速度来看,光靠图书馆员来处理是不够的,由(众多专业的)文件或数据的创造者本身来自行加以描述,已是必然的趋势,这正是类似都柏林核心集这种元数据受重视的原因。 以都柏林核心集在国外的发展现况来看,1997年10月的第五次研讨会已有专门的议程来针对都柏林核心集的实作系统进行展示和讨论,这是以前四次研讨会所没有的,也说明都柏林核心集已渐趋成熟和受到肯定。除了已开发系统的介绍外,也有一些正在筹建中的都柏林核心集相关系统的宣布,以下是它们的简介: (一) 丹麦政府决定自公元1997年起将所有政府的出版物上网,系统的主要规格之一,是采用都柏林核心集来描述文件和协助查询。 (二) 荷兰国家图书馆将发展一种新的全球信息网服务,系统的主要做法是要在所有已搜集的网页中,加入都柏林核心集的资料,新的网页将要求提供者先自行加入都柏林核心集的数据后再送呈,将来荷兰国家图书馆的搜寻引擎会利用这些元数据来协助检索。 (三) 英国的UKOLN正在推行一个名为BIBLINK的计划,在出版社和国家书目中心间建立一条网络通讯管道,来直接交换书籍纪录和信息,这套系统是使用都柏林核心集作为其基本的格式。 (四) 在商业的应用上,一个称为STARTS的协议正在发展中,它可以辨识网页中的元资料,来协助使用者过滤和排比查询的结果,STARTS已决定包含都柏林核心集。 综观以上的发展,显示都柏林核心集已渐成熟和广受肯定,以系统的实作而言,欧洲和澳洲(请参见下面第四章中关于DSTC的介绍)可说是居于领先的地位,欧洲较注重都柏林核心集在图书馆相关服务上的应用,澳洲的DSTC则较偏重都柏林核心集在WWW相关服务上的应用。 由于类似都柏林核心集这类的元数据正逐渐获得肯定和使用,因此相关的携带工具也成为研究者注目的焦点。这是因为元数据的种类复杂且用途殊异,将来多种元资料共存共荣的局面已成为共识,因此一种可同时携带多种元数据来往于因特网和WWW上的架构,成为不可或缺的工具。基于此种认知,W3C乃主导和结合多个元数据团体发展出「资源描述架构」(RDF)。虽然在第二次都柏林核心集的研讨会中,也提出一个类似的多个元资料的携带工具─「沃里克架构」[注 19],但是由于W3C在因特网和WWW界的影响力甚巨,作者预期RDF终将获得采用而取代「沃里克架构」,成为携带都柏林核心集的主要工具,因此撰写本文来介绍资源描述架构在都柏林核心集的可能应用方式。 注释: 注 1:E. Miller and B. Schloss, ” Resource Description Framework (RDF) Model and Syntax,” 2 Oct. 1997, <http://www.w3.org/TR/WD-rdf-syntax-971002>, p. 2. 注 2:吴政叡,「元数据实验系统和都柏林核心集的发展趋势」,国立中央图书馆台湾分馆馆刊 4 卷 2 期(民 86 年 12 月),页12。 注 3:IFLA, “DIGITAL LIBRARIES: Metadata Resources,” 24 March 1997, <http://www.nlc-bnc.ca/ifla/II/metadata.htm>。 注 4:J. Ahronheim, “Judy and Magda's List of Metadata Initiatives,” 2 Nov. 1997, <http://www-personal.umich.edu/~jaheim/alcts/bibacces.htm>. 注 5:P. DesAutels, ”Platform for Internet Content Selection,” 18 July 1997, < http://www.w3.org/PICS/index.htm>. 注 6:D. Connolly, ”Extensible Markup Language (XML),” 1 Dec. 1997, < http://www.w3.org/XML/index.htm>. 注 7:A. Hopmann, ”Web Collections using XML,” 9 March 1997, < http://www.w3.org/TR/NOTE-XMLsubmit.html>. 注 8:R.V. Guha and T. Bray, ”Meta Content Framework Using XML,” 24 June 1997, < http://www.w3.org/TR/NOTE-MCF-XML/index.htm>. 注 9:同注1,页2-6。 注10:吴政叡,「三个元数据格式的比较分析」,中国图书馆学会会报 57 期(民 85 年 12 月),页39。 注11:B. Rajapatirana, ”The 5th Dublin Core Metadata Workshop: a report and observations,” 2 Dec. 1997, <http://www.nla.gov.au/nla/staffpaper/helsinki.html>. 注12:同注2,页18。 注13:S. Weibel and E. Miller, “Dublin Core Metadata Element Set: Reference Description,” 2 Oct. 1997, <http://purl.oclc.org/metadata/dublin_core_elements>. 注14:M. Wolf and C. Wicksteed, “Date and Time Formats,” 15 Sept. 1997, < http://www.w3.org/TR/NOTE-datetime>。 注15:H. T. Alvestrand, “Tags for the Identification of language,” March 1995, < http://ds.internic.net/rfc/rfc1766.txt>, p. 2. 注16: “Guide to Creating Core Descriptive Metadata,” 13 April 1996, < http://www.ckm.ucsf.edu/people/jak/meta/mguide3.html>, p. 7. 注17:同注1,页6-7。 注18:A. V. Aho, R. Sethi, and J. D. Ullman, Compilers: Principles, Techniques, and Tools, (Addison-Wesley : Reading, Massachusetts) 1988, p. 159. 注19:同注2,页14-15。
|