论地方文献主题标引
许廷长
(金陵图书馆 江苏南京 210018)
【摘 要】 地方文献有很强的地域文化特征,在标引工作中必需使用表达地域文化特色的固有词汇标引主题。主题词表编制滞后,大多使用关键词即自由词标引。受控语言与自然语言结合的混合标引,既用主题词又用自由词描述文献主题的标引,便于用户用自然语言检索文献。既使用关键词标引,又使用后控词表控制词汇的方法具有实际使用意义。
【关键词】 地方文献 主题标引 主题词 关键词 自由词 后控词表
1 引论
几十年来,传统图书馆工作者从事的文献工作,大多集中于揭示文献形式特征,与文献的内容无关。真正揭示文献内容特征的工作,应该是从文献主题标引开始。从难度上来讲,显然是后者更具有挑战性,富有创造性。国内开展文献标引的图书馆很少,能够实际从事地方文献标引工作的更是稀见。这既有理论准备的不足,也有图书馆业务体系对标引工作必要性的认识差异,外部社会需求的不足,以及实际标引人员的缺乏等各种因素。
地方文献带有很强的地域文化特征,因此在标引工作中必需使用表达地域文化特色的一些固有词汇。由此可以积累某一地的大量地方文献主题词,进而可以形成地方文献主题词表。
目前各类图书馆的OPAC系统均已成熟,都能够提供在线联机书目检索。但OPAC的局限也很明显,只能检索书目信息,不能检索文献内容。虽然OPAC能从多种途径检索信息,但都是基于形式特征,如题名、责任者、出版社、ISBN、丛书名、索取号等等。而主题检索,就可以在有限的条件下,检索到尽可能多的内容信息。
2 610字段与关键词
在CNMARC记录中,各馆自行标引的主题词放在610字段。610字段用于记录非控主题词,就是未经规范的关键词,也即自由词。虽然实际标引时不查词表,但该字段会包括一些《汉语主题词表》中已有的主题词。610字段是检索点,在OPAC中,用户只要选择主题词为检索点,输入检索词,就可以方便快捷地检出相关主题的文献。使用主题词检索,不必了解所需文献所属的类名与类号,可以直接获得检索目标。与OPAC中的其他检索点不同,主题词检索点是唯一能检索到涉及文献内容的书目记录。同时,按照图书馆评估标准的要求,需在地方文献机读目录中设置地理名称主题检索点。以金陵图书馆为例,在地名主题607字段加“南京”。用户只需在OPAC主题检索点中输入检索词南京,就会得到全部与南京有关的地方文献书目记录。
网络信息资源的使用使得检索方式发生较大变化,自由词、关键词迅速取代主题词。未受过图书馆专业训练的普通用户也能方便地使用关键词检索网页文献,检索网上信息资源成了愉快的游戏。换句话说,在网上信息资源的检索上,图书馆员已经没有专业优势。曾有学者认为,分类语言与主题语言的完全兼容,是网络信息检索工具发展的必由之路。但由于分类检索难以确定学科的类别,最终目的网页所处层次较深,找到所需信息费时太多,因而这种方式越来越受年轻用户的冷落,它的发展前景也不容乐观。关键词直达目的层,它的简洁明了使用户更乐于接受。直接亲切的关键词检索方式拉近了网络与用户的距离,因而拥有更多的用户群,也更有发展前途。实际上,关键词就是未经规范的主题词。主题检索语言随着学科的发展会不断地自我扩充,它是一种动态体系;缤纷复杂的网络信息是一种动态资源,两相结合,正好相互适应。推广使用放在610字段的关键词标引,将会适应网络用户的需求。
但关键词检索也有其致命的弱点,就是检准率低。以著名的网络搜索引擎Google为例,它就是用关键词检索庞大的网络文献的。虽然Google能在很短的时间内快速检索到所需的网络信息,但检索噪音太大,每次检索反馈的结果大都是成百上千的信息。用户难以一一浏览,只能选前面的几条或几十条阅读。
主题标引以特定的主题为检索词,以概念组配的方法选取主题词标引。但主题词表编制滞后,大多数情况下,只能使用关键词标引。由于没有经过规范,这里的关键词实际上是自由词。原因首先是由于无法使用主题词表,《汉语主题词表》至今没有电子版,如果每标引一个词,都去翻查那几大本厚厚的主题词表,严格按汉表里面的主题词标引,一天也标不了几个词,那样的工作效率太低,没有实际使用意义。其次,《汉语主题词表》是二十世纪七十年代的产物,很多新兴的事物名词,无法在其中找到对应的主题词。第三,地方文献是一种特殊的带有显著地域文化特征的文献集合,有很多专有名词术语。汉表是综合性的词表,无法表达这种区域性的专有文献集合的特征。第四,汉表是以学科体系为基本依据;而地方文献则是以某一局部地区的社会人文现象为依据。第五,主题词表总是落后于时代的发展,不论如何更新,总是赶不上语言的发展,赶不上文献的变化。如果严格按照词表标引,必将经常碰到新词新意无法套用词表词汇的问题。
3 混合标引
受控语言与自然语言的实用性相互比较,前者的优点是词汇总量少,同义词或近义词经过规范,词汇之间做语义关联,因而词表的词汇量较少;后者的优点是专指性更好,标引难度低,因而标引速度快,费用也相应低,最主要的是使用方便,词表可以及时更新。受控语言与自然语言结合的标引方法称作混合标引,就是既用主题词又用自由词来描述文献主题,这种方法便于用户用自然语言检索文献。自然语言如果吸收情报检索语言的词汇控制技术,将会改善自然语言的检索性能。应该说,受控语言与自然语言将长期共存,很难互相取代。
4 关于分类概念
主题标引的同时,经常碰到一些分类的概念。如论文集、年鉴、传记、大事记、年表、名录、简介、民间文学等等,都属于分类的概念。出于方便读者检索的目的,也应当选用代表分类概念的主题词予以标引,以此集中一批相关文献,集中一批不论题名是否反映的专题文献。如很多地方文献中都有大事记,如果予以标引,则可以在题名不能反映的情况下,迅速将所有记录中含有大事记的文献检出。简介也是如此,很多人物方面的文献大都属于简介,不能称之为传记。还有一些企事业单位的介绍,也属于简介。如果直接用简介作主题词标引,检索更方便。参照《中国分类主题词表》,使用分类加主题概念的方法标引更简单,更利于集中相关文献。分类与主题相结合的一体化检索语言可以同时实现信息的族性(范畴)检索和特性检索,符合人们的检索习惯和思维方式。
主题标引选取的主题词,大致可以包括几个方面:人名,地名,机构组织名,事件,概念,名词,术语,名胜古迹、山川河流、朝代名,书刊名,专有名词,等等。文献题名中通常都包含了主题意义,过去有人认为题名可以直接检索,题名中的主题词不必标引。但由于题名与主题毕竟是不同的检索点,从方便主题检索考虑,从为词表积累主题词出发,最好还是标引题名中的主题词。
5 关于标引深度与标引质量
标引深度指对文献主题的分析描述的全面性和专指性的程度,是影响查全率和查准率的重要因素。标引时选取的主题词的数量值得推敲:数量少,简略标引,不足以揭示文献的主题内容;数量太多,标引工作量大,标引速度必然减慢,成本高,效率也受影响。采编部一般都有工作量的指标,主题词选多了,加工的数据量就会受影响。这并非技术方面的问题,但却能实际影响工作质量与效率。根据实际标引经验,一般以3~8个比较理想。但遇到一些文献内容比较丰富,涉及人物、事件等较多的主题,还是应当尽量多标引几个主题词。从系统支持上来看,无论是MARC还是DC元数据,都对文献内容的标引深度没有限制。在时间成本与人力成本允许的情况下,应当尽量全面、深入揭示文献主题内容。标引是手段,检索是目的,今天的完全深入的标引,将为明天的检索提供极大的方便。
截止2006年6月23日,金陵图书馆标引主题词的地方文献已经达到4313种,标引主题词共17364条次,平均每种书标引4个主题词,标引深度还是略为偏低。
地方文献的主题标引是由地方文献工作者完成的,他们如果是采编部的员工,是专业的编目人员,有编制MARC的权限,能及时修改标引时不可避免地出现的错误,就可以有效地控制词汇。否则,错误将越积越多,对于标引的质量控制十分不利。实际标引工作中,没有百分之百的合格标引,只有尽量减少标引误差。
6 关于后控词表
在积累了一定数量的关键词后,词汇控制的问题将越来越突出。自由词并不是完全自由的,还是要遵守一定的规范。如果标引完全不作控制,必将出现同一个主题使用不同的关键词标引,或者一个关键词用于不同主题的情况。随着标引时间的延长,标引词汇混乱的情况将会愈演愈烈,以至失控,为后来的检索带来不便,甚至失去检索功能。
关键词标引必然碰到同义词、近义词等问题,所谓控制,不能回到先编词表再标引的老路上,那样又变成根据先控词表查词的繁琐方法上去了。应该是在标引词汇增加至一定数量后,根据使用的词汇记录建立后控词表。后控词表的字段主要有:用,代,属,分,参,等等。各馆可以根据本馆条件选择合适的字段,但基本的用代关系不能缺少。用代关系包括用作标引的主题词、与之相关的具有同义、近义关系的被代替的关键词。经过规范的关键词确定为主题词后,以后就应当一直用该主题词标引,而不能再随意使用其他关键词标引。如果以后觉得该主题词不妥,需要调整,应当更换所有使用过该主题词的MARC记录。
对部分容易引起歧义的词汇实行控制,建立简单明确用代关系的实例如下:
紫金山
代:蒋山,钟山,神烈山
上述词汇均表达同一主题,只是使用的时代略有不同。通常选取一个最通用的关键词作标引主题词,代替其他不作为主题词的关键词。但这些关键词均放在代字段,作为检索时的入口词,如上例的蒋山、钟山、神烈山。用户并不知道哪一个词是主题词,但只要检索系统建立了词汇用代的关联关系,用户就可以使用具有同义、近义关系的关键词检索。也就是说,用户检索时,不管是使用紫金山,还是蒋山、钟山、神烈山,都可以检出与紫金山有关的文献。这对于用户来说,无疑是极大的方便。这种既使用关键词标引,又使用后控词表控制词汇的方法,具有实际使用意义,应该是比较好的。
属,分,参的建立,主要是明确词族关系和参照关系。如某个主题词的上位类是哪一个主题,即它属于哪一个主题;某一个主题词有哪些下位类的词汇,这就是分;参指参见与之相关的字段。这样就可以根据词间关系建立一个有完善的词族体系的词表,但相应的工作量和劳动强度必然大大增加。
先控词表难以修改,不能适应变化多端的主题标引工作,没有实际使用意义。后控词表应当能够随时维护,随时添加、修改主题词,便于标引员管理词库文件,这个过程就是词汇的实时控制。显然,这种方式具有适应各地图书馆地方文献标引工作发展的极大优势,值得推广。
7 技术支持
如果没有相应的技术支持,标引时的主题词查重又会耗费大量时间,长此以往,还是会产生先控词表那样的问题。理想的标引软件系统应该是在标引时,每输入一个标引词,系统能够根据后控词表自动辨别该词是否使用过,是主题词还是入口词;如果是第一次使用的主题词,自动加入词表;同时,对所有输入的需要人工干预的词汇给出提示,等等。这些功能对于实际标引工作有极大的帮助,能有效提高工作效率。但目前图书馆界尚无这类专业标引软件,需要有志于此的同道研究开发。
参考文献:
1.柴一葵.网络环境下地方文献的分编问题及对策.图书馆,2002(3)
2.刘五一.对主题标引一致性的探讨.图书馆论坛,2000(1)
3.谢朝蓉.关于地方文献主题标引一致性的探讨.现代情报,2003(11)
4.翁翠玲.《中国分类主题词表》主题标引应用研究.情报杂志,2003年(3)
5.赵萍萍.关于机读目录中地方文献主题标引的探讨.国家图书馆学刊,2003年(2)
6.李育嫦.当前文献主题标引存在的问题与解决方法.图书情报知识,2002(5)
7.李凤侠等.当前的主题标引技术及其发展.图书馆建设,2004(5)
8.尹玉霞.西北地方文献主题标引中自由词的使用及质量保证.图书馆理论与实践,2003(4)
9.傅立云.浅谈CNMARC格式中的主题标引.大学图书情报学刊,2004(2)
|