摘 要 从文献资源建设的总体发展历程看中医药文献资源建设的状况和存在的问题,结合专业特色提出建设设想,并总结初步的实践体会。
关键词 中医药文献 信息资源建设 文献数字化
越来越多的人意识到:信息时代的构成不仅仅是众多的计算机和复杂的网络结构,数据量(即文献信息资源数字化的总量)、信息资源揭示与利用的深度和管理水平,已成为信息时代新的特征和衡量信息技术水平应用新的标准。人类历史上还没有哪一个时代像现在一样,信息资源以如此巨大的加速度飞快地膨胀,其重要性更不可同日而语。随着现代信息技术如计算机技术、缩微技术、光盘技术、多媒体技术、网络技术等高新技术群的快速发展,硬件应用的障碍大为减少,为信息资源数字化的建设和开发提供了实现的可能。
1 文献资源建设的总体发展历程和中医药领域当前存在的问题
总体来看,文献资源建设的发展可分为三个阶段:
第一阶段,以20世纪60年代美国国会图书馆正式发行书刊机读目录LCMARC(后更名为USMA-RC)起为象征,开始了馆藏文献资源电子化的实践。继而出现了DIALOG检索系统、MEDLINE数据库以及OCLC(联机计算机图书馆中心)雏形。此时我国计算机的应用还处在萌芽状态。
第二阶段,开始于80年代中期至90年代初期,以CD-ROM光盘和局域网在图书馆的应用为契机,文献资源建设步入了快速发展的轨道。各种电子化信息产品大量涌现,尤其是文献型数据库的建设蓬勃发展,最有代表性的是OCLC第一检索服务拥有的数据库达60个左右,它们涵盖社会科学、人文科学、自然科学和工程技术学等,有文献目录、摘要、全文和馆藏图书的标识符,涉及书籍、期刊、会议论文、汇编等。这一时期我国的文献资源建设有了一个实质性的进步:推出了第一张《中国国家书目(光盘)》;第一个中文科技期刊篇名数据库;第一个中文生物医学数据库等,随后产生了大小不等的上千个数据库,实现了由引进国外光盘数据库到自行研制开发的转变。
第三阶段,90年代中期至今,伴随着数字化概念的出现和信息处理技术的飞速发展,文献资源进入了数字化发展阶段,文献资源建设的重要性得到广泛的认同。全国高等教育文献资源保障系统(CALIS)计划启动,中国国家图书馆的数字图书馆工程动工,全国科技文献资源中心建设开始实施,万方期刊数据群上网等。该阶段的基本特征是:1)越来越多载体形式的文献逐渐被数字化,不论是印刷文档、手写稿,还是电子文档、音像文件等,数据库建设朝着数字化、规模化方向发展。2)出现了数据仓库(Data warehousing)、数据集市(Data mart)、数据采集(Data mining)等新的信息技术概念和信息数字化处理方法,逐步形成了大数据量存储和管理模式,如清华同方光盘集团推出的“机构知识仓库管理系统KD3.5”,超星数字化公司推出的图文资源数字化PDG技术,书生之家推出的全息数字化技术等,从各角度实践了各类文献数字化、信息化、标准化加工整理、编辑处理、数据存储等。3)数字化文献保存和显示的主要类型有两种:一是采用扫描录入方式将文献或图片资料按原貌逐页存储为图象文件;二是以文本方式存储文献内容,辅之以全文检索系统构成全文检索数据库。以多媒体为主要表现形式的光盘大量涌现,全文检索系统日益普及。如美国国立图书馆的“美国的记忆”项目、维普中文科技期刊全文数据库、中国学术期刊全文数据库等。4)文献资源建设由个体向网络化方向发展,着眼于全球性的资源布局和利用,如日渐壮大的OCLC等。
中医药文献资源建设远远落后于上述整体的发展:如全国尚未形成中医药联合机读书目数据库(就连印刷版的《全国中医图书联合目录》也没有电子版);各种珍本、善本书均未建库;报刊资料、专利说明、会议论文、学位论文等数据库规模小或尚未建设;全文数据库和各种图、文、声、像资料库的建设更是举步维艰。究其原因:一方面,疏松离散、基础薄弱、经费来源匮乏的建设状态,严重影响了信息资源的开发和利用,导致中医药数据库规模、数据加工程度、数据库种类和服务功能等均不能满足社会的需求,甚至在某种程度上制约了中医药界创新意识与国际化的发展进程。另一方面,中医药文献历史悠久,古代文献数量较大,孤本、善本种类繁多,其载体形式经历了金石、简牍、帛书、抄本和印本的演变发展,形成的金石文献、竹帛文献、纸质文献等明显有别于现代文献类型,因此,中医药文献数字化转化过程中除了现代文献转化中可能面临的问题(如技术问题、标准格式的选择问题、版权问题、人才和经费匮乏等)外,其古医籍的转化问题还包括:有关古医籍数据格式标准的选取和制订;繁体数据库与简体数据库的转换;医古文的自动切分选词和分类等一些特殊的情况。
