「 标 题」信息整流与知识增值服务
【内容提要】本文提出数字图书馆的主要功能目标是信息整流与知识增值服务;信息与知识转换是数字图书馆的关键理论和技术问题。图书馆受到Internet的巨大冲击、不再是文献信息服务的唯一提供者,数字图书馆如何才能挽回失去的老用户,吸引新用户?知识管理工程将使数字图书馆成为21世纪学习的大平台、文化知识的大平台和知识资源中心。【摘要题】信息服务
1 数字图书馆的信息整流
数字图书馆把传统图书馆的功能由信息的查询和图书资料的借阅扩展到知识服务的新阶段。实现这一宏伟目标需要解决许多技术和社会问题,其中有两个最关键的技术是信息的整流和知识的创新。前者涉及数字图书馆的知识链建立问题,后者涉及数字图书馆的信息变换成知识的知识增值服务问题。
1.1 数字图书馆的知识链
数字图书馆是一个庞大的数字资料库,包括所有资料的数字化存储,在线网上资料、多媒体资料、电子出版物等。数字图书馆根据用户对信息的不同需求,将文本、图片等原件制作成不同数字形式。一般有纯图像形式,目录文本形式,正文图像形式,全文本形式和全文索引形式。但关键还是知识链的建立。
为实现知识链信息,数字图书馆将资源分成为元数据和对象数据。对象数据指数字化的文本、图像、声言、影像等,元数据则指那些描述和管理对象的数据。对象数据分布式地存放在各地的资源站点内,元数据则集中存放在数字图书馆中心的超大规模服务器上。用户查询时,中心调度系统通过元数据来调度各对象数据库以提供服务。
知识的控制单位长期停留在文献这一级上,而人对知识的需求一般不是以文献为单位的。早在20世纪70年代后期就有专家指出,知识的控制单位将从文献深化到文献中的数据、公式、事实、结论等最小的独立的“知识元”。一旦实现知识的控制单位由文献深化到“知识元”,大量文献中所包含的“知识元”及相关信息间的链接将产生极大的知识增值,从而大大推进人类对知识的利用,促进新知识的创造,从而也将推动知识资源业的重大发展[1]。
一篇文献反映作者的科学研究成果,包含着作者的知识创新的过程。于是文本结构本身就隐含着对某学科问题的知识链。
假如我们把每篇文献的知识看成是人类知识结构中的一个知识单元,知识单元与知识结构就组成了个性知识与共性知识的知识系统。个性知识体现在知识的创新上,共性知识结构则表现在知识的完整性上。于是我们就建立了个性知识与共性知识的知识链。事实上,专利文献就明显地表现了个性知识单元与人类知识结构的知识创新链关系[2]。
数字图书馆对文本的知识标引,既体现了标引者应用学科知识结构的背景知识的能力,同时又体现了标引者识别和提炼作者的知识创新点的判断和知识组织能力。因此,是一个知识链建立的知识增值过程。
1.2 数字图书馆的知识发现
知识链的建立过程是知识发现和知识再组织的过程。知识发现的主要目标是采用有效的算法,从大量现有或历史数据集合中发现并找出最初未知、但最终可理解的有用知识,并用简明的方式显示出来。知识发现一般包含如下几个步骤:(
1)理解相应的问题领域;(2)准备相关数据子集;(3)发现模式(数据挖掘);(4)所发现模式的后处理;(5)应用发现结果。(1)文本知识结构分析技术
尽管与多媒体信息相比,文本信息显得比较普通,但文本仍然是记载和传播信息的最主要媒体,因此对文本信息知识发现技术的研究具有十分重要的意义和广泛的应用前景。
文本结构分析的目的在于发现文本表达主题概念的物理组织结构,由物理结构自动重组主题概念的逻辑结构,实现对文本知识的抽象化和具体化推理检索。
文献[3]把文本结构分成物理结构和逻辑结构。物理结构={标题,段落,句子,词汇},它表示了文本的组成情况。可采用向量空间模型表示文本及文本各个部分,进行文本结构分析,其中主要是文本的层次分析,从而得到文本的逻辑结构。逻辑结构={主题,层次,段落,句子,主题词},它更着重于表示
[1][2][3][4]