论文关键词:知识发现 非相关文献 航天科技情报 情报研究 应用研究
论文摘要:概述了非相关文献知识发现方法的原理以及国内外应用现状,总结了该方法的发现流程以及开发人机交互系统所需要的关键技术,对比分析了非相关文献知识发现方法应用于生物医学领域及航天科技情报研究领域的异同点,人工模拟了用该方法发现新型飞行器隐身技术的知识发现过程,验证了非相关文献知识发现方法用于航天科技情报研究领域的可行性,揭示了规模应用的努力方向。
1非相关文献知识发现方法对于航天情报研究的重要意义
作为科技情报研究领域中的一个分支,航天科技情报研究既有与其他专业情报研究相同的一面,也有其保密性强、难以从公开渠道获取等特点。一直以来,航天情报研究多采用定性分析为主、定量分析为辅的方式,分析方法也局限于传统的情报研究方法,因此检索前沿技术发展动向时,会出现“巧妇难为无米之炊”的现象,难以发现有价值的文献,无法为科研决策提供有效的情报支持。
1986年,Don.R.Swanson在研究时偶然发现以雷诺病生理改变作为中间词,可将以鱼油和雷诺病为主题词检索到的两组原本无联系的文献联系起来,得出鱼油有助于雷诺病的治疗的结论。于是Swanson认为,对于两组非相关文献A和C,可以通过某中间词或中间文献B建立起二者的关联,上述发现A、C关联的过程称为非相关文献知识发现方法。1997年,Swanson在描述知识发现的过程中,提出了开放式和闭合式两种方法(如图1所示,该方法2001年被Weeber正式命名)。在科学假设的形成阶段主要采用开放式方法,以感兴趣的主题C为初始点,发现中间集合B,通过中间集合B与文献集合A之间的关系,确定C与A之间的关联。在科学假设验证阶段主要采用闭合式方法,从C、A两端同时开始进行检索,产生相互交叉的词汇集合B。这种知识发现方法的诞生,不仅对情报学的学科建设具有重大意义,同时可有效解决一般检索方法无法发现有价值文献的问题,为航天情报研究者指明了努力的方向,具有里程碑意义。
与Swanson提出的非相关文献概念相比,本文中的非相关文献概念有所扩展,是指文献之间不彼此引用、没有被共引且也不共引其他文献…、不能用主题检索等常规检索方法同时被检索出来的彼此间相对独立的文献。非相关文献知识发现则是指以揭示隐含于非相关文献中的尚未被人们认识或发觉的知识片段的逻辑联系,从而提出知识假设,以便专业研究人员进一步证实,促使新知识的产生为目的的情报研究过程。
2非相关文献知识发现方法的应用现状及发展
Swanson提出非相关文献知识发现方法后,很多学者在其基础上进行了方法的改进和应用领域的拓展,使得该方法在其他学科的移植应用成为可能。
1993年,Z.Chen在Swanson理论的基础上提出一种整合分散在文献内部知识片断间逻辑关联的方法,为建立不同专业领域间的知识关联开辟了新途径。1996年,M.D.Gordon创建了基于短语的词频统计方法,并建立起中介文献的概念,将非相关文献的发现应用扩展至学科和领域之间,拓展了基于非相关文献知识发现应用的广度。航天情报领域与物理、化学、材料等领域密切相关,非相关文献知识发现方法的跨学科、跨领域性使其可以用于发现不同学科和不同领域之间的隐含逻辑联系。
Swanson本人也尝试将该分析方法向数据库移植,1999年专门针对医学数据库Medline设计了人机交互检索系统Arrowsmith,用于自动检索联系两组非相关医学文献的中间文献。Arrowsmith系统除可以模拟整个非相关文献知识发现过程外,还提供了生物医学文本挖掘工具列表和以作者为入口的检索模块等8个模块,提高了实现过程的效率,使该方法在某些学科的大规模应用成为可能。
2001年,Weeber提出了基于“概念”的非相关文献发现方法,并开发出专门用于MetaMap的基于概念的自然语言处理系统——DAD系统J。同年,M.D.Cordon和Lindsay研究了该方法在万维网中的应用,积累了网络应用经验。Kostof研究小组将Swanson理论的应用范围拓展到决策服务领域中,使其更具实践价值。
2001-2003年间,P.Srinivasan等也开展了对开放知识发现过程的研究。柏林自由大学医学图书馆的J.Stegmann等开始尝试用共词聚类分析来模拟知识发现的过程,寻找从来源文献到目标文献的路径和规律。2001-2005年问Hristovski等将该方法用于遗传学领域]。2006年,Swanson以Medline为目标数据库,在回顾其以往基于非相关文献发现研究的基础上探讨了如何提高获取文献B的准确度的问题,认为根据特定主题事先获取文献A和C时应该优先考虑使用标题字段和MeSH主题词表术语。
在方法改进的同时,非相关文献知识发现方法的应用领域也在不断扩展,可以用于Biosis,Embase,Scisearch,Intemetdatabases等数据库中,但仍限于生物医学领域。直到1999年K.A.Cort将其用于Wilson人文数据库隐含知识关联的挖掘,利用该方法揭示了此前从未被人文领域知晓的现代诗人R.Fomt同古希腊哲学家Cameades之间的思想关联,非相关文献知识发现方法的应用领域得到实质性拓展。
国内对Swanson情报学方法及Arrowsmith软件的介绍始于2000年,多数文献是对Swanson方法的评价、简介和相关性算法改进,实践方面限于网络版的Arrowsmith的利用和设计中文系统重现Swanson知识发现过程,也有文献探讨了该方法向中医药领域拓展的可行性和数据集构建等问题。目前,基于文献的知识发现方法已经成为国内情报界研究的热点,先后有20余篇文献在各种刊物上发表,种种改进使非相关文献知识发现方法日趋成熟和完善,为该方法用于航天科技情报研究领域奠定了基础。
3非相关文献知识发现方法应用于航天科技情报领域可行性分析
3.1领域比较
非相关文献知识发现方法在人文领域的成功应用证明了该方法的普适性。因此,将该方法用于航天领域有其可能性。与医学领域相比,航天领域有以下异同(见表1)。
相似点:有特定的检索需求;有独立的情报研究机构和情报研究人员;有比较完善的主题词表;有相对完善、独立的数据库;有专业词典。不同点:没有开展过类似的研究;没有一体化的语言系统;没有专门的人机交互系统;保密要求,不能及时获取全部文献;政治原因,人工处理,消除文献间联系。
3.2发现流程及关键技术分析
分析Swanson知识发现方法的原理和Arrowsmith系统工作原理,可将非相关文献知识发现流程分为5个步骤(见图2)。
第一步:主题确定。即确定初始检索词,依据何种主题词表选取初始检索词;是否对文献类型进行限定;确定初始文献集选取范围等。第二步:发现中间词集。具体包括自然语言处理、相关性判定、过滤修剪、确定非相关性几个方面。自然语言处理主要是建立通用语言知识库和专业语言知识库,用于自动抽词、分词。相关性判定可依据词共现、概念共现或二者相结合的方式来选取中间词,此部分算法的改进是学者研究的重点。过滤修剪有很多方法,如停用词表过滤、语义网络过滤、词频过滤、日期过滤、排序过滤、人工过滤,等等,确定非相关性可利用引文分析法。第三步:找出关联词集。与发现中间词集方法类似。第四步:验证关联。利用闭合式知识发现原理进行验证。第五步:判定过程结束。可通过设定阈值、统计参数限定或发现不到新概念作为结束发现过程的标志。
综上所述,无论是在生物医学领域还是航天领域应用非相关文献知识发现方法,其原理与技术是相同的,如果建立起相应的语义映射机制,设计算法,在航天领域应用非相关文献知识发现方法进行情报研究是完全可行的。
4可行性验证
为了验证非相关文献知识发现方法在航天领域应用的可行性,人工模拟验证了等离子体技术应用于飞行器隐身方面的知识发现过程。
·背景:20世纪60年代起,苏联开始研究新型飞行器隐身技术,到80年代左右取得一定进展。美国于20世纪90年代也开始了相应研究,研究成果处于保密。假定1995年左右,希望通过非相关文献知识发现方法发现有价值的研究方向。 ·数据库选取:鉴于技术的保密性,航天领域专用数据库中难以检索到有价值的文献。因此选取IEE出版的INSPEC数据库进行检索。该数据库收录了包括物理、电子工程和信息技术等领域的3500余种期刊,1500余种会议记录以及大量图书、报告、学位论文的摘要和索引。
·检索平台:THOMSONISI公司的Webof Knowledge平台。
·检索时间段:1967-1994年。
·初始主题词(C):StealthMaterial(隐身材料)。
·检索方式:主题检索、通用检索。
主题确定过程:初始考虑StealthMaterial、StealthCover(隐身涂层)、StealthCoat(隐身层)、StelathTechnology(隐身技术)4个主题词,考虑到与检索需求最为接近选取StealthMaterila作为主题词。检索结果有14篇文章。发现中间词集过程:上述14篇文章的受控标引词共计50个。进行概念聚类后按照出现频率进行统计,剔除无意义中间词后的结果见表2。
进一步修剪并确定非相关性:根据隐身技术原理,TemperatureControl原理确实可应用于隐身(如红外隐身)但属于已知技术,故可在筛选中间词时剔除。而Antennas和RadarCross—sections出现频率极高,经判定与隐身技术具有相关性属于相关文献,故中间词集可确定为MelectromagneticWaveAbsorption和SuperconductingDevices。考虑到Magnetohydrod)namic和SuperconductingDevices本身可作为隐身技术,其原理在于降低运动阻力,降低噪声,从而减小被发现的概率,继续检索意义不大,故终止以两个词为出发点的知识发现过程。最终ElectromagneticWaveAbsoprtion词作为中间词集。
找出关联词集过程:考虑到ElectromagneticWaveAb.soprtion含义的宽泛性和人工模拟的可行性(进行主题检索得到7928篇文章),此处人为缩小检索范围,仅将文献集检索范围限定在标题上,检索到文章79篇,重复中间词集发现过程,得到受控主题词227个,剔除与Elec.tromagneticWaveAbsorption相关的词,利用词性修剪,剔除非名词及非名词短语,利用领域修剪,剔除生物等非相关领域名词,并进行概念聚类后得到19个关联词,将阈值设定为2,按出现频率排序后结果见表3。进行进一步阅读以判断是否有新的知识发现。
Plasma单独出现23次,与ElectromagneticWave共同出现27次,高度相关,阅读分析后发现,Plasma可以吸收或发射电磁波,从而避免雷达探测,用于隐身(见图3)。Semiconductor也可影响电磁波的吸收和发射,用于隐身。IndiumAntimonide未见于电磁波吸收明显相关。supedattices主要研究电磁波在超晶格中的传播、耦合等现象,未见明显相关。Excitons等离激子可吸收电磁波,用于飞行器隐身。
过程结束:将ElectromagneticWaveAbsorption作为中间词B,成功发现了关联词Plasma和Semiconductor(A)。结论:Plasma和Semiconductor具有ElectromagneticWaveAbsoprtion(吸收电磁波)的特性,故可以用作StealthMateiral(隐身材料)。磁动力和超导技术通过降低行动噪声也可用于飞行器隐身。
文献验证过程:采用闭合式知识发现方法在INSPEC数据库中检索1999年后发表的文献,发现关于等离子体隐身技术的研究文献公开发表于2002年,而在国防科技信息服务系统中,检索发现最早文章发表于1999年。中文维普数据库中,发现2000年以后,关于等离子隐身方面的中文文献大量发表(见图4)。关于磁动力和超导技术通过降低行动噪声用于飞行器隐身的文献和半导体材料用于隐身的文献也有发表。
事实验证:俄罗斯于1999年5月公布,将一等离子体发生器安装在米格战斗机上,用于飞机隐身。1997年,美国委托田纳西大学研发等离子体隐身天线。分析1995年前发表的文献,ElectromagneticWaveAb soprtion与Plasma同时出现的频次非常高,而StealthMateiral与ElectromagneticWaveAbsoprtion原理也很清楚,然而却没有直接揭示两者联系的文献发表,无疑令人费解。然而考虑到航天领域的政治性与保密性,可将其解释为StealthMaterial与Plasma的关系是被人为屏蔽掉的,即不公开发表或人为去除联系或将边缘文献发表在领域外期刊上。因此,上述知识发现过程可称为用非相关文献知识发现法发现航天领域内被人为屏蔽的相关文献的过程。
上述过程同时证明非相关文献知识发现法可应用在航天领域,用于非相关文献知识发现和人为屏蔽的相关文献知识发现,对航天科技情报工作者来说无疑是个喜讯。
5规模应用面临挑战
通过人工模拟Swanson知识发现过程可知,非相关文献知识发现法对于航天科技情报领域的检索是可行的,也非常有意义。但是如果想要推广应用,必须开发出相应的系统辅助完成部分工作以提高发现效率。系统的开发需要解决以下几个方面的问题:依据专业词表进行词的切分,完成词到概念的映射和聚类;改进算法准确判定相关性,结合语义过滤中间词集;相关文献和无意义文献的剔除;结束标志的设计判定。
相信不久的将来,在情报研究人员的努力下,非相关文献知识发现方法将在航天科技情报领域发挥其应有的作用。