Skip to main content

科技查新跨库检索的文献去重技术探讨

Posted in
作者信息
姓名: 
郝慧
学校名称: 
北京工业大学

 科技查新是查新机构以查新委托人提供的待查内容,制定合适的检索策略对数据库、网络及实体印刷资料进行查找,并对所查到的相关文献、专利及科技成果等进行分析整理,汇总为查新报告。

存在问题:查新人员根据用户所提供的关键词和查新点从多个数据库进行文献检索,由于同一文献可能被多文献数据库收录,造成不同的数据库中文献重复的情况,为提高效率,查新工作人员在检索结果整理(分析)之前,对检索结果进行去重处理。由于计算机处理的便捷性和准确性,采用计算机进行此项处理无疑更高效。目前,对跨库检索去重所采用的计算机处理方法可总结为:  确定数据库查询所返回的信息中是否包含能确定该记录唯一性的信息, 再以这些信息作为关键特征构建记录对比特征,最后对检索结果进行依次对比。由于需要对检索结果中的每条记录和检索结果中的所有记录作对比,算法的效率较低。

采用的信息技术:科技查新检索结果去重可归类为两个问题:1. 查新检索结果的信息有效提取,所提取的信息需反映检索结果的唯一性,且提取的信息能适用于有效的去重算法;2. 利用提取的信息,对科技查新检索结果进行高效去重。

为满足1中提出检索结果有效性和唯一性,需要分析不同数据库的检索返回结果,从中提取满足步骤1要求的特征数据;而为实现高效去重,可以用已有的网页去重算法,利用步骤1中通过分析不同数据库检索返回的信息,提取并构建唯一性特征,对检索结果进行去重,从而提高检索效率。

研究方法:(1)  特征确定  通过统计分析国内外主流论文数据库的数据检索结果,确定检索结果中信息关键特征,并以此作为检索结果去重的特征(具有DOI标识的论文利用该标识作为关键特征,没有DOI标识的论文以四元组{论文标题,期刊名,发表时间,第一作者}作为关键特征)。

 (2)  算法选择和改进  引入相似性数据检测算法(I-Match算法),通过提取结果四元组特征值,以特征值集合来计算相似性,通过降低空间和计算复杂性来提高性能,进行去重。

 (3)  算法处理流程

①对设定的数据库依次提交检索请求,解析不同数据库对检索请求的返回数据, 并进行格式化处理;

②查询每条检索记录,检查是否有 DOI 信息。如有,则基于 DOI 信息计算 Hash 值,并以此作为检索记录的特征值doi_sha1,将此特征值插入特征字典中,作为判重的依据; 

③将 search_id  doi_sha1 信息构成二位数组(search_iddoi_sha1)插入特征字典,如插入成功,表示检索结果中没有与 DOI 相同信息的索引记录, 如插入失败表示索引结果中存在重复,丢弃该检索记录。如不存在重复,表示该条检索记录是以 DOI信息为特征的唯一结果;

④如无 DOI 信息,直接对检索记录提取四元组特征信息。对四元组信息进行 SHA1 运算,并以此作为该条检索记录的特征值。判重方法与③相似。