首页 > 硕士 > 工学 > 正文

基于社会化标注的查询扩展技术研究

Query Expansion Based on Social Annotation

作者: 专业:计算机应用技术 导师:林鸿飞 年度:2010 学位:硕士  院校: 大连理工大学

Keywords

Information Retrieval, Query Expansion, Social Annotation, Learning to Rank

        在信息检索任务中,查询扩展技术都表现出具有提高检索效果的能力。大多数基于文档集的查询扩展技术都是基于一个相关性假设,即初次检索结果中排名靠前的一部分文档是与原始查询相关的,并且可以当作是原始查询的上下文信息。因此,这些文档可以用做查询扩展的扩展词来源。但是,当初次检索结果过程中相关性文档不多时,依然利用以上提出的相关性假设,从不相关文档中提取扩展词,这些扩展词就可能与原始查询不相关,从而影响查询扩展技术的检索性能。许多研究表明利用外部资源作为扩展词的来源,能够有效避免由于初次检索的文档不相关对查询扩展技术性能的影响。随着Web 2.0的发展,大量社会化标注信息出现在互联网上。在社会化标注体系中,用户根据自己的兴趣爱好,利用自由的词汇对网络资源进行标注。研究表明,这种社会化标注资源可以用来帮助提高信息检索的效果,但是,关于利用社会化标注资源作为扩展词资源,用以提高查询扩展性能的研究仍比较少见。本文主要研究利用社会化标注信息作为扩展词资源对传统查询扩展技术的改进。首先,本文探讨并挖掘出社会化标注信息作为扩展词资源的可能性,通过对从社会化标注中挖掘出来的扩展词进行分析,发现社会化标注信息可以为原始查询提供语义相关的扩展词。在此发现基础上,本文提出了三种基于社会化标注资源的扩展词挖掘方法:(1)基于词共现统计的扩展词挖掘方法;(2)基于词依赖的扩展词挖掘方法;(3)基于排序学习的扩展词挖掘方法。在基于词共现统计的扩展词挖掘方法中,充分分析了社会化标注的产生机制,利用标签之间的语义关联性,为原始查询挖掘出语义关联的扩展词。在该方法基础上,我们着重考虑了原始查询中词项之间的依赖关系,并提出了基于词依赖的扩展词挖掘方法。对于挖掘出来的扩展词,我们利用基于排序学习的方法,根据扩展词对检索效果的潜在影响程度,对其进行二次排序,从而挖掘出能够有效提高检索性能的扩展词。在标准TREC数据集的实验表明,本文提出的三种基于社会化标注的查询扩展方法能够有效的提高检索性能,尤其在利用基于排序学习的方法对扩展词进行二次排序之后,相对于原始查询和相关性模型的检索效果,基于排序学习的方法检索性能评价提高了34.3%和14.35%。这表明排序学习方法能够为传统的查询扩展技术提高较大帮助。最后,本文的实验表明,社会化标注资源可以作为查询扩展技术中扩展词的来源,并且能够为原始查询提供足够相关的扩展词。
    Automatic query expansion technologies have been proven to be effective in many information retrieval tasks. Most existing approaches are based on the assumption that the most informative terms in top-retrieved documents can be viewed as context of the query and thus can be used for query expansion. One problem with these approaches is that some of the expansion terms extracted from feedback documents are irrelevant to the query, and thus may hurt the retrieval performance.Using a large external collection as the resource of expansion terms, it is an effective way to avoid the detrimental effect of irrelevant top-retrieved documents. With the rise of Web 2.0 technologies, social annotation has become a popular way to allow users provide different keywords describing the respective Web pages from various aspects. These features may be used to improve IR performance. However, to date, the potential of social annotation for this task has been largely unexplored.In this paper, we explore the possibility and potential of social annotation as a new resource for extracting useful expansion terms. In particular, we propose three expansion term selection methods based on social annotation resource:(1) the term selection method based on term co-occurrence, (2) the term selection method based on term-dependency, (3) the term selection method based on learning to rank. Under the assumption of different tags describing the same Web resource are semantically related to some extent, the first method selects the relevant expansion terms based on the co-occurrence between the query and expansion terms. The second method selects the relevant expansion terms using the term sequential dependence assumption in original queries. For the third method, we develop a machine learning method for term ranking, which is learnt from the statistics of the candidate expansion terms, using ListNet.Experimental results on three TREC test collections show that the retrieval performance can be improved when the query expansion methods based on the social annotations are used. Moreover, the learning to rank method has been proven to be effective for query expansion technologies. In addition, we also demonstrate that terms selected by the term-dependency method from social annotation resources are beneficial to improve the retrieval performance.
        

基于社会化标注的查询扩展技术研究

摘要4-5
Abstract5
1 绪论8-11
    1.1 研究背景8
    1.2 查询扩展技术的作用与意义8-9
    1.3 查询扩展技术的研究现状9-10
    1.4 论文的组织结构10-11
2 查询扩展的相关技术及实现方法11-19
    2.1 信息检索模型11-15
        2.1.1 向量空间模型11-12
        2.1.2 概率模型12-14
        2.1.3 统计语言模型14-15
    2.2 查询扩展方法的相关技术15-18
        2.2.1 基于查询文档集的查询扩展技术15-17
        2.2.2 基于外部扩展资源的查询扩展技术17-18
    2.3 本章小结18-19
3 社会化标注19-23
    3.1 社会化标注简介19
    3.2 社会化标注的产生机制19-20
    3.3 基于社会化标注的相关研究工作20-21
    3.4 社会化标签之间的语义相关性21-22
    3.5 社会化标注数据集22
    3.6 本章小结22-23
4 基于社会化标注的查询扩展技术23-42
    4.1 基于词共现统计的查询扩展方法23-26
        4.1.1 基于共现统计的标签挖掘方法23-24
        4.1.2 扩展标签的权重分配方法24
        4.1.3 实验设计24
        4.1.4 实验结果24-26
    4.2 基于词依赖共现的查询扩展方法26-31
        4.2.1 词依赖假设的提出26-27
        4.2.2 基于词顺序依赖假设的扩展词挖掘方法27
        4.2.3 实验设计27-28
        4.2.4 实验结果28-31
    4.3 社会化标注资源的有效性31-34
        4.3.1 扩展词对查询扩展影响的估计31
        4.3.2 社会化标注集的评估31-33
        4.3.3 相关扩展词对检索性能的影响33-34
    4.4 基于排序学习的查询扩展方法34-41
        4.4.1 排序学习的介绍34
        4.4.2 基于ListNet的标签选取方法34-36
        4.4.3 特征选取方法36-37
        4.4.4 扩展词相关性评价标准37-38
        4.4.5 候选扩展词重排序实验38-39
        4.4.6 重排序扩展词对检索性能的影响39-40
        4.4.7 查询扩展实验的参数选择40-41
    4.5 本章小结41-42
结论42-43
参考文献43-47
攻读硕士学位期间发表学术论文情况47-48
致谢48-49
        下载全文需49


本文地址:

上一篇:城市交通信号多目标自适应控制
下一篇:高校毕业生就业推荐系统的设计与开发

分享到: 分享基于社会化标注的查询扩展技术研究到腾讯微博           收藏
评论排行
公告