话题 vs 结构:信息服务中代表性信息抽取的两个关键维度

来源:学科建设与科研办公室 发布时间:2018-03-13

在大数据时代,随着企业内外部信息量的激增,管理者越发需要一种有效的信息服务工具帮助其更及时、高效、充分地利用海量信息,在这其中代表性信息(Representative Information)抽取被证明是一种有效的应对海量信息的信息服务方式。代表性信息是从海量信息中抽取出来并能够反映原始信息全貌的信息子集,可供管理者快速掌握和分析大量信息,进而做出准确有效的管理决策。

对于企业管理者而言,海量信息多样繁杂,分析处理的难度很大,他们究竟需要什么样的代表性信息?在管理者的决策过程中,代表性信息需要反映原始信息的哪几方面重要特征?为此,中国人民大学商学院管理科学与工程系张瑾老师与其合作者在代表性信息抽取方面开展了近十年的研究探索,并针对上述问题进行了详细的阐述,其中一项研究成果已被国际顶级期刊《INFORMS Journal on Computing》(UT Dallas 24)接收并发表。

该项研究表明:在代表性信息的抽取过程中,对原始信息的话题覆盖和结构覆盖是两个重要的维度,管理者既需要通过代表性信息子集了解海量信息究竟谈论了哪些话题,更需要了解在不同话题上的分布比重。当这两方面维度全部通过代表性信息子集呈现给管理者时,他们会更好的利用代表性信息作出更有效的决策。

进一步,该项研究以信息搜索为背景构造了话题覆盖和结构覆盖测度,并提出了一种考虑话题覆盖和结构覆盖的代表性信息抽取方法,通过大量的真实数据实验和专家用户打分评估证明该方法相比于现有的信息提取方法更能够辅助管理者分析和处理海量信息。该项研究的成果在电子商务、口碑分析、以及移动端信息处理等方面有着广泛的应用价值。

 

研究原文:

Ma, B., Wei, Q., Chen, G., Zhang, J., & Guo, X. (2017). Content and Structure Coverage: Extracting a Diverse Information Subset. INFORMS Journal on Computing, 29(4), 660-675.

官方微信 中国人民大学商学院 86-10-82509171 rmbs@rmbs.ruc.edu.cn

©中国人民大学商学院 版权所有 京ICP备05066828号-1