我院经济统计系唐晓彬教授在国内权威期刊《统计研究》上发表论文

    20217月,我院经济统计系唐晓彬教授在国内权威期刊《统计研究》上发表论文《大数据背景下 CPI 预测问题的文本 挖掘技术设计与应用》。


内容提要:本文创新地将半监督交互式关键词提取算法词频-逆向文件频率( Term FrequencyInverse Document Frequency, TF-IDF ) 与 基 于 Transformer 的 双 向 编 码 表 征 ( Bidirectional Encoder Representation from Transformers,BERT) 模型相结合,设计出一种扩展 CPI 预测种子关键词的文本挖掘 技术。 采用交互式 TF-IDF 算法,对原始 CPI 预测种子关键词汇广度上进行扩展,在此基础上通过 BERT “两段式”检索过滤模型深入挖掘文本信息并匹配关键词,实现 CPI 预测关键词深度上的扩展,从而构建 了 CPI 预测的关键词库。 在此基础上,本文进一步对文本挖掘技术特征扩展前后的关键词建立预测模 型进行对比分析。 研究表明,相比于传统的关键词提取算法,交互式 TF-IDF 算法不仅无需借助语料库, 而且还允许种子词的输入。 同时,BERT 模型通过迁移学习的方式对基础模型进行微调,学习特定领域 知识,在 CPI 预测问题中很好地实现了语言表征、语义拓展与人机交互。 相对于传统文本挖掘技术,本 文设计的文本挖掘技术具有较强的泛化表征能力,在 84 个 CPI 预测关键种子词的基础上,扩充后的关 键词对 CPI 具有更高的预测准确度和更充分的解释性。 本文针对 CPI 预测问题设计的文本挖掘技术, 也为建立其他宏观经济指标关键词词库提供新的研究思路与参考价值。