基于社交媒体文本的灾情信息识别方法比较研究
X43; 挖掘社交媒体发布的信息,逐渐成为了一种获取所需数据的重要途径,数据挖掘采用的一种重要方法就是机器学习.基于此,本研究以4起自然灾害事件的相关微博文本数据集为实验语料开展实验,比较基于朴素贝叶斯、随机森林和多元逻辑回归算法建立的3种模型的主题识别效果.结果 表明,多元逻辑回归模型对相关微博灾情文本数据的主题识别效果相对较好,各精度评价指标值高达91%;从各主题的识别结果来看,主题类别为情感支持和提醒建议的文本被正确识别的3种评价指标值均达到了90%以上.还分析了导致模型错分主题的原因,包括内因(参数设置、数据集切分比例等)和外因(样本量、人工标注等).将该多元逻辑回归模型应用于社交媒体...
Saved in:
Published in | 自然灾害学报 Vol. 31; no. 1; pp. 179 - 187 |
---|---|
Main Authors | , , |
Format | Journal Article |
Language | Chinese |
Published |
资源环境与地理信息系统北京市重点实验室,北京100048
01.02.2022
首都师范大学资源环境与旅游学院,北京100048 |
Subjects | |
Online Access | Get full text |
ISSN | 1004-4574 |
DOI | 10.13577/j.jnd.2022.0117 |
Cover
Summary: | X43; 挖掘社交媒体发布的信息,逐渐成为了一种获取所需数据的重要途径,数据挖掘采用的一种重要方法就是机器学习.基于此,本研究以4起自然灾害事件的相关微博文本数据集为实验语料开展实验,比较基于朴素贝叶斯、随机森林和多元逻辑回归算法建立的3种模型的主题识别效果.结果 表明,多元逻辑回归模型对相关微博灾情文本数据的主题识别效果相对较好,各精度评价指标值高达91%;从各主题的识别结果来看,主题类别为情感支持和提醒建议的文本被正确识别的3种评价指标值均达到了90%以上.还分析了导致模型错分主题的原因,包括内因(参数设置、数据集切分比例等)和外因(样本量、人工标注等).将该多元逻辑回归模型应用于社交媒体灾情文本主题初步识别,可以为后续工作提供优化,进而为相关部门采取应急措施提供参考. |
---|---|
ISSN: | 1004-4574 |
DOI: | 10.13577/j.jnd.2022.0117 |