中文社交媒体用户性别预测研究——以新浪微博短文本内容为例
[目的/意义]与互联网的高速发展不同,个人信息安全保护的发展相对滞后,通过预测社交媒体用户的性别,能够更好地针对不同性别用户提供隐私保护.[方法/过程]以新浪微博这一社交媒体中用户发布的短文本为研究对象,从中抽取语言特征和主题特征,为每一个用户构建基于语言特征、主题特征以及两个特征叠加的特征表达向量,利用SVM机器学习算法构建性别预测的分类器.[结果/结论]实验表明,从微博短文本中抽取的语言特征和主题特征能够准确预测用户性别,其效果在主要评价指标中均有大幅提升....
Saved in:
Published in | 知识管理论坛 Vol. 6; no. 4; pp. 213 - 227 |
---|---|
Main Authors | , , |
Format | Journal Article |
Language | Chinese |
Published |
中国科学院文献情报中心
30.08.2021
|
Subjects | |
Online Access | Get full text |
ISSN | 2095-5472 2095-5472 |
Cover
Loading…
Summary: | [目的/意义]与互联网的高速发展不同,个人信息安全保护的发展相对滞后,通过预测社交媒体用户的性别,能够更好地针对不同性别用户提供隐私保护.[方法/过程]以新浪微博这一社交媒体中用户发布的短文本为研究对象,从中抽取语言特征和主题特征,为每一个用户构建基于语言特征、主题特征以及两个特征叠加的特征表达向量,利用SVM机器学习算法构建性别预测的分类器.[结果/结论]实验表明,从微博短文本中抽取的语言特征和主题特征能够准确预测用户性别,其效果在主要评价指标中均有大幅提升. |
---|---|
ISSN: | 2095-5472 2095-5472 |