基于奇异值阈值理论的电力营销数据在线清洗方法
TM743; 能源互联网架构下,电力营销大数据是支撑智能电网众多高级应用的关键基础,数据清洗对于电力营销大数据更是极为重要.然而,数据缺失问题会不可避免地出现在实际电网运行环节中,严重影响数据的分析和使用.针对上述问题,文章以Spark大数据在线处理平台为基础,提出了融合相似用户聚类和奇异值阈值理论的在线数据清洗框架和方法.借助奇异值分解,证明了电力营销数据具有近似低秩特性.以此为基础,考虑电力用户的用电差异,提出了一种融合改进K最近邻算法和奇异值阈值理论的在线数据清洗框架和方法.同时,针对奇异值阈值模型计算缓慢问题,提出采用滑动时间窗在线修复策略,加快修复速度,提升修复精度.最后,通过河北省...
Saved in:
Published in | 电测与仪表 Vol. 61; no. 9; pp. 120 - 126 |
---|---|
Main Authors | , , , , , |
Format | Journal Article |
Language | Chinese |
Published |
国网河北省电力有限公司营销服务中心,石家庄 050021%国网河北省电力有限公司,石家庄 050021%西安交通大学智能网络与网络安全教育部重点实验室,西安 710049
15.09.2024
|
Subjects | |
Online Access | Get full text |
ISSN | 1001-1390 |
DOI | 10.19753/j.issn1001-1390.2024.09.016 |
Cover
Loading…
Summary: | TM743; 能源互联网架构下,电力营销大数据是支撑智能电网众多高级应用的关键基础,数据清洗对于电力营销大数据更是极为重要.然而,数据缺失问题会不可避免地出现在实际电网运行环节中,严重影响数据的分析和使用.针对上述问题,文章以Spark大数据在线处理平台为基础,提出了融合相似用户聚类和奇异值阈值理论的在线数据清洗框架和方法.借助奇异值分解,证明了电力营销数据具有近似低秩特性.以此为基础,考虑电力用户的用电差异,提出了一种融合改进K最近邻算法和奇异值阈值理论的在线数据清洗框架和方法.同时,针对奇异值阈值模型计算缓慢问题,提出采用滑动时间窗在线修复策略,加快修复速度,提升修复精度.最后,通过河北省某电力营销数据验证了所提算法的有效性,实验结果显示该在线修复算法能够更快速、高效地修复大规模电力营销缺省数据. |
---|---|
ISSN: | 1001-1390 |
DOI: | 10.19753/j.issn1001-1390.2024.09.016 |