
2.3 电能用户管理相关理论
2.3.1 影响因素分析方法
1.主成分分析法
主成分分析(Principal Component Analysis, PCA)法是一种影响分析常用统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
主成分分析法的原理是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,直至第P个主成分。
主成分分析法有以下优点:
1)可消除评价指标之间的相关影响。因为主成分分析法通过对原指标变量进行相应的数学变换之后,所构成的主成分之间是相互独立不相关的,并且通过实际的证明得到的各个指标之间的相关度越高,那么主成分分析法的使用效果也就越好。
2)可以大幅度地减少指标选择的工作量。比起其他的各种各样的评价方法,因为主成分分析法的主成分之间彼此不具有相关性,所以彼此之间不会有相互的影响,所以选择指标时相对容易,而其他评价方法彼此之间都具有相互的影响,因而在选择指标时会花费不少精力。
3)当评级指标较多时,还可以在保留绝大部分信息的情况下用少数几个综合指标代替原指标进行分析。主成分分析法中各主成分是按照方差大小顺序排序的,在问题分析中,能够删除一部分的主成分,只选择前后方差较大的多个主成分来表示原来的变量,因此降低了运算的工程量。
4)在综合评价的函数当中,每个主成分的权重是与之相对应的主成分的贡献率,它反映了其主成分含有原始数据的信息量占所有信息量的比例,这种确定权重系数的方法是比较合理且客观的,它改善了某一些评价方式中人为的计算权重系数的缺点。
5)主成分分析法的计算方法比较规范,可以轻松地在计算机上实现,还可以运用专业的软件。
运用主成分分析法过程中以下两点:
1)在主成分分析中,我们首先应保证提取的前几个主成分的累计贡献率达到个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提及的主成分必须都能够给出符合实际背景的意义的解释。
2)主成分解释的含义普遍多少会带有一点模糊性,不同于原始变量的含义那样清晰、确切,这是变量在降维的过程中不得不付出的代价。因此,计算得出的主成分数通常应该明显低于原始变量个数,否则维数降低效果不明显就没降维的优势。
2.因子分析法
因子分析法是将多变量数据进行简要处理的统计方法,其核心是降维,即对高维数据进行降维,是通过研究样本原始矩阵,发现变量内部的相关关系,从多个具有相关关系的变量中,把具有复杂关系的变量所提取出的成分作为几个公共因子的方法。该方法原理在于利用公共因子来描述原始数据的主要信息,从而解释其中的相关联系,同时,因子分析法在其应用中还可以给样本算出得分和相应的排名情况,从而有助于分析各个影响因素的影响程度。
因子分析法与主成分分析法类似,本质上是主成分分析法的推广,相比于主成分分析法,因子分析法更倾向于描述原始变量之间的相关关系。
本书的研究中,由于变量数适中,且都有标准取值,并且由于科学性的要求,最终选择因子分析法进行影响因素分析。
2.3.2 电力需求预测方法
1.时间序列分析法
时间序列分析法是对样本数据进行动态分析处理的一种统计方法,它依据对样本数据序列所表现出的某种随机过程的特性来建立模型,然后运用模型去对被解释变量进行预测。在电力需求预测中,时间序列分析法抓住电力负荷变动的惯性特征和时间上的延续性特点,通过对历史样本数据时间序列的分析处理来确定用电量的基本特征与变化规律,从而实现对它的预测。
时间序列预测法分为确定型预测法和随机型预测法两种。确定型预测法通常作为模型残差来对预测区间的大小进行估计;随机型预测法通常作为一个线性滤波器,时间序列可根据线性滤波器的特性划分为自回归、移动平均、自回归移动平均以及自回归移动平均等模型。
在时间序列分析中,常会发现两个变量存在一种长期稳定关系,这种长期稳定关系称为“协整关系”。传统的协整分析方法是通过对序列差分将其转化为平稳序列,得出其中的线性均衡关系,这种协整关系可称为线性协整,线性协整的建模理论是从实际的数据生成过程出发,在非平稳序列中寻找可能存在的长期线性均衡关系,以建立序列的结构模型,从而反映序列的运行机制。可用协整分析探讨电力消费与各因素间的长期均衡关系与因果关系。
由于本书主要是针对陕西省A电力公司用户进行用能情况预测,数据量大,采用面板数据计算的话计算量巨大,因此不予采用。
2.回归分析法
回归分析法是应用范围较为广泛的定量预测方法之一,它是指在许多样本观测数据的基础上,运用数理统计分析方法来建立因变量与自变量之间的回归关系从而进行预测。电力需求预测回归分析法是通过对国内生产总值、产业结构、人口及气象因素等解释变量与被解释变量——用电需求量的历史观测值进行相关回归分析,确定用电量需求与诸多解释变量之间的数量依存关系来实现预测。回归分析法包括一元线性、多元线性和非线性回归法。一元线性回归方程y=ax+b,以x为自变量,y为因变量;a为回归系数。多元线性回归方程为y=a0+a1x1+a2x2+…+anxn,其中x1,x2,x3,…,xn为自变量,y为因变量,a1,a2,a3,…,an为回归系数。非线性回归方程因变量与自变量不是线性关系,需要进行非线性回归分析。然而,非线性回归方程的求解一般较为复杂,通常采用对数变换、反比例变换以及泰勒级数展开等方法对变量进行置换,将非线性回归转化为线性回归,从而进行分析。
根据历史数据,选择最接近的曲线函数,然后用最小二乘法使其间的偏差之平方和为最小,求解出回归系数,并建立回归方程。回归方程求得以后,把待求的未来点代入方程,就可以得到预测值,此外还可测出置信区间。从理论上讲,任何回归方程的适用范围一般只限于原来观测数据的变化范围内,不允许外推,然而实际上总是将回归方程在适当范围内外推。根据实际计算的结果,选定的模型为以下六种:直线、抛物线、指数曲线、反指数曲线、一型双曲线、几何曲线。在计算处理中,程序将逐个利用上述的几种模型进行最小二乘拟合,直到找到拟合最好的模型。根据实际计算的情况,模型并非越多越好。有的模型虽对历史数据拟合得很好,但并不适宜用作预测,如高次多项式。用回归法预测负荷时,若取用过去若干年的历史资料正处于发展上涨快的时期,则预测未来越来越快,反之,若取用下降时,则预测未来越来越慢。同时应用回归分析方法必须预先人为给定回归线类型,若给定的回归线类型不合适将直接影响预测精度。
根据本书预期结果的要求,最终选择回归分析法进行预测分析。
2.3.3 数据挖掘相关理论
数据挖掘(Data Mining, DM)的定义与另一个常用的术语“数据库知识发现”(Knowledge Discovery in Databases, KDD,常简称为知识发现)密切相关。一种观点认为知识发现是从大规模数据中发现知识的整个过程,而数据挖掘只是这个过程的一个重要步骤;另一种观点则认为两者是等价的概念,均指发现知识的全过程。
1.数据挖掘定义
数据挖掘是一种决策支持过程,主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地对大量数据进行分析,做出归纳性的推理,从中挖掘出潜在的模式,为决策制定提供参考和支撑。
从技术角度看,数据挖掘是从大量的、不完整的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、但又是潜在有用的信息和知识的过程。
从商业的角度看,数据挖掘是一种崭新的商业处理技术。其主要特征是对商业数据库中的大量业务数据进行抽取转化分析和模式化处理,从中挖掘出辅助商业决策的关键知识,即从一个数据库中自动发现相关商业模式。
数据挖掘是目前非常活跃的研究领域,其研究涉及人工智能和数据库等多门学科,多学科的相互交融与相互促进使得数据挖掘这门学科得到了蓬勃的发展,并且很快有了许多成功的应用。
2.数据挖掘理论发展
1989年8月,在第11届国际人工智能联合会议(IJCAI)上首次提出KDD概念,KDD概念就是数据挖掘概念的前身。到了1995年,学术界和工业界共同成立了ACM的数据挖掘及知识发现专委会,并组织了国际数据挖掘与知识发现大会(ACM SIGKDD),ACM SIGKDD随后逐渐发展成为数据挖掘领域的顶级国际会议。
国外在数据挖掘研究上,比较注重底层的基础架构,美国加利福尼亚州伯克利大学的Canny等人创新性提出BID大数据处理框架,融合了硬件、软件以及用于支撑大规模数据挖掘的设计模式,直接将单台PC处理数据的速度提高了数十倍。对于上层算法设计,国外学者纷纷提出不同的数据挖掘及处理方法,以解决传统分布式计算和并行计算中存在的问题。美国康奈尔大学的Karthik Raman和Adith Swaminathan等人对基于大数据的复杂分析作了深入探讨,采用分解的方法将复杂任务拆解为各简单子任务从而进行处理。社交网络分析和信息网络分析方面,国外研究趋势比较偏重基础和理论。2013年,ACM SIGKDD的最佳学生论文针对有限内存空间的利用进行了研究,并对网络聚类系数作了详细的理论证明和分析。在信息传播和网络内容分析相结合方面,美国斯坦福大学的Jure Leskovec等人做出了重要贡献,综合来看,国际数据挖掘大会中,Jure Leskovec等人的文章在引用次数最高的范围之中。
目前国内数据挖掘方面的科研机构集中在一些科研单位和高校,主要有北京大学数据挖掘卓越中心、厦门数据挖掘中心、复旦大学数据挖掘实验室、中国科大博纳数据挖掘中心等。在分类学习方面,中科院的张鹏等人提出了一种新颖的Ensemble-tree(E-tree)方法,利用类似R-tree的高度平衡的结构将流数据分类中集成学习的复杂度由线性降低到次线性。在无监督的聚类和话题学习方面,浙江大学的蔡登等人对非监督学习中特征选择的问题进行了研究,提出了一个高效的聚类方法Multi-Cluster Feature Selection。对于从海量数据中挖掘出潜在规则和模式的问题,清华大学的王建勇研究了不确定性数据上判别模式的挖掘问题,提出了uHARMONY算法,直接从数据库中找出判别模式,无需进行耗时的特征选择,相比经典不确定分类算法在性能上提升了4%~10%。
目前国内外数据挖掘的研究仍然处于发展阶段,今后的发展方向预计主要有以下几个方向:
1)研究开发出一门专门描述数据挖掘的语言,例如SQL语言一样,形成形式化和标准化描述语言,促进数据挖掘更好的发展。
2)注重数据挖掘过程中可视化的研究,使得整个数据挖掘过程能够更好地被用户所接受,并且利于与用户的交互。
3)随着互联网的发展,互联网数据的高速增长,针对互联网的数据挖掘正成为一种新的发展方向。
4)如何更好地适应对非数据机构类型数据的开采,如图像视频数据等多媒体数据的开釆。
3.数据挖掘功能与分类
数据挖掘是一门综合性的学科,它结合了其他基础学科的一些重要理论,主要有以下功能。
1)分类。针对记录的特征和属性的差别,将数据中的记录分为不同的类别,并将不同的事物使用不同的类的标号来描述。
2)关联规则和序列模式发现。关联规则就是伴随一个事件发生,其他事件也可能发生的可能,那么这两个事件是存在关联的。序列模式发现是基于给定数据序列和最小支持度阈值,找出支持度大于或等于最小支持度阈值的所有序列。
3)聚类分析。抽取出数据内在的规律,并且按照这些规律将数据分类。
4)预测,根据对事物的分析,抽取出事物的规则,根据此规则对事物的性质做出预测。
5)偏差预测。对分析对象的少数的、极端的特例进行描述和分析,揭示内在的原因,并对数据预测值与实际值之间的差异做出预测。
数据挖掘的这些功能都是相互联系、相互影响的,在数据挖掘过程中彼此协作,共同发挥作用。
根据数据对象类型不同来划分数据源,可分为对象数据库、关系型数据库、空间数据库、文本数据库、多媒体数据库、异质数据库以及数据库。
数据挖掘也包含了不同学科的知识理论,例如数理统计、人工智能、数据仓库方法以及神经网络遗传算法。
数据挖掘功能用于指定数据挖掘任务发现的模式类型。模式的定义是对数据集的一种抽象的描述。数据挖掘中的模式主要分为两种,包括预测型模式和描述型模式。预测型模式就是以当前的数据集为基础,对未知数据的值进行预测。典型的预测型模式有分量模式和序列模式等。描述型模式是不能直接用于预测的,它主要对已有的数据集中所挖掘出的规则和模式给出一种具体的描述以及将相似的数据分为同一组。描述型模式主要有聚类模式和关联模式等。
模式的发现可以分为以下类别:
1)关联模式。关联模式是一种逻辑蕴含式(X→Y),X以及Y均是数据的属性取值的判定。
2)序列模式。序列模式是关联模式的扩展,这里不仅是表示数据间的关系,序列模式也要分析把数据间的关系同时间联系起来。由此可知,要想发现数据中的序列模式,不仅需要对事件发生的可能性进行判断,也要知道该事件发生的时间。
3)分类模式。分类模式就是从训练数据集上学习分类函数或建立分类模型,这个函数或模型可以将训练数据集中的数据和给定类中的数据进行映射,然后根据此模式对未知数据集进行分类。
4)聚类模式。聚类模式就是根据数据间不同和相似的特性,将数据分成不同的类别。
5)回归模式。回归模式整体的定义同分类模式类似,区别在于分类模式处理离散数据,而回归模式处理连续型数据。
6)偏差分析。偏差分析是针对异类数据进行检测分析,从而探测数据现状、历史记录或标准之间的显著变化和偏离程度,这个结果对于数据预测准确度的评价具有重要意义。