Python金融数据挖掘与分析实战
上QQ阅读APP看书,第一时间看更新

4.3.3 回归分析算法的选择

回归算法根据自变量的个数分为一元回归和多元回归;按照影响是否线性分为线性回归和非线性回归。在选择回归分析算法时,注意参考以下因素:

·如果刚接触回归分析算法,可以从简单线性回归开始,应用基于最小二乘法的普通线性回归。此外,它也适合数据集本身结构简单、分布规律有明显线性关系的场景。

·如果自变量数量少或者经过降维后得到了可以使用的二维变量,可以通过散点图发现自变量和因变量的相互关系,然后选择合适的回归方法。

·如果通过判别方法发现自变量之间有共线性关系,可以选择消除共线性算法,例如岭回归。

·如果数据集中的噪声较多,使用主成分回归,通过主成分回归可以选择出合适的变量。

·如果数据集是高维度变量,则使用正则化回归方法,或者通过使用逐步回归从高维度变量中挑选出影响比较大的自变量来建立回归模型。

·如果要同时验证多个算法,从中选择一个合适的来做拟合,使用交叉检验做多个模型的效果对比,并通过R-square、Adjusted R2、AIC、BIC以及各种残差、误差项指标做综合评估。

·如果注重模型的可解释性,选择线性回归、指数回归、对数回归、二项或多项式回归等容易理解的方法。

·集成或组合回归方法。当无法取舍时,可以将多个回归模型做集成,即同时对多个模型的结果通过加权、均值等方式确定最终的输出结果。