1. 思路
通过分析原数据可知样本不确定,即满足该原数据的样本有很多种,通过随机排列获得一份随机样本数据,对该随机样本数据进行分析。本文主要采用logistic回归算法预测商品消费特点和趋势,获得最终预测方程,并对商品购买因素进一步分析。
2. 问题分析
2.1 问题重述
为研究和预测某商品消费特点和趋势,收集了以往的消费数据,其中自变量为所处地区、年龄、教育程度、职业类型、家庭成员数、家庭月收入,因变量为消费频率。
- 问题1:建立客户购买的预测模型,根据样本对不同自变量判断其消费频率。
- 问题2:分析影响消费行为的因素。
2.2 问题分析
- 问题1: 建立客户购买的预测模型,首先要要对客户购买的样本进行分析。由于题目中仅给出了受访者个人信息情况,没有给出具体的样本,所以通过随机排列方式生成样本,并对随机排列样本进行分析。采用
logistic回归模型
进行预测,通过SPSS软件
进行分析得到logistic关系式。 - 问题2: 根据问题1中得到的关系式进一步分析,拟合参数即为每一个
解释变量
的权重,从而得到商品购买的主要因素。
2.3 研究过程
3. 符号定义
表1-符号定义
符号 | 定义 |
---|---|
$\theta(i)$ | p1相对p0的参数 |
$\beta(i)$ | p2相对p0的参数 |
$\alpha(i)$ | p3相对p0的参数 |
$data$ | 各个解释变量的总数 |
$S$ | 随机排列样本 |
4. 合理假设
(1) 假设样本数量足够多,被采访者情况可以代表整体情况;
(2) 假设被采访者所有信息均正确;
(3) 假设所有满足题目中所占比例的样本均为符合条件的样本。
5. 模型建立
5.1 Logistic回归模型
5.1.1 Logistic回归模型介绍
logistic回归分析,是一种广义的线性回归分析模型,自变量既可以是连续的,也可以是分类的。通过logistic回归分析,可以得到自变量的权重,进而得到因变量的概率函数。
5.1.2 样本数据
在logistic回归中,需要有确定的样本数据,并且数据为量化值。通过SPSS多元Logistic分析对样本数据进行回归分析,得到拟合参数值,并进行显著性检验。
6. 模型求解
6.1 问题1求解
6.1.1 数据预处理
对受访者进行分析,获得受访者在各个自变量下的占比。
由图2到图7可知,受访者分布广泛,涵盖各个自变量的大部分情况,具有广泛性,可以基于398名受访者的信息进一步分析,预测出各个自变量对乳制品的消费频率。
由于题目中仅给出了398名受访者的个人信息,并没有给出具体的组合,而样本具体组合有很多种,所以采取随机排列的方式生成随机样本数据,见附件sample.xls。然后基于随机样本数据预测该商品的消费特点和趋势。
6.1.2 建立logistic回归模型
易知共有6个自变量,分别记为$x_1-x_6$,建立多分类logistic关系式,logistic回归模型定义如下所示
$logit(p)=ln(\frac{p}q)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4+\theta_5x_5+\theta_6x_6$
取基本不买为参考类别,则偶尔买、经常买、每天都买的logistic关系式如下所示
$ln(\frac{p1}{p0})=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4+\theta_5x_5+\theta_6x_6$
$ln(\frac{p2}{p0})=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\beta_5x_5+\beta_6x_6$
$ln(\frac{p3}{p0})=\alpha_0+\alpha_1x_1+\alpha_2x_2+\alpha_3x_3+\alpha_4x_4+\alpha_5x_5+\alpha_6x_6$
设每一解释变量的n个值从上到下分别为0, 1, 2,…n,即每一解释变量的值如表2所示。
表2-解释变量对应的值
解释变量 | 值 | 解释变量 | 值 |
---|---|---|---|
地区:农村 | 0 | 年龄: 20-30 | 0 |
地区:城市 | 1 | 年龄:31-40 | 1 |
收入:3000以下 | 0 | 年龄:41-50 | 2 |
收入:3001-5000 | 1 | 年龄:51以上 | 3 |
收入:5001-8000 | 2 | 教育:小学以下 | 0 |
收入:8001-10000 | 3 | 教育:初中 | 1 |
收入:10000以上 | 4 | 教育:高中 | 2 |
职业:公司职员 | 0 | 教育:大学以上 | 3 |
职业:事业单位 | 1 | 家庭:两口之家 | 0 |
职业:公务员 | 2 | 家庭:三口之家 | 1 |
职业:农民 | 3 | 家庭:四口之家 | 2 |
职业:其他 | 4 | 家庭:五口之家 | 3 |
则表2对应的值为logistic关系式中的x的值。对样本数据通过SPSS多元logistic回归分析,拟合参数值。
SPSS分析显著性检验,模型拟合效果如图8所示。P值为0.025,小于0.05,说明拒绝原假设,构建的模型有意义,可以根据此模型对商品购买特点和趋势进行预测分析。
SPSS多元logistic回归结果如图9所示。
所以logistic关系式为如下所示。
$ln(\frac{p1}{p0})=-0.269+0.542x_1-0.025x_2+0.435x_3+0.350x_4+0.089x_5-0.191x_6$
$ln(\frac{p2}{p0})=0.470+0.272x_1-0.078x_2+0.452x_3+0.117x_4-0.139x_5-0.082x_6$
$ln(\frac{p3}{p0})=-1.759-0.210x_1+0.393x_2+0.421x_3+0.172x_5+0.130x_5-0.274x_6$
得到概率函数如下所示。
$p0=\frac{1}{1+e^{t_1}+e^{t_2}+e^{t_3}}$
$p1=\frac{e^{t_1}}{1+e^{t_1}+e^{t_2}+e^{t_3}}=\frac{1}{1+e^{-t_1}+e^{t_2-t_1}+e^{t_3-t_1}}$
$p2=\frac{e^{t_2}}{1+e^{t_1}+e^{t_2}+e^{t_3}}=\frac{1}{1+e^{-t_2}+e^{t_1-t_2}+e^{t_3-t_2}}$
$p3=\frac{e^{t_3}}{1+e^{t_1}+e^{t_2}+e^{t_3}}=\frac{1}{1+e^{-t_3}+e^{t_1-t_3}+e^{t_2-t_3}}$
$t_1=-0.269+0.542x_1-0.025x_2+0.435x_3+0.350x_4+0.089x_5-0.191x_6$
$t_2=0.470+0.272x_1-0.078x_2+0.452x_3+0.117x_4-0.139x_5-0.082x_6$
$t_3=-1.759-0.210x_1+0.393x_2+0.421x_3+0.172x_5+0.130x_5-0.274x_6$
6.2 问题2求解
由式上式可知,所在地区、年龄和受教育程度对该商品的消费频率影响较大,农村人购买较少,而城市人口购买较多,受教育程度越高购买越多,年龄越高每天都买的概率越大。家庭月收入对该商品的消费频率影响较小。相对基本不买来说,在偶尔买概率中,所在地区的参数最大,影响最大;在经常买概率中,受教育程度的参数最大,影响最大;在每天都买概率中,受教育程度的参数最大,影响最大。
在该随机样本下,影响消费行为的主要因素包括所在地区、年龄情况、受教育程度。该乳制品主要面向城市地区受教育程度较高的年龄较大者。
7. 模型分析与检验
7.1 可行性分析
(1)该问题为多分类问题,可以通过logistic回归分析求解预测,并且显著性检验通过,具有可行性。
(2)通过logistic关系式对客户购买因素进行分析,可以较好的体现商品消费特点。
7.2 模型精度
由于题目中数据具有较高的不确定性,本文通过随机排列得到一种样本数据进行分析,并不能较好的体现整体水平,但是对样本数据的回归分析具有较高的精确度。
7.3 误差分析和模型改进
(1) 部分拟合参数的显著性较低,具有较高的误差,需要通过多方面的显著性检验和调节置信区间。
(2) 样本数据只有398组,数据量较小,不能准确的分析出商品消费特点和趋势。可以通过扩大样本容量、提高样本广度减小误差。
(3) 可以对所有数据的平均水平进行分析检验,使用Loss函数和优化模型进一步提高模型的准度和广度。
参考文献
[1]樊雯婧,楼冬洁,卢新,鲜于舒铭.基于决策树法和Logistic回归预测神经外科老年住院患者医院感染风险的研究[J].中华医院感染学杂志,2020,30(06):878-883.
[2]李倩,刘芸宏,吴晓慧,孙淑玲,肖茹,高翠平,王书会.基于决策树和Logistic回归预测出血性脑卒中手术后医院感染风险[J].中华医院感染学杂志,2021,31(23):3556-3561.
[3]郭文锋,樊超,郭新东.基于二元逻辑回归模型的MOOC退课预测[J].计算机时代,2017(12):50-53.DOI:10.16644/j.cnki.cn33-1094/tp.2017.12.014.