智汇团建网站登录平台,wordpress获取父级id,wordpress注册失败,怎么做网站的思维导图基于LightGBM和BP神经网络的互联网招聘需求分析与预测
整体求解过程概述(摘要) 就业是民生之本#xff0c;是发展之基#xff0c;也是安国之策。2020 年新冠肺炎疫情的爆发#xff0c;稳就业成为应对疫情、稳定社会的重要保障之一。随着数据新动能的发展#xff0c;互联网…基于LightGBM和BP神经网络的互联网招聘需求分析与预测
整体求解过程概述(摘要) 就业是民生之本是发展之基也是安国之策。2020 年新冠肺炎疫情的爆发稳就业成为应对疫情、稳定社会的重要保障之一。随着数据新动能的发展互联网招聘为招聘者和应聘者提供不限于时空的全局视角因此本文从该角度出发对招聘者和应聘者需求进行统计分析预测以期缓解就业难、招聘难的困境。 本文基于近年来各在线招聘网站所发布的招聘数据并结合数据新动能下转型升级的三个金融行业、互联网行业、生产制造行业采用 Pearson 相关系数检验初步筛选后运用灰色关联分析进一步进行指标筛选最后对企业招聘中招聘者关注的浏览量运用 LightGBM 模型进行浏览量特征重要性分析对就业形势中应聘者关注的薪资运用 BP 神经网络预测模型对于薪资进行预测并进行模型精度对比得出数据新动能下三个行业的薪资统计分析预测。 经研究得出关于企业招聘浏览量金融行业薪资水平互联网行业薪资水平生产制造行业薪资水平的影响因素及重要程度。基于以上分析结论本文在互联网招聘市场中对招聘者与应聘者需求提出以下对策建议第一对于企业招聘者应根据岗位浏览量合理设置招聘要求第二对于金融行业应聘者应根据学历因素合理考虑就业地域第三对于互联网行业应聘者应根据学历因素合理考虑公司性质第四对于生产制造行业应聘者应根据公司所在地合理考虑公司性质。
问题分析 基于当代数字经济大环境背景面对当前互联网市场应聘者和招聘者需求不对称的现状本文运用近年来各在线招聘网站所发布的招聘数据并结合数据新动能下转型升级的三个金融行业、互联网行业、生产制造行业采用 Pearson 相关系数分析初步筛选后运用灰色关联分析进一步进行维度筛选最后对企业招聘中招聘者关注的浏览量运用 LightGBM 模型进行特征重要性分析对就业形势中应聘者关注的薪资运用 BP 神经网络预测模型对于薪资进行预测并进行模型检验与修正得出新动能下三个行业的薪资和浏览量的分析与预测。
指标的选取与数据的处理 一数据来源 本文数据通过对某数据平台的数据进行爬取总共得到 1007894 条数据。数据预处理以 excel 为主Python、R 为辅完成原始数据去重区空以及数值转换等数据预处理工作之后进行分层随机抽样得到剩下 40000 条数据进行统计分析。对于异常值的处理学历、职位、行业等因素使用删除异常值方法处理经验年数、工资上下限因素使用计算平均值方法进行处理。分层抽样法也叫类型抽样法。将总体单位按其属性特征分成若干类型或层然后在类型或层中随机抽取样本单位。分层抽样法的特点是通过划类分层增大了各类分层抽样中单位间的共同性容易抽出具有代表性的调查样本。该方法适用于总体情况复杂各单位之间差异较大单位较多的情况。分层随机抽样的程序是把总体各单位分成两个或两个以上的相互独立且各具特点的完全的组再从两个或两个以上的组中分别进行随机抽样。分组的标志或特点与所关心的总体特征相关。“所学非所用”不利于充分发挥人力资本的潜在价值郭睿2019本文以学历作为属性特征进行分层将不同学历分出不同层按各学历占总数据的比例在每一层中随机抽样得出 40000 条数据。 并通过划分行业来分别选取每个行业中的指标进行分析预测金融行业的发展是一个国家经济发展的重要支撑高景文2019互联网行业则为数字化时代背景下一个重要的行业支撑周蕴慧2021生产制造行业的转型升级也是当今时代面临的重大课题江小涓2020这三个行业都对数据新动能背景下招聘与就业需求不对称的统计分析研究具有一定意义因此本文选取这三种行业进行统计分析预测。 而对于大多数互联网应聘者而言薪资是众多被考虑因素中的重中之重是其劳动回报的直接体现Kristin L 2018对于企业而言应聘者的薪资与其经营的利润以及成本是直接相关的关系。因此选取三个行业薪资平均值与其他指标进行分析。 二指标选取 1. Pearson 相关系数检验 Pearson 相关系数是用协方差除以两个变量的标准差得到的虽然协方差能反映两个随机变量的相关程度协方差大于 0 的时候表示两者正相关小于 0 的时候表示两者负相关但是协方差值的大小并不能很好地度量两个随机变量的关联程度对于标准化后的数据求欧氏距离平方并经过简单的线性变化也就是Pearson 系数我们一般用欧式距离来衡量向量的相似度但欧式距离无法考虑不同变量间取值的差异。加之Pearson 相关系数适用于高维度检验而未经升级的欧式距离以及 cosine 相似度对变量的取值范围是敏感的在使用前需要进行适当的处理。因此在对变量间进行相关性检验时本文优先采用 Pearson 相关系数检验去研究经验学历公司所在地公司性质职位分别和薪资平均值之间的相关关系使用 Pearson 相关系数去表示相关关系的强弱情况。具体分析可知 ①金融行业经验、学历、职位、公司所在地呈现显著性 ②互联网行业经验、学历、职位、公司所在地、公司性质呈现显著性 ③生产制造行业经验、学历、公司所在地、公司性质呈现显著性 2. 灰色关联分析 基于 Pearson 相关系数检验得出的结果本文进一步对具有显著性的各个特征值进行选取。运用灰色关联分析对于研究指标进行进一步选取研究各因素对薪资的影响大小关系得出结果如下 ①金融行业公司所在地、职位 从上表可以看出针对本次 4 个评价项公司所在地的综合评价最高关联度为0.989其次是职位关联度为0.670。 ②互联网行业学历、公司性质 从上表可以看出针对本次 5 个评价项学历的综合评价最高关联度为0.928其次是公司性质关联度为0.909。 ③生产制造行业公司所在地、公司性质 从上表可以看出针对本次 4 个评价项公司所在地的综合评价最高关联度为0.959其次是公司性质关联度为0.953
模型的建立与求解整体论文缩略图 全部论文请见下方“ 只会建模 QQ名片” 点击QQ名片即可
程序代码(代码和文档not free)
%% 网络测试
ansim(net,inputn_test); %用训练好的模型进行仿真
test_simumapminmax(reverse,an,outputps); % 预测结果反归一化
errortest_simu-output_test; %预测值和真实值的误差
%%真实值与预测值误差比较
figure
plot(output_test,bo-,linewidth,1.2)
hold on
plot(test_simu,r*-,linewidth,1.2)
legend(期望值,预测值)
xlabel(测试样本编号),ylabel(指标值)
title(BP 测试集预测值和期望值的对比)
set(gca,fontsize,12)
igure
plot(error,ro-,linewidth,1.2)
xlabel(测试样本编号),ylabel(预测偏差)
title(BP 神经网络测试集的预测误差)
set(gca,fontsize,12)
%计算误差
[~,len]size(output_test);
SSE1sum(error.^2);
MAE1sum(abs(error))/len;
MSE1error*error/len;
RMSE1MSE1^(1/2);
MAPE1mean(abs(error./output_test));
rcorrcoef(output_test,test_simu); %corrcoef 计算相关系数矩阵包括自相关和
互相关系数
R1r(1,2); %% 初始化
clear
close all
clc
format short
%% 读取读取
dataxlsread(数据总.xlsx,Sheet1,A1:F18528); %%使用 xlsread 函数读取 EXCEL
中对应范围的数据即可
%输入输出数据
inputdata(:,1:end-1); %data 的第一列-倒数第二列为特征指标
outputdata(:,end); %data 的最后面一列为输出的指标值
Nlength(output); %全部样本数目
testNum50; %设定测试样本数目
trainNumN-testNum; %计算训练样本数目
%% 划分训练集、测试集
input_train input(1:trainNum,:);
output_train output(1:trainNum);
input_test input(trainNum1:trainNumtestNum,:);
output_test output(trainNum1:trainNumtestNum);
%% 数据归一化
[inputn,inputps]mapminmax(input_train,0,1);
[outputn,outputps]mapminmax(output_train);
inputn_testmapminmax(apply,input_test,inputps);
%% 获取输入层节点、输出层节点个数
inputnumsize(input,2);
outputnumsize(output,2);
disp(/)
disp(神经网络结构...)
disp([输入层的节点数为,num2str(inputnum)])
disp([输出层的节点数为,num2str(outputnum)])
disp( )
disp(隐含层节点的确定过程...)
%确定隐含层节点个数
%采用经验公式 hiddennumsqrt(mn)am 为输入层节点个数n 为输出层节点
个数a 一般取为 1-10 之间的整数
MSE1e5; %初始化最小误差
transform_func{tansig,purelin}; %激活函数
train_functrainlm; %训练算法
for
hiddennumfix(sqrt(inputnumoutputnum))1:fix(sqrt(inputnumoutputnum))10
%构建网络
netnewff(inputn,outputn,hiddennum,transform_func,train_func);
% 网络参数
net.trainParam.epochs1000; % 训练次数
net.trainParam.lr0.01; % 学习速率
net.trainParam.goal0.000001; % 训练目标最小误差
% 网络训练
nettrain(net,inputn,outputn);
an0sim(net,inputn); %仿真结果
mse0mse(outputn,an0); %仿真的均方误差
disp([ 隐含层节点数为 ,num2str(hiddennum), 时训练集的均方误差为
,num2str(mse0)])
%更新最佳的隐含层节点
if mse0MSE
MSEmse0;
hiddennum_besthiddennum;
end
end
disp([最佳的隐含层节点数为,num2str(hiddennum_best),相应的均方误差为
,num2str(MSE)])
%% 构建最佳隐含层节点的 BP 神经网络
netnewff(inputn,outputn,hiddennum_best,transform_func,train_func);
% 网络参数
net.trainParam.epochs1000; % 训练次数
net.trainParam.lr0.01; % 学习速率
net.trainParam.goal0.000001; % 训练目标最小误差
%% 网络训练
nettrain(net,inputn,outputn);
%% 网络测试
ansim(net,inputn_test); %用训练好的模型进行仿真
test_simumapminmax(reverse,an,outputps); % 预测结果反归一化
errortest_simu-output_test; %预测值和真实值的误差
%%真实值与预测值误差比较
figure
plot(output_test,bo-,linewidth,1.2)
hold on
plot(test_simu,r*-,linewidth,1.2)
legend(期望值,预测值)
xlabel(测试样本编号),ylabel(指标值)
title(BP 测试集预测值和期望值的对比)
set(gca,fontsize,12)
figure
plot(error,ro-,linewidth,1.2)
xlabel(测试样本编号),ylabel(预测偏差)
title(BP 神经网络测试集的预测误差)
set(gca,fontsize,12)
%计算误差
[~,len]size(output_test);
SSE1sum(error.^2);
MAE1sum(abs(error))/len;
MSE1error*error/len;
RMSE1MSE1^(1/2);
MAPE1mean(abs(error./output_test));
rcorrcoef(output_test,test_simu); %corrcoef 计算相关系数矩阵包括自相关和
互相关系数
R1r(1,2);
disp( )
disp(/)
disp(预测误差分析...)
disp([误差平方和 SSE 为 ,num2str(SSE1)])
disp([平均绝对误差 MAE 为 ,num2str(MAE1)])
disp([均方误差 MSE 为 ,num2str(MSE1)])
disp([均方根误差 RMSE 为 ,num2str(RMSE1)])
disp([平均百分比误差 MAPE 为 ,num2str(MAPE1*100),%])
disp([相关系数 R 为 ,num2str(R1)])
%打印结果
disp( )
disp(/)
disp(打印测试集预测结果...)
disp([ 编号 实际值 预测值 误差])
for i1:len
disp([i,output_test(i),test_simu(i),error(i)])
end全部论文请见下方“ 只会建模 QQ名片” 点击QQ名片即可