当前位置：首页 > news >正文

常州网络推广网站科技小论文怎么写

news 2025/12/13 3:25:34

常州网络推广网站,科技小论文怎么写,百度知道一下首页,抖音代运营服务达不到退费标准目录摘要 1 任务背景与重述 1.1 任务背景 1.2 任务重述 2 任务分析 3 数据假设 4 任务求解 4.1 任务一#xff1a;数据预处理 4.1.1 数据清洗 4.1.2 数据集成 4.1.3 数据变换 4.2 任务二#xff1a;对用户城市分布情况与分布情况可视化分析 4.2.1 城市分布情况可视化分析 4… 目录摘要 1 任务背景与重述 1.1 任务背景 1.2 任务重述 2 任务分析 3 数据假设 4 任务求解 4.1 任务一数据预处理 4.1.1 数据清洗 4.1.2 数据集成 4.1.3 数据变换 4.2 任务二对用户城市分布情况与分布情况可视化分析 4.2.1 城市分布情况可视化分析 4.2.2 登录情况可视化分析 4.3 任务三建立随机森林分类模型进行预测 4.3.1 符号说明 4.3.2 模型准备 4.3.3 预测模型的选择 4.3.4 随机森林分类模型 4.3.5 特征重要性分析 4.3.6 预测实验 4.3.7 模型评价 4.4 任务四用户消费行为价值分析与建议 4.4.1 用户行为分析 4.4.2 用户行为转化分析 4.4.3 用户价值分析——RFM 4.4.4 给企业的建议参考文献代码实现数据预处理部分代码展示摘要随着线上教育平台的兴起如何判别高价值用户并优化成本已然成为平台的重要工作。本文依据题目所给数据研究某儿童线上教育平台的用户消费行为将用户关键信息进行可视化建立数据预测模型并最终为企业提出合理建议。针对任务一本文首先对数据进行清洗处理掉重复值、缺失值、无效值与异常值例如针对用户信息表删除重复用户 id 数据 19265 条删除城市信息缺失数据 24089 条删除城市信息异常数据 399 条。随后为了方便数据查找与集中处理将后续任务需用到的数据进行集成处理。最后为了将数据转变为更适合数据挖掘的形式对数据采用零 - 均值规范化 z-score 标准化便于后续数据模型的建立。针对任务二需要从用户城市分布与用户登录情况进行数据可视化分析。分析用户城市分布是为了得到该 APP 的用户核心分布区故从城市位置分布与用户数量分布两方面入手。首先将预处理好后的城市信息导入地图发现用户城市分布较为广泛城市密度东密西疏对城市位置进行聚类分析得出城市集中分布的五大区域随后对用户数量分布进行分析发现该 APP 用户大部分集中在成渝、华北 - 北京、珠三角以及长三角综合得出该四大区域为用户核心分布区。对于用户登录情况本文从用户活跃度与用户流失两方面进行分析利用玫瑰图、面积图等得出该 APP 存在活跃用户数偏低营销转化不足等问题。针对任务三需要以用户是否会购买下单为目标建立数据模型。购买预测问题本质上是二分类问题因此本文将下单用户标记为 1 未下单标记为 0 。从中随机选取 75% 的数据作为训练集并对剩余数据进行预测与结果比对。在预测模型的选择上本文分别比较了随机森林分类、逻辑回归与决策树分类三种模型的预测结果从中选取了准确率最高的随机森林分类作为最终模型计算特征权重进行预测实验。最后根据混淆矩阵表明该模型训练良好且准确率达到 98.3% 。针对任务四需要从用户消费行为与用户价值两个方面进行分析并对企业给出建议。本文首先将用户消费行为分为访问、关注领券和开课购买三个部分并分别统计出行为量。随后将这三个行为放到空间、年龄和设备这个三个维度下分析其中的关系得出四大核心区用户挖掘度不够产品对 9.2969 设备用户购买决策影响甚微等结论。接着本文将用户行为转化绘制成漏斗图进一步探究行为间转化关系。针对用户价值本文采用调整后的 RFM 模型对用户进行价值分类得到重要价值用户仅占到用户总体的 4.55% 最后结合用户不同的价值类型从 4P 角度为该企业提出了针对性建议。本文借助了高德地图与 MPai 数据科学平台进行数据分析与建模提高了结果正确性与模型准确性。关键词购买预测随机森林分类消费者行为 RFM 模型 1 任务背景与重述 1.1 任务背景大数据时代之下各个领域的公司都在拓展互联网业务为公司产品引入新鲜活跃的用户激发用户对产品的购买欲望提升公司品牌的影响力。对儿童教育行业而言传统教育模式一定程度上已经无法满足当下市场需求线上教育的影响越来越显著。用户下载相应的儿童教育软件进行注册领取体验课下单购买课程进行学习完成课后测试并订正这便是一个完整的线上教育流程。这种方式一定程度上缓解了教育资源不平衡的现状然而线上教育的弊端也十分明显对企业而言课程质量能否吸引家长孩子如何判别高质量用户如何优化营销制定特色产品运营方案等都是十分值得思考的问题。因此利用数据分析方法结合消费者行为学通过对用户学习情况、产品使用情况、登录情况以及城市分布情况等为企业进行用户分析判断用户价值并对其制定针对性营销策略提升用户粘性减少用户流失率为企业带来利润便是线上儿童教育企业需要着手扬长避短的地方。 1.2 任务重述需要对给定数据进行预处理以提高数据质量并对其进行基于用户各城市分布情况、登录情况的可视化分析。同时根据数据构建模型判断用户最终是否会下单购买。随后需要通过用户消费行为价值分析给企业提出合理的建议。 2 任务分析任务一要求获取数据并进行预处理提高数据质量。需要在观察数据集字段构成之后进行数据清洗、数据集成与数据规范化等操作。任务二要求对用户的各城市分布情况、登录情况进行分析并分别将结果进行多种形式的可视化展现。这需要对用户城市分布与用户数量分布分别分析由此得到该 APP 的用户核心分布区其次还需要根据登录情况分析用户活跃度与用户流失情况。任务三要求构建模型判断用户最终是否会下单购买或下单购买的概率。需要首先划分训练集与测试集分析并选择合适的特征利用训练集建立合适的模型以预测测试集并与测试集原始数据进行对比得到模型效果的评估。任务四要求通过用户消费行为价值分析给企业提出合理的建议。需要分别对用户行为与用户价值进行分析并结合之前的分析结论为企业提出合理的建议实现小本促销提升企业高价值用户占比。全过程如图1所示 3 数据假设 1) 所给数据真实可靠 2) 每个用户 ID 是唯一的且每个用户仅一个对应 ID 3) 随着样本容量无限增加解释变量的样本方差趋于一个有限的常数 4) 解释变量 X 是确定性变量不是随机变量而且在重复抽样中取固定值 5) 随机干扰项尽可能服从零均值同方差零协方差的正态分布满足无序列相关性 4 任务求解 4.1 任务一数据预处理对附件四个表中数据进行观察初步得到如下结果 • 用户信息表共有 8 个字段 user_id 、 first_order_time 、 first_order_price 、 age_month 、 city_num 、 platform_num 、 model_num 、 app_num 分别表示为用户 id 、体验课下单时间、体验课价格、年龄、城市、设备、手机型号和 APP 激活。样本量为 135968 其中体验课下单时间的数据类型为长日期城市数据类型为文本 APP 激活为逻辑数据整型表达设备与手机型号是其余均为整型数据。 • 用户登录情况表共有 16 个字段 user_id 、 login_day 、 login_diff_time 、 distance_day 、 login_time 、 launch_time 、 chinese_subscribe_num 、 math_subscribe_num 、 add_- friend 、 add_group 、 camp_num 、 learn_num 、 finish_num 、 study_num 、 coupon 、 course_or-der_num 分别表示为用户 id 、登录天数、登录间隔、最后登录距期末天数、登录时长、再次访问落地页数隔天、关注公众号 1 、关注公众号 2 、添加销售好友、进群、开课数、学习课节数、完成课节数、课程重复学习、领券数量和有年课未完成订单。样本量为 135617 所有字段均为整形数据。 • 用户登录情况表共有 26 个字段 user_id 、 main_home 、 main_home2 、 main Page 、 schoolReportPage 、 main_mime 、 lightCourseTab 、 main_learnPark 、 part nerGameBarriersPage 、 evaulationCenter 、 coupon_visit 、 click_buy 、 progress_bar 、 ppt 、 task 、 video_play 、 video-_Read 、 Next_nize 、 Answer_task 、 Chapter_module 、 course_tab 、 slide_subscribe 、 baby_info 、 c-lick_notUnlocked 、 share 、 click_dialog 分别表示为用户 id 、首页访问数、首页访问数、课程计划访问数、课程访问数共计 26 个字段分别表示用户 id 、首页访问数、首页访问数、课程计划访问数、课程访问数、我的访问数、轻课访问数、学习乐园访问数、小屋首页访问数、测评中心访问数、是否领券访问数、购买按钮点击访问数、拖动进度条访问数、 ppt 下一步访问数、任务结束页访问数、视频跟读访问数、界面继续访问数、识字访问数、答案解析访问数、点击模块访问数、今日课程访问数、上课页访问数、宝宝访问数、课程未购买弹窗访问数、点击分享访问数和首页广告弹窗点击访问数。样本量为 135617 与用户登录情况表一相同均为整形数据。 • 用户下单表共有 2 个字段 user_id 和 result 分别表示为用户 id 和是否购买。样本量为 4639所有字段均为整形数据。 4.1.1 数据清洗数据清洗主要处理的是数据中的重复值、缺失值和异常值。对数据集进行处理结果如下 1. 用户信息表通过观察信息表中的数据首先发现重复的用户 id 数据其它字段信息完全不相同这与实际情况矛盾因此需删除表中所有重复数据总计 19265 条保留 116703 条唯一值。其次除用户信息表的城市字段有缺失值以外其余字段无缺失值。由于城市字段较为特殊不对缺失值进行插补而是仅研究有数据部分进行筛选故删除了 24089 个缺失值与 399 个异常值最终得到 92215 条数据。此外就字段而言 APP 激活所有数据均一样为无效字段因此删除该字段。 2. 用户登录表同 1 中对用户 id 重复值的处理删除数据总计 19201 条保留 116416 条唯一值无缺失值。其次用户登录天数必须非负故剔除登录天数和最后登录距期末天数两字段中小于 0 的数值异常数据总计 3589 条。另外在正常情况下学习课节数必须 ≥ 完成课节数故删除逻辑总计 8365 条。还需考虑学习课节数为 0 而完成课节数不为 0 的情况故删除逻辑异常数据总计 1167 条最终得到 103295 条数据。而该表中的添加销售好友和进群两个字段所有数据均一致故仅保留添加销售好友一个字段而删除进群字段。 3. 用户访问表同 1 中对用户 id 重复值的处理删除数据总计 19201 条保留 116416 条唯一值用户 id 顺序与用户登录表一致无缺失值其次通过数据观察可以发现有少部分用户无任何访问记录却在用户下单表里有购买记录因此我们判定此类用户为刷单用户需要剔除总计 229 条最终得到 116187 条数据。对于购买按钮点击访问数字段而言 116187 条字段中仅有 2 条数据值为 1 其余均为 0 因此为无效字段做删除处理。 4. 用户下单表同 1 中对用户 id 重复值的处理删除数据总计 26 条保留 4613 条唯一值。 4.1.2 数据集成为便于查找数据和集中处理数据对用户信息表、用户登录情况表、用户访问统计表以及用户下单表进行集成。经过数据清洗后用户信息表、用户登录情况表和用户访问统计表已无重复冗余字段且后两者样本数量都达到一致但用户下单表仅有下单用户的用户 id 因此仅需将用户信息表、用户登录情况表和用户访问统计表进行简单合并并对应用户下单表用户下单表中不存在的数据存为 0 。最终集成结果为在用户信息 - 下单表中数据共记 92215 条下单用户 3140 个在用户登录 - 访问 - 下单表中数据共记 103247 条下单用户 3117 个在用户信息 - 登录 - 访问 - 下单表中数据共计 81194 条下单用户 2413 个。 4.1.3 数据变换数据变换处理可将原始数据转换成为适合数据挖掘的形式。不同评价指标往往具有不同的量纲数值见的差别可能很大不进行处理可能会影响到数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响需要进行标准化处理将数据按照比例进行缩放使之落入一个特定的区域便于进行综合分析。对于本数据集中用户登录情况表和用户访问统计表由于需要采用零 - 均值规范化 z-score 标准化即标准差标准化进行处理经过处理的数据的均值为 0 标准差为 1 其转化公式为 4.2 任务二对用户城市分布情况与分布情况可视化分析 4.2.1 城市分布情况可视化分析分析用户城市分布最终目的是得到该 APP 的用户核心分布区而核心分布区不仅与用户城市分布有关还和用户数量分布有关因此应从这两个方面入手进行分析。将用户信息表中的数据导入地图得用户城市分布图并对近十万名用户所在的 361 座城市进行 K-means 聚类分析得到用户城市分布五大区域再对经纬度进行筛选求得五大区域城市占比如图2所示可以得出 1. 该 APP 用户地区分布较为广泛涵盖了我国大部分省市。 2. 用户所在城市分布东密西疏这与我国人口分布类似通过聚类分析可以看出用户城市分布大致在五个区域疆北、西南、华南、华中以及京北。其中华南华中地区城市数量占比已过半高达 65 % 。这表明该地区极大可能是用户核心区。接下来对用户数量分布进行分析将每座城市的用户数量连同经纬度一起倒入地图得到用户数量分布图圆圈越大表明该地用户数量越多另外为了更直观感受不同城市用户数量差异对用户人数大于 850 的城市进行对比如图 3 所示: 同时产品购买者数量分布也是一大关键信息因此我们将用户下单表中的信息事先预处理分别统计 288 座城市中下单用户数量同样录入到地图中柱体颜色越深表示下单用户数量越多并计算出各重点区域下单用户比例如图 4 所示由此可得 1. 该 APP 用户大部分集中在成渝、华北 - 北京、珠三角以及长三角这四大区而相对较偏远的西北部地区则用户分布较少例如西藏、新疆、内蒙古、云南等。当前重点地区用户分布情况与我国目前互联网经济发展情况大体一致这表明线上教育平台依托于互联网的发展。 2. 在四大区用户数量超过 850 的城市中成渝区占比 32% 华北 - 北京占 24% 珠三角占 16% 长三角占 5% 总计 77% 但是成渝区下单用户仅占该地区总用户数的 5.99% 华北 - 北京占 10.89% 珠三角占 24.10% 长三角占 18.18% 由此可见东部沿海地区可能仍有很大潜在市场。 3. 重庆市的用户人数已经达到全部总用户人数的 10.62% 远远高于其他城市推测该 APP 总部位于重庆市随后营销由重庆向外推广因此中西部省会城市用户数量不低然而重庆市下单用户占比却是垫底这也表明在对外营销过程中可能存在某些问题导致本地用户流失。综合上述分析我们将用户分布划分为四大核心区域成渝、华北 - 北京、珠三角以及长三角现将四大区域的用户数量下钻到市级用户画像如图5所示由市级用户画像可以得出 1. 各区域都存在两个或三个重点城市华北 - 北京四个如重庆深圳保定上海杭州等地。 2. 正是由于这些重点城市的存在使得四大核心区域用户占比大幅提升如成都重庆用户数占成渝区的 91.15% 上海杭州以及苏州占长三角的 65.45% 等。因此在后续分析中可以对以上城市着重分析。 4.2.2 登录情况可视化分析分析用户登录情况最终目的是得到该 APP 的用户粘性而分析用户粘性需要从用户活跃度与用户流失两个方面去考虑因此选用已预处理过的用户登录情况表进行分析选取字段为登录天数、登录间隔、最后登录距期末天数、登录时长以及隔天再次访问落地页数。首先进行用户活跃度分析。导入登录天数数据得到用户登录天数分布图其中横轴表示登录天数纵轴表示用户数量如6所示由此可以看出根据用户登录天数分布可以初步了解到用户登录天数集中在 7 天内占比 94.55% 其中峰值在 5 天用户登录达 3 至 6 天的数量居多占比 60.26% 。随后再导入登录间隔数据通过观察发现登录间隔区间是 [0 , 135] , 而当登录间隔处于 [0 , 3] 区间时用户比例已经超过 97 % 因此我们仅对登录间隔区间在 [0 , 31] 的数据进行绘图此时用户占比已经超过 99 . 21 % 同时为了图像更美观对用户数量做取对数处理得到用户登录间隔分布图其中横轴表示登录间隔区间纵轴表示用户数量关于 e 的对数如 7 所示接着再导入登录时长数据通过观察发现登录时长区间是 [0 , 1339] 并对表前的数据进行分析判断该数据单位为小时 ( h ) 故登录时长区间是 [0 , 55 . 8] 天同样地当天数超过 10 用户比例已经 ≤ 3 . 56 %, 故仅对前十天数据进行绘图得到用户登录时长分布图其中横轴表示天数0 . 5 表示半天纵轴左侧表示用户数量右侧表示用户比例如 8 所示综上针对用户活跃度可以得到以下结论 1. 从登录时长情况来看结合图 6 和图 8 用户对该款 APP 倾向于短期使用登录时间越长用户数量越少。假设存在较长周期的课程的情况下该款 APP 的用户留存不足推测购买长期课程的人数少。 2. 从登录间隔来看用户登录间隔较短但结合登录时长当登录时长超过半天后用户数量递减因此用户登录情况属于间歇性短期登录而非长期的规律性使用。 3. 从用户登录活跃整体情况的来看由于用户的短期活跃程度明显高于长期活跃程度推测用户大多数仅使用试用课程而且购买正式长期课程。接下来进行用户流失分析。导入隔天再次访问落地页数数据落地页访问数据是反映产品营销转化能力的指标它指的是用户通过搜索或者点击链接进入网站仅浏览了第一个页面就离开的访问次数该指标越高表明营销越能吸引潜在用户。通过观察发现当隔天落地页访问数 ≤ 7 时用户比例已经突破 99 . 97 % 故仅对 [0 , 7] 进行作图得到用户隔天再次访问落地页数玫瑰图如图 9 所示由此可以看出隔天再次访问落地页数在 3 次内时占比已达到 99.00% 当值为 0 时占比最大为 63.01% 。说明该款软件产品的落地页信息对于用户吸引力不足导致近 6 成用户并不会再次访问该页面以了解更多信息。接下来导入最后登录距离期末天数数据以期末作为重要时间节点依据距离期末天数统计用户数量以此来分析用户流失情况。按照行业标准依据用户流情况失将用户划分为三类活跃用户最后登录距离期末 60 天、潜水用户 60 天 ≤ 最后登录距离期末 ≤ 90 天以及流失用户最后登录距离期末 ≥ 90 天。以周为单位做出用其中针对异常值推测该款软件于期末 46 周前进行过一次大批量的推广活动后由于正式用户转换率不足导致该期用户的流失堆积在 46 周左右但该异常值不影响后续用户流失基本分析故不做额外处理。所得用户流失分类如表 1 所示综上针对用户活跃度可以得到以下结论 1. 该款 APP 产品落地页的营销转化不足落地页作为内容营销较为直接、有效率的一个渠道之一在该产品中的访问量不足同时结合用户登录情况可以了解到真正被吸引的用户数量较少产品的落地页设置效果不佳。 2. 活跃用户数不足仅占 36.87% 潜水用户和流失用户占比较大为总用户数的 63.13% 。说明该款产品的持续激活用户能力、留存忠诚用户能力不够充足。 4.3 任务三建立随机森林分类模型进行预测 4.3.1 符号说明 4.3.2 模型准备购买预测问题本质上是个二分类问题因此我们将下单用户标记为 1 未下单用户标记为 0 。将数据洗牌后选取 75% 的数据作为训练集并构建特征训练集模型。最终训练好模型后使用模型对剩余 25% 的数据进行预测将预测输出的结果与原本数据进行比对。基于上文的数据探索并结合实际 APP 使用情况我们利用现有字段数据类型构建五大基础特征指标即登录信息统计指标、用户指标、课程指标、基本信息渠道指标以及消费指标如图 11 所示。特征的具体设计说明如下 1. 登录基础特征指标主要描述用户与 APP 的触点、使用活跃程度、用户流失情况等相关信息例如登录天数 login_day 、登录间隔 login_diff_time 、最后登录距期末天数 distance_day 、登录时长 login_time 等。 2. 用户指标主要用于表示用户自身情况、社交互动情况以及用户与 APP 其他渠道的关注关系。如用户 ID user_id 是用户的基本主键添加销售好友 add_friend 、进群 add_group 等表示用户与 APP 其他渠道的关联性、点击分享访问数 share 表示用户针对 APP 进行的社群互动行为等。 3. 课程指标描述了用户在 APP 中的核心功能板块——在线课程的各方面情况例如课程计划访问数 mainPage 、课程访问数 schoolReportPage 等从宏观角度统计用户的课程安排 ppt 下一步访问数 ppt 、视频跟读访问数 video_play 、界面继续访问数 video_Read 等描述用户的上课互动行为。 4. 基本信息渠道指标主要指 APP 中各种与在线课程内容非直接相关的基础信息及营销信息渠道的互动情况。例如首页访问数 main_home 、测评中心访问数 evaulationCenter 、小屋首页访问数 partnerGameBarriersPage 等。 5. 消费指标主要描述的是用户在 APP 使用过程中的任何付费意向、付费结果等。例如体验课下单时间first_order_time、体验课价格 first_order_price 、购买按钮点击访问数 click_buy 等。 4.3.3 预测模型的选择可用于购买行为预测的方法有许多具体包括时间序列分析、面板数据模型、基于机器学习的模型和随机模型。随着数据可获得性的提高越来越多研究基于机器学习的预测模型来预测用户的未来购买行为。这些基于机器学习的预测方法主要包括逻辑回归、支持向量机、人工神经网络、梯度提升决策树等。随机森林 Random Forest 是指利用多棵决策树对样本进行样本并训练和预测的一种算法。随机森林算法是一个包含多个决策树的算法其输出的类别是由单独的方法树输出类别的众树来决定的。它的优点在于对于大部分的数据它的分类效果比较好它能处理高维特征不容易产生过度拟合模型训练速度比较快特别是对于大数据而言在决定类别时它可以评估变数的重要性它对数据集的适应能力强既能处理离散型数据也能处理连续型数据数据集无需特意规范化。本文进行了用户未来是否购买预测问题的研究因此分别使用机器学习中常用的分类问题来评估预测模型的性能。为了使模型具有一定的可解释性还分析了预测性能较优的若干个模型的特征重要性结果。经过特征分析、数据清洗整理得到原始数据集然后度量各个特征变量的重要性选择重要性较高的特征生成新的数据集在原始数据集和新数据集基础上分别训练了用于预测用户是否购买的随机森林分类模型、逻辑回归模型和决策树回归模型实验对比的结果表明在随机森林预测模型综合性能更好。也验证了随机森林的优点。预测用户未来是否购买是一个典型的二分类问题因此我们使用二分类问题中常用的评估指标包括召回率、精确率、 F1 值、 ROC 值以及误判率来评估模型性能。在测试集上的评估结果如表 2 所示。如表2所示逻辑回归算法的表现最差原因是逻辑回归这样的线性分类模型不适用于本研究中的非线性问题它无法处理复杂的非线性分类问题。决策树分类可以找到非线性分割更加接近人的思维方式可以产生可视化的分类规则产生的模型具有可解释性可以抽取规则。树模型拟合出来的函数其实是分区间的阶梯函数但对比于随机森林分类决策树的泛化能力弱。随机森林分类算法在以决策树为基学习器的基础上进一步在决策树的训练过程中引入了随机特征选择减小方差而且方差的减小补偿了偏差的增大在构建决策树的时候随机森林的每棵决策树都最大可能的进行生长而不进行剪枝在对预测输出进行结合时随机森林通常对回归任务使用简单平均法。随机森林在数据集上表现良好能够处理很高维的数据不用特征选择且在训练完后能给出特征的重要性基于本身特性一一训练时采用并行化方法与其他算法相比其训练速度快很多。总体而言随机森林是一个在精确率、稳定性以及训练速度上都有良好表现的模型。通过表格数据可以轻易发现随机森林分类的所有评价指标均为最优这说明使用该方法对于预测用户购买行为具有很好的预测性能。 4.3.4 随机森林分类模型同一批数据用同样的算法只能产生一棵树而 Bagging 策略可以产生不同的数据集。 Bagging 策略来源于 bootstrap aggregation 从样本集假设样本集 N 个数据点中重采样选出 N b 个样本有放回的采样样本数据点个数仍然不变为 N 在所有样本上对这 n 个样本建立分类器重复以上两步 m 次获得 m 个分类器最后根据这 m 个分类器的投票结果决定数据属于哪一类。 2. 边缘函数是正确分类结果大于最大错误分类结果的表征方式即边缘函数越大分类结果可信度就越高就所有训练集分别应用决策树可形成随机森林。具体步骤如下 : 采用 Bagging 算法在原始数据中进行 N 次随机抽样将其数据整理为训练样本集合。依次针对训练样本建立决策树在树的节点处随机选取 d 个参数应用 Gini 系数选取最优参数进行决策树分支其中 Gini 系数可表示为: 4.3.5 特征重要性分析经过数据预处理得到 37 维的特征构建并使用随机森林算法对训练集样本进行建模。当模型建立完毕后输出所有特征的重要性。并利用该模型对测试集进行预测并与原本结果进行比较。输入数据参数如表 3 所示。特征重要性分析可以用来评估构建的特征的预测能力或对预测模型的重要性。通过特征重要性分析可以很直接地观测到所构建的特征的预测能力从而在一定程度上解释模型或进一步调整模型结构。用户最终是否会下单购买随机森林分类模型特征重要性前 10 名如表 4 所示。从随机森林算法做出的特征重要性排序可以发现 1. 排名前十的特征总权重和为 0.7899 其中登录基础特征指标含 2 个分别是最后登录距期末天数和登录间隔消费指标有 3 个分别为领券数量、有年课未完成订单、是否领券访问数与课程直接相关的课程指标有 2 个分别是学习课节数和识字访问数基本信息渠道指标有 2 个为首页访问数 1 和首页访问数 2 用户指标有 1 个为关注公众号 1 。权重排名前十的特征中登录基础特征指标比重合计 0.3558 消费指标比重合计 0.3282 说明用户登录情况活跃度和消费优惠折扣对用户选择倾向影响比较大。 2. 在权重排名前十的特征中课程指标中的学习课节数和识字访问数权重分别为 0.0297 和 0.0176 总计 0.0502 与登录基础特征指标和消费指标相比较少说明可能课程的体验互动情况对于用户的购买决策影响作用相对较弱。又可见关注公众号 1 这个特征描述用户对用户购买决策的影响占比排名前十由此推测该产品中的在线语文课程相关内容对于用户来说的感知价值更高 Zeithaml et al, 1988 进而正向影响用户的付费意愿 Wang et al,2020 。 3. 在权重排名前十的特征中的基本信息渠道指标中首页访问数 1 和首页访问数 2 的权重分别为 0.0209 和 0.0186 。由此说明该 APP 的营销渠道中较为突出有效的集中于首页信息而类似落地页、弹窗广告等的营销效果可能不足。最后选取特征重要性排名前 29 的特征即原始数据值中重要性大于 0.005 的特征组成新数据集用于后面的实验。 4.3.6 预测实验再次对通过特征重要性排名选出的前 29 特征使用随机森林分类模型取经过数据洗牌后新数据集的 75% 作为训练集进行训练得到各特征权重从高到低如表 5 所示。 4.3.7 模型评价对于随机森林分类模型预测效果可以从训练过程中的模型性能和最终的模型效果两方面进行评估。因为训练集是经过采样且正负样本是相对均衡的所以对于训练过程中模型的效果评估我们主要使用召回率、精确率、 F1 值、 ROC 值以及误判率这四个指标对模型进行观察。本次实验会对训练集进行拆分将训练集中 75% 的数据用与模型拟合即真正意义上的训练集。然后将剩下 25% 的数据用做验证集以便于观察模型在训练过程中的真实表现防止模型出现过拟合。依照样本类型对样本进行预测时通过比较真实类别和预测类别可以得到混淆矩阵如图 14 所示通过混淆矩阵可以看出训练过程中的模型性能好。数据洗牌后将 75% 的是否购买数据作为测试集使用模型剩余 25% 的数据进行预测将输出的结果与原数据进行比对。得到测试数据评估结果表 7 如下通过对比新测试集预测数据及原是否购买数据可以发现该模型的精确率达到 98.3% 模型效果好。 4.4 任务四用户消费行为价值分析与建议对于任务四需要分别从用户行为分析与用户价值分析入手并结合前述任务中的分析为企业提出建议。 4.4.1 用户行为分析一般情况下用户进行线上教育消费往往有以下行为点击浏览、关注、收藏、领券以及支付。因此通过分析附件中所给的数据首先将非课程相关访问量视为用户消费第一行为其中包含的数据是首页访问数 1 、首页访问数 2 、我的访问数、轻课访问数、学习乐园访问数、小屋首页访问数、测评中心访问数、是否领券访问数、宝宝访问数、课程未购买弹窗访问数、点击分享访问数以及首页广告弹窗点击访问共 12 个字段将其命名为访问接着将数据关注公众号 1 、关注公众号 2 、添加销售好友、进群以及领券数量作为用户第二消费行为共 5 个字段将其命名为关注领券最后将开课数数据作为用户第三消费行为将其命名为开课购买如表 8 所示明确用户消费行为后需从不同维度对这些行为进行分析通过观察数据合理选取空间维度、年龄维度以及设备维度对这三种行为进行分析。首先对空间维度进行分析将用户城市分布信息导入地图对三种行为分别作出空间维度 - 消费行为图其中颜色越深表示行为量越多其次对四大核心区的市级单位进行对比分析横轴表示点击量单位万 w 与城市名如图 15 所示由此可得 1. 从访问到关注领券到开课这个行为链条来看重庆市和其他城市相比都高出了一定数量级但是最终重庆市用户的购买量却不及其他城市推测重庆市的营销运营效率不高对该区域用户洞察不够准确导致无法从该区域的消费者中挖掘到价值。 2. 四大核心用户区中成渝地区的辐射效应并不明显其核心城市周围的用户数量分布较少。而其他核心城市例如北京、广州、上海、深圳等从人口来看应该具有很大市场潜力但是这些区域的用户挖掘深度明显不足。下面对年龄维度进行分析由于年龄在 0 至 12 岁的用户数量已经超过 99 . 01 % 因此仅对该年龄段的用户进行分析同时为了分析图呈现更美观对三大行为量做取对数处理绘制出年龄维度-消费行为图如图 16 所示由此可得 1. 针对 12 岁年龄范围内的用户进一步进行分析可以发现学前衔接阶段即 4 至 6 岁的用户行为数量最大基本符合低幼阶段市场情况。 2. 在 12 岁年龄范围内关注领券和开课行为关联较为密切推测用户倾向于使用试听课程进行初步体验。最后对设备维度进行分析通过数据观察发现所有的用户所使用的的手机设备仅两种 9.2969 设备与 13.557 设备。同样地为了分析图呈现更美观对三大行为量做取对数处理绘制出设备维度 - 消费行为图如图 17 所示由此可得 1. 通过数据统计分析可以发现 9.2969 设备用户基数占据大多数而 13.557 设备用户仅在访问阶段行为存在。而在 9.2969 设备的用户行为来看几乎所有行为集中在访问阶段而推进到关注领券并开课的用户数量极少。说明各渠道综合来看对使用 13.557 设备用户的营销手段不理想对 9.2969 设备用户的影响作用也十分有限。 4.4.2 用户行为转化分析统计行为量做出用户行为转化漏斗图并计算出转化率如图 18 所示由此可得 1. 由图可以直观地看出从访问阶段到关注领券的转换率极低仅为 2.02% 而从关注领券到开课购买的转化率为 64.56% 说明在用户的决策链中前期对产品了解阶段的信息并没有十分显著的影响而用户在开课时受到价格因素的印象较大基本都会选择领券体验。 2. 结合前述中的登陆情况用户登录时长短、流失严重用户基本停留在领券开课体验阶段并未真正付费为企业带来价值。下面一部分从用户价值的角度来进一步进行分析。 4.4.3 用户价值分析——RFM 从客户关系管理的角度引入 RFM 模型来对用户价值进行分析。原 RFM 模型更多地是从电商消费视角即最近一次消费 Recency 、消费频率 Frequency 和消费金额 Monetary 来对用户进行分类。由于该企业所处行业为在线教育为了反映用户的潜在价值将用户最后一次登录学习的时间距期末天数作为 R 维度作为客户的留存和流失情况的衡量将学习课节数作为 F 维度作为用户参与互动情况的衡量以及将体验课价格作为 M 维度作为用户消费情况的衡量。针对这三个维度均采用平均值作为基准来判别 R 值、 F 值和 M 值的高低对该款 APP 的用户价值按照下表标准进行分析代入数据得到用户价值分析图如图 19 所示结合图表可见看出 : 该款 APP 的用户价值保持型和挽留型客户为主要类型占比高达 87.50% 而重要价值用户占到用户总体仅 4.55% 与前述分析中用户行为的表现基本一致平台整体用户价值分布情况并不乐观大多数用户并没有真正为企业创造价值。针对该款 APP 目前主要的几种不同价值类型的用户可以采取以下具有针对性的营销策略对于重要价值用户持续维护用户关系提升用户的用户体验进而增强其对平台的依赖性来达到深度挖掘其价值的目的。对于重要保持用户可以定期进行针对性的多渠道推送提醒其学习进度并传递新课程优势的信息点做到留存优化。对于重要挽留用户可以采用跨平台推送等形式提醒用户登录对所购课程不满意的用户可以通过客服等及时反馈现有问题并推荐其他优质内容来吸引用户复购。对于该平台大量的一般保持用户推测为相关免费课程体验使用后就不再继续登录企业可以通过推送新一轮有竞争力价格的体验课进一步转换用户。对于一般挽留用户企业的重心可以放在新媒体、社群口碑等方式扩大课程曝光度来提升用户对该 APP 的印象。 4.4.4 给企业的建议结合上述消费者行为价值分析以及前述任务中建立的用户下单模型现从 4P 角度即产品 Product 、价格 Price 、渠道 Place 和促销 Promotion 为该企业提供一些建议 1. 产品明确早教产品定位综合提升课程有用性和用户体验。由于该款在线教育产品的用户年龄以 3 至 12 岁为主均为 K12 教育中的学前教育或小学阶段教育。结合政策在 2021 年 3 月 31 日教育部印发的《关于大力推进幼儿园与小学科学衔接的指导意见》的要求建议企业针对低龄阶段的在线教育应注重课程内容的质量与吸引力。因此建议企业明确早教产品的定位以学科启蒙结合娱乐导向的教育注重产品 UI 设计以适应儿童审美来达到吸引用户的目的。另外建议企业注意课程互动性和课程质量的提升来完善用户体验。在购买决策模型中课程对于用户购买的影响因素权重偏小结合实际情况由于课程参与者为儿童而购买决策的执行者为家长他们之间的信息不对称一定程度上也会影响用户购买的行为。建议企业一方面提高课程的趣味程度来吸引儿童用户同时要完善家长的用户体验以完善整个购买决策的推进。 2. 价格体验课程采用渗透定价策略同时结合产品生命周期。通过上述消费者行为价值分析可以得知绝大多数用户对价格较为敏感对产品的感知价格较低。因此可以通过体验课程的渗透定价来进一步刺激市场需求。又由于课程边际成本几乎可以忽略因此采用渗透定价能够更好地吸引大量顾客来提高该款产品的市场占有率。但同时由于整体用户的价格敏感程度高在退出正式产品时应考虑到产品的生命周期建议企业针对周期较长的课程采取分期付款的方式进行标价同时要保持一定的产品更新频率以防止用户搭便车后的流失。 3. 渠道把握多渠道宣传扩大下沉市场渗透。由上述的登录分析和用户城市分析可知该款软件产品的基础用户群分布在成渝、华北 - 北京、珠三角以及长三角四大核心区域同时相较其他行业集中度较低。结合购买模型的因素权重可知该 APP 的其他平台的宣传影响并不大付费用户的转化情况不佳。因此建议采取多渠道的宣传进一步扩大市场营销力。另建议企业把握下沉市场低幼教育课程质量参差不齐、课程面不够丰富齐全的痛点以一线城市为起点向低线城市扩散来撬动更大的用户群体。 4. 促销注重产品组合和体验营销利用社群营销建立口碑。低幼阶段儿童没有提分等压力教育产品的设计重点是激发孩子的兴趣。在快乐的体验过程中传输一定知识。因此建议企业注重产品组合的广度设计多种类型的课程来打包销售同时增加游戏化设计和提升用户交互。此外通过社群营销来建立用户口碑。由于当前低幼阶段儿童家长以 80/90 后为主教育理念升级除关注小高及以后阶段的升学情况外更加关注从小培养孩子的各方面兴趣和综合能力因此建议企业把握这部分家长的消费习惯而微信社群、新媒体等作为 80 、 90 后的主要信息渠道对该款产品的口碑建立有很重要的作用。参考文献代码实现数据预处理部分代码展示在进行数据清洗时需要首先查看缺失值利用 python 编码如下 import pandas as pd data1 pd.read_csv(’../../user_info.csv’) data2 pd.read_csv(’../../login_day.csv’) data3 pd.read_csv(’../../ visit_info .csv’) data4 pd.read_csv(’../../ result .csv’) print(data1. isnull () .any()) print(data2. isnull () .any()) print(data3. isnull () .any()) print(data4. isnull () .any()) # display result # user_id False # first_order_time False # first_order_price False # age_month False # city_num True # platform_num False # model_num False # app_num False # dtype: bool # user_id False # login_day False # login_diff_time False # distance_day False # login_time False # launch_time False # chinese_subscribe_num False # math_subscribe_num False # add_friend False # add_group False # camp_num False # learn_num False # finish_num False # study_num False # coupon False# course_order_num False # dtype: bool # user_id False # main_home False # main_home2 False # mainpage False # schoolreportpage False # main_mime False # lightcoursetab False # main_learnpark False # partnergamebarrierspage False # evaulationcenter False # coupon_visit False # click_buy False # progress_bar False # ppt False # task False # video_play False # video_read False # next_nize False # answer_task False # chapter_module False # course_tab False # slide_subscribe False # baby_info False # click_notunlocked False # share False # click_dialog False # dtype: bool # user_id False # result False # dtype: bool 利用 python 删除重复值代码如下 # -*-coding:utf-8-*- import pandas as pd data1 pd.read_csv(’../user_info.csv’) print(data1[’user_id’ ]. count()) wp1 data1.drop_duplicates(subset’user_id’,keepFalse)print(wp1[’user_id’].count()) wp1.to_csv(’../user_infoPretreatment.csv’) data2 pd.read_csv(’../login_day.csv’) print(data2[’user_id’ ]. count()) wp2 data2.drop_duplicates(subset’user_id’,keepFalse) print(wp2[’user_id’].count()) wp2.to_csv(’../login_dayPretreatment.csv’) data3 pd.read_csv(’../visit_info.csv’) print(data3[’user_id’ ]. count()) wp3 data3.drop_duplicates(subset’user_id’,keepFalse) print(wp3[’user_id’].count()) wp3.to_csv(’../visit_infoPretreatment.csv’) data4 pd.read_csv(’../result.csv’) print(data4[’user_id’ ]. count()) wp4 data4.drop_duplicates(subset[’user_id’],keepFalse) print(wp4[’user_id’].count()) wp4.to_csv(’../resultPretreatment.csv’) # display result # 135968 # 116703 # 135617 # 116416 # 135617 # 116416 # 4639 # 4613 利用 python 合并数据如下 # -*-coding:utf-8-*- import pandas as pd data1 pd.read_csv(’../user_info_tobemerged.csv’) data2 pd.read_csv(’../login_day_tobemerged.csv’) data3 pd.read_csv(’../visit_info_tobemerged.csv’) data4 pd.read_csv(’../result_tobemerged.csv’)result23 pd.merge(data2, data3, on[’user_id’]) result23 .to_csv(’../merge23.csv’, encoding’gbk’) result234 pd.merge(result23, data4, on[’user_id’], how’left’) result234 result234. fillna (0) result234.to_csv(’../merge234.csv’, encoding’gbk’) result1234 pd.merge(data1, result234, on[’user_id’], how’right’) result1234.to_csv(’../merge1234.csv’, encoding’gbk’) 对城市经纬度做 K-means 聚类分析代码如下 import pandas as pd import numpy as np from sklearn. cluster import KMeans import matplotlib.pyplot as plt # ------ 1.导入数据 ------ df pd.read_csv(’china.csv’) # 此处注意换成自己的数据集路径 #print(df.head()) # 展示前5行数据 # ------ 2.提取经纬度数据 ------ x df x_np np.array(x) # 将x转化为numpy数组 # ------ 3.构造K-Means聚类器 ------ n_clusters 5 # 类簇的数量 estimator KMeans(n_clusters) # 构建聚类器 # ------ 4.训练K-Means聚类器 ------ estimator. fit (x) # ------ 5.数据可视化 ------ markers [’*’, ’v’, ’’, ’^’, ’s’ , ’x’, ’o’ ] # 标记样式列表 colors [’r’ , ’g’ , ’m’, ’c’ , ’y’, ’b’, ’orange’] # 标记颜色列表 labels estimator.labels_ # 获取聚类标签 plt . figure ( figsize (9, 6)) plt .xlabel(’East Longitude’, fontsize 18) plt .ylabel(’North Latitude’, fontsize 18)for i in range(n_clusters): # 遍历所有城市绘制散点图 members labels i # members是一个布尔型数组 plt . scatter( x_np[members, 1], # 城市经度数组 x_np[members, 0], # 城市纬度数组 marker markers[i], # 标记样式 c colors[ i ] # 标记颜色 ) # 绘制散点图 plt .grid() plt .show()

查看全文

http://www.sadfv.cn/news/171755/