2023-06-05 13:41:10 来源:磐创AI
目标
在本文中,我们将对二手车定价做出预测。我们将使用不同的架构开发多种机器学习和深度学习模型。最后,我们将比较机器学习模型与深度学习模型的性能。
使用的数据
【资料图】
在这种情况下,我们使用了 kaggle 数据集。
有 17 个不同的变量:
IDPrice: 汽车价格(目标栏)LevyManufacturerModelProd. yearCategoryLeather interiorFuel typeEngine volumeMileageCylindersGear box typeDrive wheelsDoorsWheelColorAirbags
要获取数据并将其用于你的调查,请单击以下链接 -
https://www.kaggle.com/datasets/deepcontractor/car-price-prediction-challenge
数据检查
我们将在这部分查看数据。首先,让我们看看数据中的列及其数据类型,以及任何缺失值。
数据集的信息
我们可以看到数据集有 19237 行 18 列。
有五个数字列和十三个类别列。我们可以立即观察到数据中没有缺失数字。
“Price”列/特征将是项目的目标列或相关特征。
让我们看看数据分布。
数据准备
在这里,我们将清理数据并为模型训练做准备。
“ID”列
我们删除“ID”列,因为它与汽车价格预测无关。
Levy 列
检查"Levy"列后,我们发现它确实包含缺失值,但它们在数据中表示为"-",这就是为什么我们无法在数据中更早地捕获缺失值.
在这种情况下,如果没有“Levy”,我们会将“Levy”列中的“-”替换为“0”。我们也可以用“均值”或“中值”来推断它,但你必须做出该决定。
Mileage 列
这里的“Mileage”列表示汽车行驶了多少公里。每次阅读后,“公里”都写在列中。我们将删除它。
**“Engine Volume”列 **
与“Engine Volume”列一起,还写入了发动机的“种类”(涡轮增压或非涡轮增压)。我们将添加一个新列来显示“引擎”的“类型”。
处理“离群值”
我们将检查数值特征。以下是确定异常值的每个数值特征的快照
Levy:
Engine volume:
Mileage:
Cylinders:
Airbags:
离群值可以在 ‘Levy’, ‘Engine volume’, ‘Mileage’和“Cylinders”列中找到。我们将使用分位数间距 (IQR) 方法来消除这些异常值。
在统计学中,四分位数间距 (IQR) 是基于将数据集划分为四分位数的可变性度量。IQR 是上四分位数和下四分位数之间的差值。它是一种不受异常值影响的稳健的传播度量。IQR 通常用于识别数据集中的异常值。
要计算 IQR,首先需要计算数据集的第 25 个和第 75 个百分位数,然后通过从第 75 个百分位减去第 25 个百分位来计算 IQR。
使用 IQR 方法去除异常值后
我们可以观察到现在特征中没有异常值。
开发额外的特征
“Mileage”和“Engine Volume”都是连续变量。在运行回归时,我发现对这些变量进行分箱有助于提高模型的性能。因此,我正在为这些特征/列开发“Bin”特征。
用于开发额外特征的代码截图
处理分类特征
处理机器学习中的分类特征是一项重要任务,因为大多数机器学习算法都是为处理数值数据而设计的。分类特征是表示为字符串的非数值数据,例如颜色、国家或食物类型。为了在机器学习模型中使用这些特征,需要将它们转化为数值数据。
有几种方法可以处理 ML 中的分类特征。我使用 Ordinal Encoder 来处理分类列
检查相关性
数据显示,特征没有高度关联。然而,我们可以看到,在对“价格”列进行对数转换后,与一些属性的相关性上升了,这是一个积极的事情。我们将利用对数转换的“价格”来训练模型。
数据拆分和缩放
在数据上,我们将其分为 80-20。80% 的数据将用于训练,其余 20% 将用于测试。
我们将另外缩放数据,因为并非数据中的所有特征值都具有相同的比例,并且具有不同的比例可能会导致模型性能不佳。
模型搭建
作为机器学习模型,我们创建了 LinearRegression、XGBoost 和 RandomForest,以及两种深度学习模型,一种是小网络,另一种是大网络。
我们开发了 LinearRegression、XGBoost 和 RandomForest 基础模型,所以就不多说了,但是我们可以看到模型总结以及它们如何与我们构建的深度学习模型收敛。
深度学习模型——小网络模型总结
深度学习——小型网络模型摘要快照
深度学习模型——小型网络训练和验证损失
深度学习模型——大型网络
深度学习大网络模型总结
深度学习——大型网络训练和验证损失
模型效率:
我们使用性能矩阵 Mean_Squared_Error、Mean_Absolute_Error、Mean_Absolute_Percentage_Error 和 Mean_Squared_Log_Error 评估模型,结果如下所示。
我们应用于数据集的所有模型的摘要
我们可以看到深度学习模型优于机器学习模型。RandomForest 优于所有机器学习模型。
结果
随机森林模型的可视化
从图中可以看出,模型的性能非常好,性能矩阵证明了这一点。
特征重要性
特征重要性是机器学习 (ML) 中的一个重要概念,因为它有助于识别数据集中最相关的特征以预测目标变量。它允许建模者了解每个特征在预测目标变量中的贡献,并有助于识别对模型性能无用甚至有害的特征。
下面我们使用 SHAP 绘制了随机森林模型的特征重要性:
所有变量的特征重要性快照
结论
在本文中,我们尝试使用汽车数据中提供的众多参数来预测汽车价格。我们构建了机器学习和深度学习模型来预测汽车价格,并发现基于机器学习的模型在这些数据上的表现优于基于深度学习的模型。
笔记本参考和代码:
https://colab.research.google.com/drive/1-ivt7AjvEXMXdglMn5AHlTAMfW5oKT3J#scrollTo=J-2Z03_7_8iq
参考文章:
https://www.obviously.ai/post/data-cleaning-in-machine-learning
https://shap.readthedocs.io/en/latest/index.html
原文标题:使用机器学习和深度学习模型预测汽车价格
标签:
- 加快虚拟仿真实训基地建设 启动职业学校信息化建设试点很必要
- “双减”后如何在满足学生多样需求方面做“加法”?
- 处于生理活跃期且心理发展不成熟 高校开设公共卫生必修课很必要
- 价格低于相应蔬菜零售价 西安投放约1万吨政府储备蔬菜
- 深受年轻消费群体所青睐 国潮风商品成为年货新选择
知识
- 他把银行卡卖给骗子,“黑吃黑”“截胡”十万元
- “老司机”4S店试驾豪车 结果油门当刹车撞了
- 新开工改造城镇老旧小区5.34万个
- 发动巡河志愿者2万余名 “用心护好每一条河”
- 假客服的套路:伪装成大平台客服,层层布局引人上钩
人物
- 当前热门:小鲨易贷网贷逾期7个月征信有什么影响
- 通讯!业界:搭平台促交流 助力中国白酒走向世界
- 视讯!LPR连续四月不变 专家预计短期内仍将持稳
- 环球热资讯!57.5% 网友赞成,马斯克或将卸任 Twitter CEO
- 提钱花网贷逾期半年会不会上征信_速看料
- 育碧正在为其《星球大战》游戏寻找测试人员
- 世界杯的阿尔法之战
- 别受伤!浓眉篮下被小卡晃飞 空中失去重心后背着地 当前速讯
- 世界新资讯:中油测井多相位定向光纤避射技术填补空白
- 天天快资讯:中材科技: 董事会决议公告
- 每日热门:锦程消费金融的一股东想彻底退出
- 深南电A董秘回复:关于您提出的问题,现回复如下:公司目前的主营业务为天然气发电,未涉及到核聚变反应相关业务
- 热议:伯特利: 芜湖伯特利汽车安全系统股份有限公司章程(2022年12月修订)(更正后)
- 宝钢包装(601968)12月15日主力资金净买入24.60万元 今日播报
- 鸥玛软件董秘回复:截至11月30日,公司股票持有数量15,896户
- 铂力特: 西安铂力特增材技术股份有限公司监事会关于2020年限制性股票激励计划首次授予部分第二个归属及预留授予第一个归属期归属名单的核查意见 今日报
- 济源市人民法院:加强失信曝光、法律文书电子送达 全球新要闻
- 【机构调研记录】中海基金调研楚江新材、伟星新材等4只个股(附名单)
- 世界通讯!一边要路权,一边要停车,占路20余年车棚这样拆违腾路
- 环球热消息:独家资金:早盘主力买入前10股
- 免费可商用!荣耀HONOR Sans字体来了 附下载
- 在南洋与中文相遇(阅读时光)_短讯
- 源杰科技(688498)新股概览,12月12日开始网上申购-视焦点讯
- 中欣氟材董秘回复:谢谢您对本公司的关注,目前公司钠电池电解液添加液产品正在设计及设备订购等前期项目准备中
- 头条:英集芯(688209)12月7日主力资金净卖出490.52万元
- 股票行情快报:石化机械(000852)12月6日主力资金净卖出3954.17万元
- 浙江两轮核酸检测结果均为阴性 无新增本土阳性感染者
- 新疆阿克苏地区库车市发生4.1级地震 震源深度18千米
- 抵返哈尔滨人员须持48小时内核酸检测阴性证明
- 浙大紫金港校区已解封 有7337人有序离开该校区
- 2021年广东省第七届风筝锦标赛落幕
- 黑龙江讷河市启动全员核酸检测 目前讷河市全员核酸检测结果均为阴性
- 【同心粤港澳 携手大湾区】南头古城,搭建深港澳三地文化创意活动交流平台
- 重庆入河排污口整治工作推进至全市26个区县
- 四川省第二批政法队伍教育整顿:立案审查调查省级政法机关干警58人
- 长三角区域生态环境部门“云签约”长江大保护倡议书
- 古老长城重焕新生机
- 藏不住了!你同事里有许多“武林高手”……
- 浙江杭州2例无症状感染者系感染德尔塔变异株
- 喜马拉雅的深情和誓言
- 浪漫之城打造山海城一体新地标
- 让老年人更适应数字生活
- 内蒙古通辽市新增1例本土确诊病例、1例无症状感染者
- 徐州无新增确诊病例 核酸检测55515人结果均为阴性
- 甘肃培树“农家巧娘”增技能:返乡创业掌勺又“掌柜”
- 内蒙古通辽市科尔沁区一地调整为中风险地区
- 上海本轮疫情涉及闭环管理的医疗机构全面恢复门急诊
- 青年学生成艾滋病感染高发人群 “社会疫苗”如何打?
- 内蒙古满洲里新增本土确诊病例1例 当地开展第二轮大规模核酸检测
- 江西无新增本土确诊病例 上饶全面恢复正常生产生活秩序
精彩阅读
- 中老铁路上会四国语言的列车长:用心维护中老友谊的桥梁
- 海南首次发现有环志的世界极危鸟种勺嘴鹬
- 一场“网络劝生者”和“网络劝死者”的战役
- 内蒙古通辽新增本土确诊和无症状感染者各1例 轨迹公布
- 江西中烟工业有限责任公司原总经理姚庆艳接受审查调查
- 宁夏45例新冠肺炎确诊病例均已治愈出院
- 内蒙古通辽市科尔沁区发现2名初筛阳性人员
- 生活在闹钟里的丈夫:自己迟一秒,渐冻症妻子就会多一分疼
- 辽宁新冠肺炎确诊病例零新增
- 11月28日16-24时,内蒙古新增本土确诊病例1例
- 奥密克戎毒株为何“需要关注”?现有防疫工具还有效吗?
- 黑龙江新增本土无症状感染者1例
- 这辈子一定要去趟这个公园 在这里“有种爱叫放手”
- 那年今日 | 一张漫画涨知识之11月29日
- 寒潮预警!我国中东部迎大范围降温 黑龙江等地降幅可达12℃
- 冷空气继续影响我国中东部 华北黄淮等地有雾和霾天气
