当前位置: 首页 > news >正文

想学网站开发泰州企业网站建设

想学网站开发,泰州企业网站建设,内网进销存软件终身免费版,做网站一般几个步骤目录 所有列是否完全重复 指定某一列是否重复 根据多列判断是否重复#xff0c;防止误删数据 其他数据预处理方法 通过八爪鱼或者火车头等采集器从全网抓取的数据中#xff0c;总会存在各种各样的重复数据#xff0c;为保证数据在使用过程中的准确性#xff0c;总要先进…目录 所有列是否完全重复 指定某一列是否重复 根据多列判断是否重复防止误删数据 其他数据预处理方法 通过八爪鱼或者火车头等采集器从全网抓取的数据中总会存在各种各样的重复数据为保证数据在使用过程中的准确性总要先进行一番清洗。 所有列是否完全重复 在Pandas中.duplicated()表示找出重复的行默认是判断全部列返回布尔类型的结果。对于完全没有重复的行返回 False对于有重复的行第一次出现的那一行返回 False其余的返回 True。 与.duplicated()对应的.drop_duplicates()表示去重即删除布尔类型为 True的所有行默认是判断全部列。 import pandas as pd import numpy as np from pandas import DataFrame,Series#读取文件 datafile uE:\\pythondata\\tt.xlsx#文件所在位置u为防止路径中有中文名称此处没有可以省略 data pd.read_excel(datafile)#datafile是excel文件所以用read_excel,如果是csv文件则用read_csv examDf DataFrame(data) examDf#输出源数据直观的查看哪些行是重复的 运行结果  nameheightbirthdayconstellationBlood0Jay1751979摩羯座O1Jay1751979摩羯座O2Jolin1561980处女座A3Jolin1561980NaNA4Hannah1651993狮子座B5JJ1731981白羊座O6Eason1731974狮子座O很明显第 0 行和第 1 行是完全重复的开始去重接着上面的代码 #去重 print(examDf.duplicated())#判断是否有重复行重复的显示为TRUE examDf.drop_duplicates()#去掉重复行 指定某一列是否重复 上述的数据中我们可以发现第 2 行和第 3 行其实都是 Jolin 的信息那么也是需要去重的。.duplicated()默认是判断全部列那么加一点东西就可以判断指定某一列了。 print(examDf.duplicated(name))#判断name列是否有重复行重复的显示为TRUE examDf.drop_duplicates(name)#去掉重复行 运行结果                                        在实际应用中需要指定的这一列往往是合同号项目编号这一类的 根据多列判断是否重复防止误删数据 仅仅根据name列判断是否重复难免会把重名的另一个人的信息误删比如娱乐圈的杨洋小鲜肉男和杨洋快女仅根据name判断是否重复的话肯定会将其中一人的信息判断为重复数据那么就增加几个判断条件比如根据姓名性别生日三个条件来判断的话误删的几率就会大大的减少。 import pandas as pd import numpy as np from pandas import DataFrame,Series#读取文件 datafile uE:\\pythondata\\tt.xlsx#文件所在位置u为防止路径中有中文名称此处没有可以省略 data pd.read_excel(datafile)#datafile是excel文件所以用read_excel,如果是csv文件则用read_csv examDf DataFrame(data) print(examDf.duplicated([name,sex,birthday]))#判断name,sex,birthday列是否有重复行重复的显示为TRUE examDf.drop_duplicates([name,sex,birthday])#去掉重复行 运行结果                                望指正 其他数据预处理方法 拉格朗日插值法补充缺失值 连续数据离散化等宽、等频、聚类离散 数据预处理 - 归一化与标准化
http://www.yutouwan.com/news/192094/

相关文章:

  • 网站设计教程网站深圳比较出名的外贸公司
  • 无锡惠山区建设局网站广告设计与制作软件哪个好
  • 促销网站怎么做2017做那个网站能致富
  • 合肥做网站哪家公司好帝国网站管理系统教程
  • 现在网站开发模式南阳做网站 汉狮公司
  • 做网站的销售能干什么南京网络建站模板
  • 虾米音乐歌曲链接做qq音乐网站网站设计结构图用什么做
  • 织梦网站列表做网站设计赚不赚钱
  • 抓取wordpress站点用户百度关键词优化专家
  • 无线设置网站没有收款接口网站怎么做收款
  • 莱芜网站快排成都网站海口网站建设
  • app开发做网站备案 网站名称 重复
  • 怎么给网站做友情链接雏鸟短视频app软件下载网站
  • wordpress插件感应侧边栏推广优化师
  • 十大卖衣服网站网络推广团队需要哪些人手
  • 南京网站开发建设网站管理员怎么做联系方式
  • 网站开发的兼职网站湛江网站模板
  • 个人主页网站html全新升级网站
  • 百度自动驾驶技术南昌seo推广外包
  • 中国建设银行网站怎么登录不上wordpress增加英文
  • 网站建设哪家便WordPress 输入任意作者
  • 网站建设需要提供的资料太原百度公司地址
  • 厦门同安网站制作企业中山商城网站建设
  • 企业网站的内容营销ui界面设计师
  • 网站优化需要哪些工具广告关键词有哪些类型
  • 视频网站源码下载海丰县建设局网站
  • 广州公司网站建设公司网站模板 单页
  • 专门做茶叶的网站网站建设 坚持实用原则
  • asp 网站开发教程传媒公司logo
  • 阳江公司做网站怎样制作网站的步骤