网站建设 pdf,企业产品微网站收费吗,佛山营销网站,安防公司手机网站目录
所有列是否完全重复
指定某一列是否重复
根据多列判断是否重复#xff0c;防止误删数据
其他数据预处理方法 通过八爪鱼或者火车头等采集器从全网抓取的数据中#xff0c;总会存在各种各样的重复数据#xff0c;为保证数据在使用过程中的准确性#xff0c;总要先进…目录
所有列是否完全重复
指定某一列是否重复
根据多列判断是否重复防止误删数据
其他数据预处理方法 通过八爪鱼或者火车头等采集器从全网抓取的数据中总会存在各种各样的重复数据为保证数据在使用过程中的准确性总要先进行一番清洗。
所有列是否完全重复
在Pandas中.duplicated()表示找出重复的行默认是判断全部列返回布尔类型的结果。对于完全没有重复的行返回 False对于有重复的行第一次出现的那一行返回 False其余的返回 True。
与.duplicated()对应的.drop_duplicates()表示去重即删除布尔类型为 True的所有行默认是判断全部列。
import pandas as pd
import numpy as np
from pandas import DataFrame,Series#读取文件
datafile uE:\\pythondata\\tt.xlsx#文件所在位置u为防止路径中有中文名称此处没有可以省略
data pd.read_excel(datafile)#datafile是excel文件所以用read_excel,如果是csv文件则用read_csv
examDf DataFrame(data)
examDf#输出源数据直观的查看哪些行是重复的 运行结果 nameheightbirthdayconstellationBlood0Jay1751979摩羯座O1Jay1751979摩羯座O2Jolin1561980处女座A3Jolin1561980NaNA4Hannah1651993狮子座B5JJ1731981白羊座O6Eason1731974狮子座O很明显第 0 行和第 1 行是完全重复的开始去重接着上面的代码
#去重
print(examDf.duplicated())#判断是否有重复行重复的显示为TRUE
examDf.drop_duplicates()#去掉重复行 指定某一列是否重复
上述的数据中我们可以发现第 2 行和第 3 行其实都是 Jolin 的信息那么也是需要去重的。.duplicated()默认是判断全部列那么加一点东西就可以判断指定某一列了。
print(examDf.duplicated(name))#判断name列是否有重复行重复的显示为TRUE
examDf.drop_duplicates(name)#去掉重复行 运行结果 在实际应用中需要指定的这一列往往是合同号项目编号这一类的 根据多列判断是否重复防止误删数据
仅仅根据name列判断是否重复难免会把重名的另一个人的信息误删比如娱乐圈的杨洋小鲜肉男和杨洋快女仅根据name判断是否重复的话肯定会将其中一人的信息判断为重复数据那么就增加几个判断条件比如根据姓名性别生日三个条件来判断的话误删的几率就会大大的减少。
import pandas as pd
import numpy as np
from pandas import DataFrame,Series#读取文件
datafile uE:\\pythondata\\tt.xlsx#文件所在位置u为防止路径中有中文名称此处没有可以省略
data pd.read_excel(datafile)#datafile是excel文件所以用read_excel,如果是csv文件则用read_csv
examDf DataFrame(data)
print(examDf.duplicated([name,sex,birthday]))#判断name,sex,birthday列是否有重复行重复的显示为TRUE
examDf.drop_duplicates([name,sex,birthday])#去掉重复行 运行结果 望指正 其他数据预处理方法
拉格朗日插值法补充缺失值
连续数据离散化等宽、等频、聚类离散
数据预处理 - 归一化与标准化