长沙哪家网络公司做网站好,域名注册服务器,wordpress注入,做免费推广的平台Pandas数据清洗 删除缺失值检测缺失值填充缺失值拉格朗日插值线性插值 在处理数据的时候#xff0c;需要对数据进行一个清洗过程。清洗操作包括#xff1a;空白行的删除、数据完整性检验、数据填充、插值等内容。
下面是数据清洗过程中使用的具体方法
删除缺失值
DataFram… Pandas数据清洗 删除缺失值检测缺失值填充缺失值拉格朗日插值线性插值 在处理数据的时候需要对数据进行一个清洗过程。清洗操作包括空白行的删除、数据完整性检验、数据填充、插值等内容。
下面是数据清洗过程中使用的具体方法
删除缺失值
DataFrame.dropna 方法用于删除含有缺失值的行或列关键参数axis 和how。
axis 表示轴向0 为行1 为列默认 0。
how 表示删除形式how any 表示只要有缺失值就删除howall 表示全为缺失值才删除。
检测缺失值
DataFrame.isnull() 识别缺失值返回包含True和False的 DataFrame。 DataFrame.notnull() 方法识别非缺失值返回包含True和False的 DataFrame。 上述两方法结合sum函数可用于检测数据序列中缺失值的分布情况。
填充缺失值
DataFrame.fillna 方法能用指定值替换缺失值。关键参数value、method和axis。
value 表示指定的填充值。
method method bfill后向填充用后面的非缺失值填充 method ffill前向填充用前面的非缺失值填充。
axis 表示操作轴向默认1列。
拉格朗日插值
from scipy.interpolate import lagrange
formula lagrange(x,y)#formula是通过lagrange方法生成的公式x和y为数据序列
ins_y formula(ins_x)#ins_x为缺失值所在位置ins_y为插值结果。线性插值
from scipy.interpolate import interp1d#1是数字一
formula interp1d(x,y,kind linear)#formula是通过linear方法生成的公式x和y为数据序列
ins_y formula(ins_x)#ins_x为缺失值所在位置ins_y为插值结果。