不管是机器学习中还是其他项目里,数据里有nan值的话,后面计算很大概率都会影响最终结果。所以要么说在源文件中避免出现nan值,要么在程序中对文件中的nan值进行处理。
比如对于在pandas中出现anan值,直接使用dropna()
方法对其进行处理即可,默认会删除包含有nan值的行。
df.dropna()
想删除包含nan的列的话,用下面这个:
df.dropna(axis=1)
如果删除特定的包含nan的单元格,用这个:
df.dropna(subset=[0,2])
仅检查并删除第 0 列和第 2 列含 NaN 的行。