免费搭建商业网站,软件工程和网络工程哪个好,求一个好用的网站,做是么网站吞一块大饼#xff0c;还不如切成小块吃得香常见的数据集#xff0c;要么是数列#xff0c;要么是表格#xff1b;因此#xff0c;数据分析最首要的是#xff0c;处理一维、二维数据。主要知识点可参考如图。如需要#xff0c;可点击以下百度网盘链接下载数据分析基础知…吞一块大饼还不如切成小块吃得香常见的数据集要么是数列要么是表格因此数据分析最首要的是处理一维、二维数据。主要知识点可参考如图。如需要可点击以下百度网盘链接下载数据分析基础知识图PDFmindmap2_数据分析基础.pdf308.7K · 百度网盘数据分析常用第三方包NumpyPandasMatplotlib#导入numpy包
import numpy as np
#导入pandas包
import pandas as pd1. 一维数据NumpyNumerical Python: ArrayPandas: Series1.1 Numpy-Array#定义一维数组array
#参数:一个列表[2,3,4,5]
a np.array([2,3,4,5])#查询
a[0]
2#切片访问获取指定序号范围的元素
#a[1:3]获取到的是序号从1到3的元素
a[1:3]
array([3, 4])#切片访问反序
a[::-1]
array([5, 4, 3, 2])#循环访问
for i in range(len(a)):print(a[i])
2
3
4
5#循环访问
for i in a: # 获取a数组里面的数据从i2开始print(a[i-2])
2
3
4
5#循环访问
for i in a:print(i)
2
3
4
5#查看数据类型
a.dtype
dtype(int32)#统计计算:平均值
a.mean()
3.5#统计计算:标准差
a.std()
1.118033988749895#向量化计算向量相加
bnp.array([1,2,3])
cnp.array([4,5,6])
bc
array([5, 7, 9])#向量化计算乘以标量
db*4
d
array([ 4, 8, 12])区别Numpy数组Python列表1.处理多维数组ndArraylist嵌套2.存储、运算效率Array list3.元素数据类型Array必须相同List可不同1.2 Pandas-Series#定义一维数据结构:Seriesindex为索引
#存放6家公司某一天的股价单位是美元
stockSpd.Series([54.74,190.9,173.14,1050.3,181.86,1139.49],index[腾讯,阿里巴巴,苹果,谷歌,Facebook,亚马逊])
stockS#获取描述统计信息
stockS.describe()统计信息含义如下数据条数count平均值mean标准差std最小值min下四位数25%中位数50%上四位数75%最大值max#访问iloc属性用于根据下标获取值
stockS.iloc[0]
54.74#访问loc属性用于根据索引获取值
stockS.loc[腾讯]
54.74#向量化运算向量相加
s1pd.Series([1,2,3,4],index[a,b,c,d])
s2pd.Series([10,20,30,40],index[a,b,e,f])
s3s1s2
s3#处理空值的方法
#方法1删除
s3.dropna()#方法2填充
s3s1.add(s2,fill_value0)
s32.二维数据Numpy: ArrayPandas: DataFrameDataFrame处理表格数据比较方便2.1 Numpy-Array#定义二维数组
anp.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]
])#访问获取元素
#行号0列号2
a[0,2]
3#访问整行
#获取第1行
a[0,:]
array([1, 2, 3, 4])#访问整列
#获取第1列
a[:, 0]
array([1, 5, 9])#数轴参数 axis
#axis0down纵向处理
#axis1across横向处理#所有平均值
print(a.mean())#每行平均值即每一行取所有列的平均值
print(a.mean(axis1))#删除某一列即列集沿着水平的方向依次删掉
#a.drop(colNames,axis1)6.5
[ 2.5 6.5 10.5]2.2 Pandas-DataFrame#定义
#第1步定义一个字典映射列名与对应列的值
#现Python3的字典对象为有序
salesDict{购药时间:[2018-01-01 星期五,2018-01-02 星期六,2018-01-06 星期三],社保卡号:[001616528,001616528,0012602828],商品编码:[236701,236701,236701],商品名称:[强力VC银翘片,清热解毒口服液,感康],销售数量:[6,1,2],应收金额:[82.8,28,16.8],实收金额:[69,24.64,15]
}#第2步定义数据框DataFrame
salesDfpd.DataFrame(salesDict)
salesDf#平均值是按每列来求平均值
salesDf.mean()#访问iloc属性用于根据下标获取值
#查询第1行第2列的元素
salesDf.iloc[0,1]
001616528#获取第1行:代表所有列
salesDf.iloc[0,:]#获取第1列:代表所有行
salesDf.iloc[:,0]#访问loc属性用于根据索引名获取值
#查询第1行商品编码列的元素
salesDf.loc[0,商品编码]
236701#获取“商品名称”这一列
#salesDf.loc[:,商品名称]
salesDf[商品名称] #简单方法3.查询操作3.1 查询列#指定列
#通过列表来选择某几列的数据
salesDf[[商品名称,销售数量]]#指定连续的列
#通过切片功能获取指定范围的列
salesDf.loc[:,购药时间:销售数量]3.2 条件筛选#第1步构建查询条件对象是Series数据元素是bool
querySersalesDf.loc[:,销售数量]1
type(querySer)
pandas.core.series.SeriesquerySer#第2步应用查询条件
#只能指定列
#ErrorsalesDf.loc[:,querySer]
salesDf.loc[querySer]salesDf.loc[querySer,商品编码:销售数量]#多个条件删选
querySer1salesDf.loc[:,商品名称]!感康
salesDf.loc[querySer1querySer]上一章Queenie数据分析1_入门Pythonzhuanlan.zhihu.com