@
目录
- Python--Pandas简单了解
- 1. Pandas介绍
- 1.1 Pandas介绍 - 数据处理工具
- 1.2 为什么使用Pandas
- 1.3 DataFrame
- DataFrame索引的设置
- 2. 基本数据操作
- 2.1 索引操作
- 2.2 赋值
- 2.3 排序
- 3. DataFrame运算
- 算术运算
- 逻辑运算
- 统计运算
- 自定义运算
- 4. Pandas画图
- pandas.DataFrame.plot
- 5 文件读取与存储
- 5.1 CSV
- 1. 读取csv文件-read_csv()
- 2.写入csv文件-to_csv()
- 5.2 HDF5
- 1. 读取HDF5文件-read_hdf()
- 2.写入HDF5文件-to_hdf()
- 5.3 JSON
- 1. read_json()
- 2. to_json()
- 5.1 CSV
- 1. Pandas介绍

文章插图
Python--Pandas简单了解1. Pandas介绍1.1 Pandas介绍 - 数据处理工具
panel+data+analysis- panel面板数据 - 计量经济学 三维数据
- 便捷的数据处理能力
- 读取文件方便
- 封装了
Matplotlib、Numpy的画图和计算
- 结构:既有行索引,又有列索引的二维数组
- 属性:
shape# (2,3)index: 行索引,表名不同行,横向索引,叫indexcolumns: 列索引,表名不同列,纵向索引,叫columnsvalues:直接获取其中array的值T: 转置
- 方法:
head()默认显示前5行,可指定head(3)tail()默认显示后5行
- 3 DataFrame索引的设置
- 1)修改行列索引值
- 2)重设索引
- 3)设置新索引

文章插图

文章插图
DataFrame索引的设置
- 以某列值设置为新的索引
set_index(keys, drop=True)keys: 列索引名称或者列索引名称的列表drop:boolean, default True. 当作新的索引,删除原来的列

文章插图
- 2
PanelDataFrame的容器
- 3
Series- 带索引的一维数组
- 属性
indexvalues
- 总结:
DataFrame是Series的容器Panel是DataFrame的容器

文章插图
2. 基本数据操作2.1 索引操作
- 读取文件
data = https://tazarkount.com/read/pd.read_csv("./stock_day/stock_day.csv")
文章插图
- 删除一些列,让数据更简单些,再去做后面的操作
data = https://tazarkount.com/read/data.drop(["ma5","ma10","ma20","v_ma5","v_ma10","v_ma20"], axis=1)
文章插图
- 直接索引
- 先列后行
- 按名字索引
loc
- 按数字索引
iloc
- 组合索引
- 数字、名字

文章插图

文章插图
2.2 赋值

文章插图
2.3 排序
- 对内容排序
dataframeseries
- 对索引排序
dataframeseries
- 使用
df.sort_values(key= , ascending=)对内容进行排序- 单个键或者多个键进行排序,默认升序
ascending=False,降序ascending=True,升序
- 使用
series.sort_values(ascending=)对内容进行排序- series排序时,只有一列,不需要参数
ascending=False,降序ascending=True,升序
- 使用
series.sort_index(ascending=)对索引进行排序- 与df一致

文章插图
3. DataFrame运算算术运算

文章插图
逻辑运算
- 逻辑运算符
- 布尔索引
- 逻辑运算函数-`query()` 查询-`isin()` 是不是在条件中
文章插图
统计运算
min max mean median var std最小值,最大值,均值,中位数,方差,标准差
-np.argmax()
-np.argmin()
-describe()能够直接得出很多统计结果,count,mean,std,min,max- 计算平均值,标准差,最大值,最小值
- 对于单个函数去进行统计的时候,坐标轴还是按照这些默认为"columns"(axis=0, default), 如果要对行"index"需要指定(axis=1)

文章插图
apply(func, axis=0)func:自定义函数axis=0:默认是列,axis=1为行进行运算
- 定义一个对列,最大值 最小值的函数

文章插图
4. Pandas画图pandas.DataFrame.plot
DataFrame.plot(x-None, y=None, kind='line')x: label or positon, default Noney: label, positon or list of label , positions, default None- Allows plotting of one colume versus another 允许绘制一列对另一列
kind: str'line': line plot (default)折线图'bar': vertical bar plot'barh': horizontal bar plot'hist': hisogram直方图'pie': pie plot饼状图'scatter': scatter plot散点图
pandas.read_csv(filepath_or_buffer, sep=',' , delimiter = None)filepath_or_buffer: 文件路径usecols: 指定读取的列名, 列表形式
DataFrame.to_csv(path_or_buf=None, sep=',' ,columns=None, header=True, index=True, index_label=None, mode='w', encoding=None)path_or_buf: string or file handle, default Nonesep:character, default','columns: sequence, optionalmode: 'w':重写, 'a':追加index: 是否写进行索引header: boolean or list of string ,default True,是否写进索引值
Series.to_csv(path=None,index=True,sep=',',na_rep='',float_format=None,header=False,index_label=None,mode='w',encoding=None,compression=None,date_format=None,decimal='.')
data = https://tazarkount.com/read/pd.read_csv("stock_day2.csv", names=["open", "high", "close", "low", "volume", "price_change", "p_change", "ma5", "ma10", "ma20", "v_ma5", "v_ma10", "v_ma20", "turnover"])
文章插图
5.2 HDF5
hdf5 存储 3维数据的文件key1 dataframe1二维数据key2 dataframe2二维数据pd.read_hdf(path, key=)df.to_hdf(path, key=)1. 读取HDF5文件-read_hdf()HDF5文件的读取和存储都需要指定一个键,值为要存储的DataFramepandas.read_hdf(path_or_buf, key=None, **kwargs)- 从h5文件中读取数据
path_or_buf: 文件路径key:读取的键mode:打开文件的模式return:Theselected object
pip install tables2.写入HDF5文件-to_hdf()DataFrame.to_hdf(path_or_buf, key, **kwargs)path_or_buf: 文件路径key:读取的键mode:打开文件的模式return:Theselected object

文章插图
5.3 JSON1. read_json()
pandas.read_json(path_or_buf=None, orient=None, typ='frame', lines=False)- 将JSON格式准换成默认的Pandas DataFrame格式
orient: string, Indication of expected JSON string format.'split':dict like {index -> [index], columns -> [columns], data -> [values]}'records': list like [{column -> value}, ..., {column -> value}]'index': dict like {index -> {column -> value}}'columns': dict like {column -> {index -> value}},默认该格式'values': just the values array
lines: boolean , default False- 按照每行读取json对象
typ: default ‘frame’, 指定转换成的对象类型series或者dataframe

文章插图
2. to_json()

文章插图
- 春季老年人吃什么养肝?土豆、米饭换着吃
- 三八妇女节节日祝福分享 三八妇女节节日语录
- 老人谨慎!选好你的“第三只脚”
- 校方进行了深刻的反思 青岛一大学生坠亡校方整改校规
- 脸皮厚的人长寿!有这特征的老人最长寿
- 长寿秘诀:记住这10大妙招 100%增寿
- 春季老年人心血管病高发 3条保命要诀
- 眼睛花不花要看四十八 老年人怎样延缓老花眼
- 香槟然能防治老年痴呆症? 一天三杯它人到90不痴呆
- 老人手抖的原因 为什么老人手会抖
