pandas中的DataFrame数据遍历解读_开发_开发者

pandas DataFrame数据遍历

读取csv内容，格式与数据类型如下

data = pd.read_csv('save\LH8888.csv')
print(type(data))
print(data)

输出结果如下：

pandas中的DataFrame数据遍历解读

按行遍历数据：iterrows

获取行名：名字、年龄、身高、体重

for i, line in data.iterrows():
	print(i)
    print(line)
    print(line['date'])

输出结果如下：

i：是数据的索引，表示第几行数据
line：是每一行的具体数据
line[‘date’]：通过字典的方式，能够读取数据

pandas中的DataFrame数据遍历解读

按行遍历数据：itertuples

for line in data.itertuples():
    print(line)

输出结果如下：

pandas中的DataFrame数据遍历解读

访问date方式如下：

for line in data.itertuples():
    print(line)
    print(getattr(line, 'date'))
    print(line[1])

输出结果如下：

pandas中的DataFrame数据遍历解读

按列遍历数据：iteritems

for i, index in data.iteritems():
    print(index)

输出结果如下，使用方式同iterrows。

pandas中的DataFrame数据遍历解读

读取和修改某一个数据

pandas中的DataFrame数据遍历解读

例如：我们想要读取行索引为：1，列索引为：volume的值 27，代码如下：

iloc：需要输入索引值，索引从0开始
loc：需要输入对应的行名和列名

print(data.iloc[1, 5])
print(data.loc[1, 'volume'])

例如：我们想要将行索引为：1，列索引为：volume的值 27 修改为10，代码如下：

data.iloc[1, 5] = 10
print(data.loc[1, 'volume'])
print(data)

输出结果如下：

pandas中的DataFrame数据遍历解读

遍历dataframe中每一个数据

for i in range(data.shape[0]):
    for j in range(data.shape[1]):
        print(data.iloc[i, j])

输出结果如下，按行依次打印：

pandas中的DataFrame数据遍历解读

dataframe遍历效率对比

构建数据

import pandas as pd
import numpy as np

# 生成樣例數據
def gen_sample():
  aaa = np.random.uniform(1,1000,3000)
  bbb = np.random.uniform(1,1000,3000)
  ccc = np.random.uniform(1,1000,3000)
  ddd = np.random.uniform(1,1000,3000)
  return pd.DataFrame({'aaa':aaa,'bbb':bbb, 'ccc': ccc, 'ddd': ddd})

9种遍历方法

# for + iloc 定位
def method0_sum(DF):
    for i in range(len(DF)):
        a = DF.iloc[i,0] + DF.iloc[i,1]

# for + iat 定位
def method1_sum(DF):
    for i in rang开发者_JS教程e(len(DF)):
        a = DF.iat[i,0] + DF.iat[i,1]

# pandaswww.devze.com.DataFrame.iterrows() 迭代器
def method2_sum(DF):
    for index, rows in http://www.devze.comDF.iterrows():
        a = rows['aaa'] + rows['bbb']

# pandas.DataFrame.apply 迭代
def method3_sum(DF):
    a = DF.apply(lambda x: x.aaa + x.bbb, axis=1)

# pandas.DataFrame.apply 迭代 
def method4_sum(DF):
    a = DF[['aaa','bbb']].apply(lambda x: x.aaa + x.bbb, axis=1)
    
# 列表
def method5_sum(DF):
    a = [ a+b for a,b in zip(DF['aaa'],DF['bbb']) ]

# pandas  
def method6_sum(DF):
    a = DF['aaa'] + DF['bbb']

# numpy 
def method7_sum(DF):
    a = DF['aaa'].values + DF['bbb'].values
    
# for + itertuples
def method8_sum(DF):
    for row in DF.itertuples():
        a = getattr(row, 'aaa') + getattr(row, 'bbb')

效率对比

df = gen_sample()
print('for + iloc 定位:')
%timeit method0_sum(df)

df = gen_sample()
print('for + iat 定位:')
%timeit method1_sum(df)

df = gen_sample()
print('apply 迭代:')
%timeit method3_sum(df)

df = gen_sample()
print('apply 迭代 + 兩列:')
%timeit method4_sum(df)

df = gen_sample()
print('列表:')
%timeit method5_sum(df)

df = gen_sample()
print('pandas 数组操作:')
%timeit method6_sum(df)

df = gen_sample()
print('numpy 数组操作：')
%timeit method7_sum(df)

df = gen_sample()
print('for itertuples')
%timeit method8_sum(df)

df = gen_sample()
print('for iteritems')
%timeit method9_sum(df)

df = gen_sample()
print('for iterrows:')
%timeit method2_sum(df)

结果：

for + iloc 定位:
225 ms ± 9.14 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
for + iat 定位:
201 ms ± 6.37 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
apply 迭代:
88.3 ms ± 2.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
apply 迭代 + 兩列:
91.2 ms ± 5.29 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
列表:
1.12 ms ± 54.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
pandas 数组操作:
262 µs ± 9.21 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
numpy 数组操作：
14.4 µs ± 383 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
for itertuples
6.4 ms &plusm编程客栈n; 265 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
for iterrows:
330 ms ± 22.3 ms jsper loop (mean ± std. dev. of 7 runs, 1 loop each)

说下结论

numpy数组 > iteritems > pandas数组 > 列表 > itertuples > apply > iat javascript> iloc > iterrows

itertuples > iterrows ；快50倍

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

pandas中的DataFrame数据遍历解读

目录

pandas DataFrame数据遍历

读取csv内容，格式与数据类型如下

按行遍历数据：iterrows

按行遍历数据：itertuples

按列遍历数据：iteritems

读取和修改某一个数据

遍历dataframe中每一个数据

dataframe遍历效率对比

构建数据

9种遍历方法

效率对比

说下结论

总结

精彩评论

关注公众号

热门标签

图文推荐

pandas中的DataFrame数据遍历解读

目录

pandas DataFrame数据遍历

读取csv内容，格式与数据类型如下

按行遍历数据：iterrows

按行遍历数据：itertuples

按列遍历数据：iteritems

读取和修改某一个数据

遍历dataframe中每一个数据

dataframe遍历效率对比

构建数据

9种遍历方法

效率对比

说下结论

总结

更多 开发 相关资讯：

精彩评论

关注公众号

热门标签

图文推荐

更多开发相关资讯：