开发者

Pandas.DataFrame重置列的行名实现(set_index)

开发者 https://www.devze.com 2023-02-24 09:26 出处:网络 作者: 饺子大人
目录set_index()的使用方法基本用法将指定的列保留为数据:参数drop分配多索引将索引更改为另一列(重置)更改原始对象:参数inplace读取csv文件等时指定索引使用索引(行名)提取(选择)行和元素pandas.DataFram
目录
  • set_index()的使用方法
    • 基本用法
    • 将指定的列保留为数据:参数drop
    • 分配多索引
  • 将索引更改为另一列(重置)
    • 更改原始对象:参数inplace
  • 读取csv文件等时指定索引
    • 使用索引(行名)提取(选择)行和元素

      pandas.DataFrame中的现有列分配给索引index(行名,行标签)。为索引指定唯一的名称很方便,因为使用loc,at选择(提取)元素时很容易理解。

      将描述以下内容。

      set_index()的使用方法

      • 基本用法
      • 将指定的列保留为数据:参数drop
      • 分配多索引
      • 将索引更改为另一列(重置)
      • 更改原始对象:参数inplace

      读取csv文件等时指定索引

      使用索引(行名)提取(选择)行和元素

      了解如何更改索引的一部分或将整个列表替换为列表等,而不是将现有列分配给索引。

      请参考以下文章,

      Pandas.DataFrame的行名和列名的修改

      以下面的数据为例。

      import pandas as pd
      
      df = pd.read_csv('./data/22/sample_pandas_normal.csv')
      print(df)
      #    name age state point
      # 0  Alice  24  NY   64
      # 1   Bob  42  CA   92
      # 2 Charlie  18  CA   70
      # 3   Dave  68  TX   70
      # 4  Ellen  24  CA   88
      # 5  Frank  30  NY   57

      set_index()的使用方法

      基本用法

      在第一个参数键中指定用作索引的列的列名(列标签)。指定的列设置为索引。

      df_i = df.set_index('name')
      print(df_i)
      #          age state  point
      # name                     
      # Alice     24    编程NY     64
      # Bob       42    CA     92
      # Charlie   18    CA     70
      # Dave      68    TX     70
      # Ellen     24    CA     88
      # Frank     30    NY     57
      

      将指定的列保留为数据:参数drop

      默认情况下,如上例所示,从数据列中删除指定的列。如果参数drop = False,则指定的列将设置为index,并且也将保留在data列中。

      df_id = df.set_index('name', drop=False)
      print(df_id)
      #             name  age state  point
      # name                              
      # Alice      Alice   24    NY qvZJNUVCvq    64
      # Bob          Bob   42    CA     92
      # Charlie  Charlie   18    CA     70
      # Dave        Dave   68    TX     70
      # Ellen      Ellen   24    CA     88
      # Frank      Frank   30    NY     57
      

      分配多索引

      如果在第一个参数键中指定了列名列表(列标签),则将多列分配为多索引。

      df_mi = df.set_index(['state', 'name'])
      print(df_mi)
      #                age  point
      # state name               
      # NY    Alice     24     64
      # CA    Bob       42     92
      #       Charlie   18     70
      # TX    Dave      68     70
      # CA    Ellen     24     88
      # NY    Frank     30     57
      

      使用sort_index()排序时,它可以整齐显示。

      df_mi.sort_index(inplace=True)
      print(df_mi)
      #                age  point
      # state name               
      # CA    Bob       42     92
      #       Charlie   18     70
      #       Ellen     24     88
      # NY    Alice     24     64
      #       Frank     30     57
      # TX    Dave      68     70
      

      使用sort_values()对行进行排序以进行说明。有关排序的详细信息,请参见以下文章。

      pandas.DataFrame,Series排序(sort_values,sort_index)

      默认情况下,如果在set_index()中指定一列,则原始索引将被删除。

      print(df_i)
      #     age state point
      # name          
      # Alice   24  NY   64
      # Bob    42  CA   92
      # Charlie  18  CA   70
      # Dave   68  TX   70
      # Ellen   24  CA   88
      # Frank   30  NY   57
      
      df_ii = df_i.set_index('state')
      print(df_ii)
      #    age point
      # state      
      # NY   24   64
      # CA   42   92
      # CA   18   70
      # TX   68   70
      # CA   24   88
      # NY   30   57

      如果将参数append设置为True,则除了原始索引之外,还将将指定的列添加为新的层次结构索引。

      df_mi = df_i.set_index('state', append=True)
      print(df_mi)
      #                age  point
      # name    state            
      # Alice   NY      24     64
      # Bob     CA      42     92
      # Charlie CA      18     70
      # Dave    TX      68     70
      # Ellen   CA      24     88
      # Frank   NY      30     57
      

      添加的列是最底层。使用swaplevel()切换图层。

      print(df_mi.swaplevel(0, 1))
      #                age  point
      # state name               
      # NY    Alice     24     64
      # CA    Bob       42     92
      #       Charlie   18     70
      android# TX    Dave      68     70
      # CA    Ellen     24     88
      # NY    Frank     30     57
      

      将索引更改为另一列(重置)

      与前面的示例一样,如果使用set_index()指定列,则原始索引将被删除。

      如果要保留原始索引,请使用reset_index(),它会从0开始按顺序对索引重新编号。

      print(df_i)
      #     age state point
      # name          
      # Alice   24  NY   64
      # Bob    42  CA   92
      # Charlie  18  CA   70
      # Dave   68  TX   70
      # Ellen   24  CA   88
      # Frank   30  NY   57
      
      df_ri = df_i.reset_index()
      print(df_randroidi)
      #    name age state point
      # 0  Alice  24  NY   64
      # 1   Bob  42  CA   92
      # 2 Charlie  18  CA   70
      # 3   Dave  68  TX   70
      # 4  Ellen  24  CA   88
      # 5  Frank  30  NY   57

      如果要将索引更改(重置)到另一列,请在reset_index()之后使用set_index()。如果一次性全部编写,将如下所示。

      df_change = df_i.reset_index().set_index('state')
      print(df_change)
      #           name  age  p编程oint
      # state                     
      # NY       Alice   24     64
      # CA         Bob   42     92
      # CA     Charlie   18     70
      # TX        Dave   68     70
      # CA       Ellen   24     88
      # NY       Frank   30     57
      

      请注意,为方便起见,在此示例中将具有重叠值的列设置为索引,但是如果索引值不重叠(每个值都是唯一的),则更容易选择数据。

      另请参见以下有关reset_index()的文章。

      Pandas.DataFrame,重置Series的索引index(reset_index)

      更改原始对象:参数inplace

      默认情况下,set_index()不会更改原始对象并返回新对象,但是如果inplace参数为True,则原始对象将被更改。

      df.set_index('name', inplace=True)
      print(df)
      #          age state  point
      # name                     
      # Alice     24    NY     64
      # Bob       42    CA     92
      # Charlie   18    CA     70
      # Da开发者_JS开发ve      68    TX     70
      # Ellen     24    CA     88
      # Frank     30    NY     57
      

      读取csv文件等时指定索引

      从csv文件等中读取并生成pandas.DataFrame或pandas.Series时,如果原始文件包含要用作索引的列,则可以在读取时指定该列。

      使用read_csv()读取文件时,在参数index_col中指定一个列号,该列即成为索引。

      df = pd.read_csv('./data/22/sample_pandas_normal.csv', index_col=0)
      print(df)
      #          age state  point
      # name
      # Alice     24    NY     64
      # Bob       42    CA     92
      # Charlie   18    CA     70
      # Dave      68    TX     70
      # Ellen     24    CA     88
      # Frank     30    NY     57
      

      有关读取csv和tsv文件的详细信息,请参见以下文章。

      Pandas读取csv/tsv文件(read_csv,read_table)

      使用索引(行名)提取(选择)行和元素

      与前面的示例一样,如果在索引(行名,行标签)中指定唯一的字符串,则可以按名称提取(选择)行或元素。

      print(df)
      #     age state point
      # name          
      # Alice   24  NY   64
      # Bob    42  CA   92
      # Charlie  18  CA   70
      # Dave   68  TX   70
      # Ellen   24  CA   88
      # Frank   30  NY   57
      
      print(df.loc['Bob'])
      # age   42
      # state  CA
      # point  92
      # Name: Bob, dtype: object
      
      print(df.at['Bob', 'age'])
      # 42

      有关loc和at的信息,请参见以下文章。

      Pandas获取和修改任意位置的值(at,iat,loc,iloc)

      到此这篇关于Pandas.DataFrame重置列的行名实现(set_index)的文章就介绍到这了,更多相关Pandas.DataFrame重置列的行名内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

      0

      精彩评论

      暂无评论...
      验证码 换一张
      取 消

      关注公众号