df4loop
v0.1.0
DF4LOOP支持需要pandas.dataframe和loop组合的通用过程。具体来说,DF4LOOP的任务是“加速处理”和“使复杂的代码直观”以低安装成本。
pip install df4loop定义了以下数据框架以帮助用户设想使用DF4LOOP。
import pandas as pd
sample_dict = {
"column_1" : [ 100 , 200 , 300 , 400 , 500 ],
"column_2" : [ "A" , "B" , "C" , "D" , "E" ],
"column_3" : [ "a" , "b" , "c" , "d" , "e" ],
}
df = pd . DataFrame . from_dict ( sample_dict )
df| 列_1 | 列_2 | 列_3 | |
|---|---|---|---|
| 0 | 100 | 一个 | 一个 |
| 1 | 200 | b | b |
| 2 | 300 | c | c |
| 3 | 400 | d | d |
| 4 | 500 | e | e |
dfiterator可帮助开发人员编写以下代码。这是使用pandas.dataframe.iterrows编写的代码,目的是引用一个行。
for index , row in df . iterrows ():
tmp = row [ "column_1" ]dfiterator重现了此过程并加快了速度。实际上,DataFrame及其行Pandas。系列被转换为列表和词典以加快速度。但是,用法几乎相同。
from df4loop import DFIterator
df_iterator = DFIterator ( df )
for index , row in df_iterator . iterrows ():
tmp = row [ "column_1" ]如果您不需要输出索引,请设置return_indexes=False 。
from df4loop import DFIterator
df_iterator = DFIterator ( df )
for row in df_iterator . iterrows ( return_indexes = False ):
tmp = row [ "column_1" ]DFGENERATOR支持LOOPS设置的行数据框架的生成。将行添加到循环中的数据框中将需要很长时间才能处理。加速加速的秘诀是在列表或字典中组织行,然后立即制作pandas.dataframe。 DFGenerator支持此过程以实现直观。
以下代码是将DICE类型选择为行选择的示例。
from df4loop import DFGenerator
# It is not necessary to specify columns.
df_generator = DFGenerator ( columns = df . columns . values . tolist ())
for _ , row in df . iterrows ():
tmp_row = {
"column_1" : row [ "column_1" ],
"column_2" : row [ "column_2" ],
"column_3" : row [ "column_3" ],
}
df_generator . append ( tmp_row )
new_df = df_generator . generate_df ()以下代码是选择列表类型作为行的示例。必须在初始化期间指定列。
from df4loop import DFGenerator
df_generator = DFGenerator ( columns = df . columns . values . tolist ())
for _ , row in df . iterrows ():
tmp_row = [
row [ "column_1" ],
row [ "column_2" ],
row [ "column_3" ],
]
df_generator . append ( tmp_row )
new_df = df_generator . generate_df ()