df4loop
v0.1.0
DF4Loop은 pandas.dataframe과 loop의 조합이 필요한 범용 프로세스를 지원합니다. 구체적으로, DF4Loop의 사명은 낮은 설치 비용으로 "처리"를 "가속화"하고 "복잡한 코드를 직관적으로 만드는 것"입니다.
pip install df4loop다음 데이터 프레임은 사용자가 DF4Loop 사용을 구상 할 수 있도록 정의됩니다.
import pandas as pd
sample_dict = {
"column_1" : [ 100 , 200 , 300 , 400 , 500 ],
"column_2" : [ "A" , "B" , "C" , "D" , "E" ],
"column_3" : [ "a" , "b" , "c" , "d" , "e" ],
}
df = pd . DataFrame . from_dict ( sample_dict )
df| column_1 | column_2 | column_3 | |
|---|---|---|---|
| 0 | 100 | 에이 | 에이 |
| 1 | 200 | 비 | 비 |
| 2 | 300 | 기음 | 기음 |
| 3 | 400 | 디 | 디 |
| 4 | 500 | 이자형 | 이자형 |
dfiterator는 개발자가 다음 코드를 작성하는 데 도움이됩니다. 이것은 값을 행으로 참조 할 목적으로 pandas.dataframe.iterrows를 사용하여 작성된 코드입니다.
for index , row in df . iterrows ():
tmp = row [ "column_1" ]dfiterator는이 과정을 재현하고 속도를 높입니다. 실제로 Dataframe과 Row Pandas.series는 속도를 높이기 위해 목록 및 사전으로 변환됩니다. 그러나 사용법은 거의 동일합니다.
from df4loop import DFIterator
df_iterator = DFIterator ( df )
for index , row in df_iterator . iterrows ():
tmp = row [ "column_1" ] 인덱스를 출력 할 필요가 없으면 return_indexes=False 설정하십시오.
from df4loop import DFIterator
df_iterator = DFIterator ( df )
for row in df_iterator . iterrows ( return_indexes = False ):
tmp = row [ "column_1" ]DFGenerator는 루프로 설정된 행으로 데이터 프레임 생성을 지원합니다. 루프에서 데이터 프레임에 행을 추가하면 처리하는 데 시간이 오래 걸립니다. 속도를 높이는 비결은 목록이나 사전에서 행을 정리 한 다음 한 번에 pandas.dataframe로 만드는 것입니다. DFGenerator는 직관적 인 구현을위한이 프로세스를 지원합니다.
다음 코드는 DICT 유형을 행으로 선택하는 예입니다.
from df4loop import DFGenerator
# It is not necessary to specify columns.
df_generator = DFGenerator ( columns = df . columns . values . tolist ())
for _ , row in df . iterrows ():
tmp_row = {
"column_1" : row [ "column_1" ],
"column_2" : row [ "column_2" ],
"column_3" : row [ "column_3" ],
}
df_generator . append ( tmp_row )
new_df = df_generator . generate_df ()다음 코드는 목록 유형을 행으로 선택하는 예입니다. 초기화 중에 열을 지정해야합니다.
from df4loop import DFGenerator
df_generator = DFGenerator ( columns = df . columns . values . tolist ())
for _ , row in df . iterrows ():
tmp_row = [
row [ "column_1" ],
row [ "column_2" ],
row [ "column_3" ],
]
df_generator . append ( tmp_row )
new_df = df_generator . generate_df ()