Download do MLstatkit - MLstatkit CÓDIGO DOWNLOAD

MLstatkit

Código-Fonte de IA

v0.1.4

Baixar

Mlstatkit

O MLSTATKIT é uma biblioteca Python abrangente projetada para integrar perfeitamente métodos estatísticos estabelecidos em projetos de aprendizado de máquina. It encompasses a variety of tools, including Delong's test for comparing areas under two correlated Receiver Operating Characteristic (ROC) curves, Bootstrapping for calculating confidence intervals, AUC2OR for converting the Area Under the Receiver Operating Characteristic Curve (AUC) into several related statistics such as Cohen's d, Pearson's rpb, odds-ratio, and natural log odds-ratio, and Permutation_test for assessing the A significância estatística da diferença entre as métricas de dois modelos, arrastando aleatoriamente os dados e recalculando as métricas para criar uma distribuição de diferenças. Com seu design modular, o MLStatkit oferece aos pesquisadores e cientistas de dados um kit de ferramentas flexível e poderoso para aumentar suas análises e avaliações de modelos, atendendo a um amplo espectro de necessidades de testes estatísticos no domínio do aprendizado de máquina.

Instalação

Instale o mlstatkit diretamente do Pypi usando o PIP:

pip install MLstatkit

Uso

Teste de DeLong

A função Delong_test permite uma avaliação estatística das diferenças entre as áreas sob duas curvas de características operacionais do receptor correlacionadas (ROC) derivadas de modelos distintos . Isso facilita uma compreensão mais profunda do desempenho comparativo do modelo.

Parâmetros:

Verdadeiro : Matriz de forma (n_samples,)
Rótulos binários verdadeiros no intervalo {0, 1}.
prob_a : matriz de forma (n_samples,)
Probabilidades previstas pelo primeiro modelo.
prob_b : matriz de forma (n_samples,)
Probabilidades previstas pelo segundo modelo.

Retornos:

Z_SCORE : FLOAT
A pontuação Z da comparação dos AUCs de dois modelos.
P_VALUE : FLOAT
O valor de P da comparação dos AUCs de dois modelos.

Exemplo:

 from MLstatkit . stats import Delong_test

# Example data
true = np . array ([ 0 , 1 , 0 , 1 ])
prob_A = np . array ([ 0.1 , 0.4 , 0.35 , 0.8 ])
prob_B = np . array ([ 0.2 , 0.3 , 0.4 , 0.7 ])

# Perform DeLong's test
z_score , p_value = Delong_test ( true , prob_A , prob_B )

print ( f"Z-Score: { z_score } , P-Value: { p_value } " )

Isso demonstra o uso de Delong_test para comparar estatisticamente os AUCs de dois modelos com base em suas probabilidades e rótulos verdadeiros. O escore z retornado e o valor p ajudam a entender se a diferença no desempenho do modelo é estatisticamente significativa.

Bootstrapping para intervalos de confiança

A função Bootstrapping calcula intervalos de confiança para métricas de desempenho especificadas usando o bootstrapping, fornecendo uma medida da confiabilidade da estimativa. Ele suporta cálculo para AUROC (área sob a curva ROC), AUPRC (área sob a curva de precisão de precisão) e métricas de pontuação F1.

Parâmetros:

Verdadeiro : Matriz de forma (n_samples,)
Os rótulos binários verdadeiros, onde os rótulos são {0, 1}.
Prob : Matriz de forma (n_samples,)
As probabilidades previstas, conforme retornado pelo método Predict_Proba de um classificador, ou previsões binárias com base na função de pontuação especificada e no limite.
metric_str : str, padrão = 'f1'
Identificador para a função de pontuação usar. Os valores suportados incluem 'f1', 'precisão', 'recall', 'precisão', 'roc_auc', 'pr_auc' e 'média_precision'.
n_bootstraps : int, padrão = 1000
O número de iterações de bootstrap para executar. Aumentar esse número melhora a confiabilidade da estimativa do intervalo de confiança, mas também aumenta o tempo computacional.
confiança_level : float, padrão = 0,95
O nível de confiança para a estimativa de intervalo. Por exemplo, 0,95 representa um intervalo de confiança de 95%.
limiar : flutuação, padrão = 0,5
Um valor limite usado para converter probabilidades em rótulos binários para métricas como 'F1', quando aplicável.
Média : str, padrão = 'macro'
Especifica o método de média para se aplicar a alvos de várias classes/com vários rótulos. Outras opções incluem 'micro', 'amostras', 'ponderadas' e 'binárias'.
Random_state : int, padrão = 0
Semente para o gerador de números aleatórios. Este parâmetro garante a reprodutibilidade dos resultados.

Retornos:

Original_score : Float
A pontuação calculada a partir do conjunto de dados original sem bootstrapping.
confiança_lower : flutuação
O limite inferior do intervalo de confiança.
confiança_upper : flutuação
O limite superior do intervalo de confiança.

Exemplos:

 from MLstatkit . stats import Bootstrapping

# Example data
y_true = np . array ([ 0 , 1 , 0 , 0 , 1 , 1 , 0 , 1 , 0 ])
y_prob = np . array ([ 0.1 , 0.4 , 0.35 , 0.8 , 0.2 , 0.3 , 0.4 , 0.7 , 0.05 ])

# Calculate confidence intervals for AUROC
original_score , confidence_lower , confidence_upper = Bootstrapping ( y_true , y_prob , 'roc_auc' )
print ( f"AUROC: { original_score :.3f } , Confidence interval: [ { confidence_lower :.3f } - { confidence_upper :.3f } ]" )

# Calculate confidence intervals for AUPRC
original_score , confidence_lower , confidence_upper = Bootstrapping ( y_true , y_prob , 'pr_auc' )
print ( f"AUPRC: { original_score :.3f } , Confidence interval: [ { confidence_lower :.3f } - { confidence_upper :.3f } ]" )

# Calculate confidence intervals for F1 score with a custom threshold
original_score , confidence_lower , confidence_upper = Bootstrapping ( y_true , y_prob , 'f1' , threshold = 0.5 )
print ( f"F1 Score: { original_score :.3f } , Confidence interval: [ { confidence_lower :.3f } - { confidence_upper :.3f } ]" )

# Calculate confidence intervals for AUROC, AUPRC, F1 score
for score in [ 'roc_auc' , 'pr_auc' , 'f1' ]:
    original_score , conf_lower , conf_upper = Bootstrapping ( y_true , y_prob , score , threshold = 0.5 )
    print ( f" { score . upper () } original score: { original_score :.3f } , confidence interval: [ { conf_lower :.3f } - { conf_upper :.3f } ]" )

Teste de permutação para significância estatística

A função Permutation_test avalia a significância estatística da diferença entre as métricas de dois modelos, embaralhando aleatoriamente os dados e recalculando as métricas para criar uma distribuição de diferenças. Este método não assume uma distribuição específica dos dados, tornando -o uma opção robusta para comparar o desempenho do modelo.

Parâmetros:

Y_TRUE : Matriz de forma (n_samples,)
Os rótulos binários verdadeiros, onde os rótulos são {0, 1}.
prob_model_a : matriz de forma (n_samples,)
Probabilidades previstas do primeiro modelo.
prob_model_b : matriz de forma (n_samples,)
Probabilidades previstas do segundo modelo.
metric_str : str, padrão = 'f1'
A métrica para comparação. As métricas suportadas incluem 'f1', 'precisão', 'recall', 'precisão', 'roc_auc', 'pr_auc' e 'média_precision'.
n_bootstraps : int, padrão = 1000
O número de amostras de permutação a gerar.
limiar : flutuação, padrão = 0,5
Um valor limite usado para converter probabilidades em rótulos binários para métricas como 'F1', quando aplicável.
Média : str, padrão = 'macro'
Especifica o método de média para se aplicar a alvos de várias classes/com vários rótulos. Outras opções incluem 'micro', 'amostras', 'ponderadas' e 'binárias'.
Random_state : int, padrão = 0
Semente para o gerador de números aleatórios. Este parâmetro garante a reprodutibilidade dos resultados.

Retornos:

METRIC_A : FLOAT
A métrica calculada para o modelo A usando os dados originais.
METRIC_B : FLOAT
A métrica calculada para o modelo B usando os dados originais.
P_VALUE : FLOAT
O valor p do teste de permutação, indicando a probabilidade de observar uma diferença tão extrema quanto ou mais extrema do que a diferença observada sob a hipótese nula.
Benchmark : flutuação
A diferença observada entre as métricas do Modelo A e Modelo B.
Amostras_mean : Float
A média das diferenças permutadas.
Amostras_std : Float
O desvio padrão das diferenças permutadas.

Exemplos:

 from MLstatkit . stats import Permutation_test

y_true = np . array ([ 0 , 1 , 0 , 0 , 1 , 1 , 0 , 1 , 0 ])
prob_model_A = np . array ([ 0.1 , 0.4 , 0.35 , 0.8 , 0.2 , 0.3 , 0.4 , 0.7 , 0.05 ])
prob_model_B = np . array ([ 0.2 , 0.3 , 0.25 , 0.85 , 0.15 , 0.35 , 0.45 , 0.65 , 0.01 ])

# Conduct a permutation test to compare F1 scores
metric_a , metric_b , p_value , benchmark , samples_mean , samples_std = Permutation_test (
    y_true , prob_model_A , prob_model_B , 'f1'
)

print ( f"F1 Score Model A: { metric_a :.5f } , Model B: { metric_b :.5f } " )
print ( f"Observed Difference: { benchmark :.5f } , p-value: { p_value :.5f } " )
print ( f"Permuted Differences Mean: { samples_mean :.5f } , Std: { samples_std :.5f } " )

Conversão de AUC em odds ratio (ou)

A função AUC2OR converte uma área sob o valor da curva (AUC) em uma razão de chances (ou) e opcionalmente retorna valores intermediários como t, z, d e ln_or. Essa conversão é útil para entender a relação entre a AUC, uma métrica comum na classificação binária e, que é frequentemente usada em análises estatísticas.

Parâmetros:

AUC : flutuar
A área sob o valor da curva (AUC) a ser convertida.
return_all : bool, padrão = false
Se verdadeiro, retorna valores intermediários (t, z, d, ln_or), além de ou.

Retornos:

Ou : flutuar
O odds ratio calculado (OR) do valor da AUC fornecido.
T : flutuar, opcional
Valor intermediário calculado a partir da AUC.
Z : Float, opcional
Valor intermediário calculado a partir de t.
D : Float, opcional
Valor intermediário calculado a partir de z.
ln_or : flutuação, opcional
O logaritmo natural da razão de chances.

Exemplos:

 from MLstatkit . stats import AUC2OR

AUC = 0.7  # Example AUC value

# Convert AUC to OR and retrieve all intermediate values
t , z , d , ln_OR , OR = AUC2OR ( AUC , return_all = True )

print ( f"t: { t :.5f } , z: { z :.5f } , d: { d :.5f } , ln_OR: { ln_OR :.5f } , OR: { OR :.5f } " )

# Convert AUC to OR without intermediate values
OR = AUC2OR ( AUC )
print ( f"OR: { OR :.5f } " )

Referências

Teste de DeLong

A implementação do Delong_test no MLSTATKIT é baseada na seguinte publicação:

Xu Sun e Weichao Xu, "Implementação rápida do algoritmo de DeLong para comparar as áreas sob curvas de características operacionais correlacionadas do receptor", em IEEE Signal Processing Letters , vol. 21, não. 11, pp. 1389-1393, 2014, IEEE.

Bootstrapping

O método Bootstrapping para calcular intervalos de confiança não faz referência diretamente a uma única publicação, mas é uma técnica estatística amplamente aceita para estimar a distribuição de uma métrica reamostrando a substituição. Para uma visão geral abrangente dos métodos de inicialização, consulte:

B. Efron e R. Tibshirani, "Uma Introdução ao Bootstrap", Monografias de Chapman & Hall/CRC sobre estatísticas e probabilidade aplicada, 1994.

Teste de permutação

O Permutation_tests são utilizados para avaliar a significância da diferença nas métricas de desempenho entre dois modelos, realocando aleatoriamente observações para grupos e calculando a métrica. Essa abordagem não faz suposições de distribuição específicas, tornando -a versátil para vários tipos de dados. Para uma discussão fundamental sobre testes de permutação, consulte:

P. Good, "Testes de permutação: um guia prático para os métodos de reamostragem para testar hipóteses", Springer Series in Statistics, 2000.

Essas referências estabeleceram as bases para os testes e metodologias estatísticos implementados no MLSTATKIT, fornecendo aos usuários uma profunda compreensão de sua base científica e aplicabilidade.

AUC2or

A função AUR2OR converte a área sob a curva característica de operação do receptor (AUC) em várias estatísticas relacionadas, incluindo D de Cohen, RPB de Pearson, Ratio de odds e Odds-Ratio naturais. Essa conversão é particularmente útil na interpretação do desempenho dos modelos de classificação. Para uma explicação detalhada das fórmulas matemáticas usadas nesta conversão, consulte:

Salgado, JF (2018). "Transformando a área sob a curva normal (AUC) em D de Cohen, RPB de Pearson, Ratio de chances e probabilidades naturais: duas tabelas de conversão". European Journal of Psychology aplicado ao contexto legal, 10 (1), 35-47.

Essas referências fornecem a base matemática para a função AUR2OR, garantindo que os usuários possam interpretar com precisão a significância estatística e as implicações práticas de suas métricas de desempenho de modelo.

Contribuindo

Congratulamo -nos com contribuições para o MLSTATKIT! Consulte nossas diretrizes de contribuição para obter mais detalhes.

Licença

O MLSTATKIT é distribuído sob a licença do MIT. Para obter mais informações, consulte o arquivo de licença no repositório do GitHub.

Atualizar log

0.1.7 Update README.md
0.1.6 Debug.
0.1.5 Update README.md , adicione a função AUC2OR .
0.1.4 Update README.md , Adicione a função Permutation_tests , refazer parâmetros Bootstrapping .
0.1.3 Update README.md .
0.1.2 Adicione a exibição de progresso do processo de operação Bootstrapping .
0.1.1 Update README.md , setup.py . Adicionar CONTRIBUTING.md .
0.1.0 Primeira edição

Expandir

Informações adicionais

Versão v0.1.4
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-29
tamanho 39.61KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos