Download topicGPT - Download do código -fonte topicGPT

topicGPT

Outro código-fonte

v0.2.2 Removed redundant parameters

Baixar

Tópicogpt

Este repositório contém scripts e solicitações para o nosso artigo "TopicGPT: Modelagem de tópicos solicitando grandes modelos de idiomas" (NAACL'24). Nosso pacote topicgpt_python consiste em cinco funções principais:

generate_topic_lvl1 gera tópicos de alto nível e generalizável.
generate_topic_lvl2 gera tópicos de baixo nível e específicos para cada tópico de alto nível.
refine_topics refina os tópicos gerados, mesclando tópicos semelhantes e removendo tópicos irrelevantes.
assign_topics atribui os tópicos gerados ao texto de entrada, juntamente com uma cotação que suporta a atribuição.
correct_topics corrige os tópicos gerados, reprojetando o modelo para que a atribuição de tópico final seja fundamentada na lista de tópicos.

Visão geral do pipeline de tópicos

Atualizações

[11/09/24] Python Package topicgpt_python é lançado! Você pode instalá -lo via pip install topicgpt_python . Apoiamos a API OpenAI, Vertexai, Azure API, Gemini API e VLLM (requer GPUs para inferência). Veja Pypi.
[18/11/23] O código de geração de tópicos e o código de refinamento de segundo nível são enviados.
[11/11/23] O pipeline básico é carregado. O refinamento e o código de geração de tópicos de segundo nível estão chegando em breve.

? Usando TopicGpt

Começando

Faça um novo ambiente Python 3.9+ usando o VirtualEnv ou o CONDA.
Instale os pacotes necessários:
```
 pip install topicgpt_python
```

Defina sua chave da API:

 # Run in shell
# Needed only for the OpenAI API deployment
export OPENAI_API_KEY={your_openai_api_key}

# Needed only for the Vertex AI deployment
export VERTEX_PROJECT={your_vertex_project}   # e.g. my-project
export VERTEX_LOCATION={your_vertex_location} # e.g. us-central1

# Needed only for Gemini deployment
export GEMINI_API_KEY={your_gemini_api_key}

# Needed only for the Azure API deployment
export AZURE_OPENAI_API_KEY={your_azure_api_key}
export AZURE_OPENAI_ENDPOINT={your_azure_endpoint}

Consulte https://openai.com/pricing/ para obter preços da API OpenAI ou https://cloud.google.com/vertex-ai/pricing para preços da API da Vertex.

Dados

Prepare seu arquivo de dados .jsonl no seguinte formato:

{
    " id " : " IDs (optional) " ,
    " text " : " Documents " ,
    " label " : " Ground-truth labels (optional) "
}

Coloque seu arquivo de dados em data/input . Há também um exemplo de dados de arquivo de data/input/sample.jsonl para depurar o código.
Conjunto de dados bruto usado no papel (Bills e Wiki): [link].

Oleoduto

Confira demo.ipynb para obter um pipeline completo e instruções mais detalhadas. Aconselhamos que você tente executar em um subconjunto com modelos mais baratos (ou de código aberto) antes de dimensionar para todo o conjunto de dados.

(Opcional) Defina os caminhos de E/S em config.yml e carregar usando:

 import yaml

with open ( "config.yml" , "r" ) as f :
    config = yaml . safe_load ( f )

Carregue o pacote:
```
 from topicgpt_python import *
```

Gerar tópicos de alto nível:

 generate_topic_lvl1 ( api , model , data , prompt_file , seed_file , out_file , topic_file , verbose )

Gerar tópicos de baixo nível (opcional)

 generate_topic_lvl2 ( api , model , seed_file , data , prompt_file , out_file , topic_file , verbose )

Refine os tópicos gerados, fundindo -se perto de duplicatas e removendo tópicos com baixa frequência (opcional):

 refine_topics ( api , model , prompt_file , generation_file , topic_file , out_file , updated_file , verbose , remove , mapping_file )

Atribua e corrija os tópicos, geralmente com um modelo mais fraco se estiver usando APIs pagas para economizar custos:

 assign_topics (
api , model , data , prompt_file , out_file , topic_file , verbose
)

 correct_topics(
    api, model, data_path, prompt_path, topic_path, output_path, verbose
)

Confira a pasta data/output para obter saídas de amostra.
Também oferecemos funções de cálculo métrico em topicgpt_python.metrics para avaliar o alinhamento entre os tópicos gerados e os rótulos da verdadeira-verdade (Índice RAND ajustado, pureza harmônica e informações mútuas normalizadas).

Citação

 @misc{pham2023topicgpt,
      title={TopicGPT: A Prompt-based Topic Modeling Framework}, 
      author={Chau Minh Pham and Alexander Hoyle and Simeng Sun and Mohit Iyyer},
      year={2023},
      eprint={2311.01449},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

Expandir

Informações adicionais

Versão v0.2.2 Removed redundant parameters
Tipo Outro código-fonte
Data da Última Atualização 2025-02-28
tamanho 795.11KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos