Este repositório contém nosso código para o artigo "PromptLink: alavancando grandes modelos de linguagem para o conceito biomédico de origem cruzada vinculação".
Neste artigo, abordamos a tarefa de vinculação de conceito biomédico, que visa vincular conceitos biomédicos entre fontes/sistemas com base em seus significados semânticos e conhecimento biomédico. Ele depende apenas de nomes de conceitos e, portanto, pode cobrir uma gama muito mais ampla de aplicativos do mundo real. Essa tarefa difere das tarefas existentes, como vinculação de entidades, alinhamento da entidade e correspondência de ontologia, que dependem de informações contextuais ou topológicas adicionais. Um exemplo de brinquedo da tarefa de vinculação do conceito biomédico é descrito na figura a seguir.

Figura 1: Um exemplo de brinquedo. Esquerda: conceitos no EHR. Direita: conceitos no kg biomédico.
O PromptLink é um novo conceito biomédico que vincula a estrutura que aproveita os grandes modelos de idiomas (LLMS). Primeiro, emprega um modelo de idioma pré-treinado especializado em biomedicina para gerar conceitos de candidatos que se encaixam nas janelas de contexto LLM. Em seguida, ele utiliza um LLM para vincular conceitos por meio de instruções de dois estágios. O prompt do primeiro estágio visa obter conhecimento prévio biomédico do LLM para a tarefa de vinculação de conceitos, enquanto o prompt de segundo estágio obriga o LLM a refletir sobre suas próprias previsões para aumentar ainda mais sua confiabilidade. A visão geral da estrutura PromptLink é ilustrada na figura a seguir.

Figura 2: Visão geral da nossa estrutura proposta de PromptLink.
["requisitos.txt" o arquivo pode ser usado para baixar os pacotes python automaticamente]
python == 3.8.10
EditDistance == 0.6.2
fogo == 0.5.0
Numpy == 1.19.5
OpenAI == 0.28.1
pandas == 1.3.4
rank_bm25 == 0.2.2
Scipy == 1.12.0
simstring-fast == 0.3.0
TextDistance == 4.6.1
tocha == 1.10.0+Cu111
tqdm == 4.66.1
Transformers == 4.33.3
Curatamos dois conjuntos de dados de referência de conceito biomédico: MIIID (MIMIC-III-IBKH-DISEASE) e CISE (Efeito do lado do berço-Ibkh), usando dados do MIMIC-III EHR DataSet Mimic Link, um pouco de dados de saúde (um conjunto de dados de saúde, um pouco de dados do tipo ehr, o que é um dos dados do MIMET, o que é um pouco de dados do tipo ehr. Link ibkh e Link UMLS System de codificação UMLS. Devido à natureza sensível dos dados médicos e considerações de privacidade, há restrições ao compartilhamento de dados. Para obter acesso a esses conjuntos de dados médicos, podem ser necessários treinamento e credenciais apropriados. Para obter mais assistência com acesso a dados ou outras consultas relacionadas, sinta -se à vontade para entrar em contato com nossa equipe de autores.
A maior parte do código é armazenada em três pastas: "Gen_Candidates", "Gen_GPT_RESPONSES" e "linhas de base". Mais detalhes podem ser encontrados nessas pastas, respectivamente.
Pasta "Gen_Candidates": esta pasta contém o código para a representação conceitual do PromptLink e o processo de geração de candidatos.
Pasta "Gen_GPT_RESPONSES": Esta pasta mostra como o PromptLink aproveita o LLM para recuperar a resposta final da previsão.
Pasta "linhas de base": esta pasta contém o código para executar todos os métodos de linha de base comparados, incluindo BM25, Distância Levenshtein, Biobert e Sapbert.