Ce dépôt contient notre code pour le papier "Promptlink: tirant parti des modèles de gros langues pour la liaison du concept biomédical de source transversale".
Dans cet article, nous abordons la tâche de liaison du concept biomédical, qui vise à relier les concepts biomédicaux entre les sources / systèmes en fonction de leur signification sémantique et de leurs connaissances biomédicales. Il repose uniquement sur les noms de concepts et peut ainsi couvrir une gamme beaucoup plus large d'applications du monde réel. Cette tâche diffère des tâches existantes telles que la liaison des entités, l'alignement des entités et l'appariement de l'ontologie, qui dépendent d'informations contextuelles ou topologiques supplémentaires. Un exemple de jouet de la tâche de liaison du concept biomédical est décrit dans la figure suivante.

Figure 1: Un exemple de jouet. Gauche: Concepts dans le DSE. À droite: concepts dans le kg biomédical.
PromptLink est un nouveau cadre de concept biomédical liant qui tire parti de modèles de langue importants (LLMS). Il utilise d'abord un modèle linguistique pré-formé spécialisé dans la biomédecine pour générer des concepts de candidats qui correspondent aux fenêtres du contexte LLM. Ensuite, il utilise un LLM pour relier les concepts via des invites en deux étapes. La première étape vise à provoquer des connaissances antérieures biomédicales du LLM pour la tâche de liaison du concept, tandis que l'invite de deuxième étape oblige le LLM à réfléchir sur ses propres prédictions pour améliorer encore leur fiabilité. L'aperçu du framework Inampinlink est illustré dans la figure suivante.

Figure 2: Présentation de notre framework PromptLink proposé.
Le fichier [exigences.txt "pourrait être utilisé pour télécharger automatiquement les packages Python]
Python == 3,8.10
EditDistance == 0.6.2
Feu == 0.5.0
Numpy == 1.19.5
openai == 0,28.1
pandas == 1.3.4
RANK_BM25 == 0.2.2
scipy == 1.12.0
simstring-fast == 0.3.0
textDistance == 4.6.1
torche == 1.10.0 + Cu111
tqdm == 4.66.1
Transformers == 4.33.3
Nous organisons deux concepts biomédicaux liant des ensembles de données de référence: MIID (imic-iii-ibkh-disease) et cise (berce-ibkh-effect), en utilisant les données de Mimic-III Dataset Link, un ensemble de données de données de berce Lien IBKH et lien UMLS Système de codage UMLS. En raison de la nature sensible des données médicales et des considérations de confidentialité, il y a des restrictions sur le partage de données. Pour accéder à ces ensembles de données médicaux, une formation appropriée et des informations d'identification peuvent être nécessaires. Pour plus d'assistance avec l'accès aux données ou d'autres demandes connexes, n'hésitez pas à contacter notre équipe d'auteur.
La plupart du code est stocké dans trois dossiers: "gen_candidates", "gen_gpt_responses" et "Baslines". Plus de détails peuvent être trouvés respectivement dans ces dossiers.
Dossier "Gen_candidates": Ce dossier contient le code pour la représentation conceptuelle d'InmpyLink et le processus de génération de candidats.
Dossier "Gen_gpt_Responses": Ce dossier montre comment PromptLink exploite le LLM pour récupérer la réponse de prédiction finale.
Dossier "Bases": Ce dossier contient le code pour exécuter toutes les méthodes de base comparées, y compris BM25, Levenshtein Distance, Biobert et Sapbert.