Этот репо содержит наш код для бумаги «ramplelink: использование больших языковых моделей для биомедицинской концепции поперечного исходного кода».
В этой статье мы рассматриваем задачу, связанную с биомедицинской концепцией, которая направлена на то, чтобы связать биомедицинские концепции между источниками/системами на основе их семантических значений и биомедицинских знаний. Он опирается исключительно на имена концепций и, таким образом, может охватить гораздо более широкий спектр реальных приложений. Эта задача отличается от существующих задач, таких как связывание сущности, выравнивание сущностей и сопоставление онтологий, которые зависят от дополнительной контекстуальной или топологической информации. Игрушечный пример биомедицинской задачи, связанной с связыванием, описан на следующем рисунке.

Рисунок 1: игрушечный пример. Слева: концепции в EHR. Справа: концепции в биомедицинской кг.
Racklink - это новая биомедицинская концепция, связывающая структуру, которая использует большие языковые модели (LLMS). Сначала используется предварительно обученная языковая модель, специализирующаяся на биомедицине, для создания концепций кандидатов, которые вписываются в окна контекста LLM. Затем он использует LLM, чтобы связать концепции с помощью двухэтапных подсказок. Первое подсказка направлена на то, чтобы выявить биомедицинские предыдущие знания из LLM для задачи, связанной с концепцией, в то время как подсказка второй стадии заставляет LLM размышлять о своих собственных прогнозах еще больше повысить их надежность. Обзор платформы rackllink показан на следующем рисунке.

Рисунок 2: Обзор предлагаемой нами платформу ramplelink.
["TERDY.TXT" Файл может быть использован для автоматической загрузки пакетов Python]
Python == 3.8.10
EditDistance == 0,6,2
Огонь == 0,5,0
Numpy == 1.19.5
OpenAI == 0,28,1
Панды == 1.3.4
rank_bm25 == 0.2.2
scipy == 1.12.0
simstring-fast == 0,3.0
TextDistance == 4.6.1
TORCH == 1.10.0+CU111
TQDM == 4.66.1
Трансформаторы == 4.33.3
We curate two biomedical concept linking benchmark datasets: MIID (MIMIC-III-iBKH-Disease) and CISE (CRADLE-iBKH-Side-Effect), using data from MIMIC-III EHR dataset MIMIC Link, CRADLE EHR dataset (a private EHR dataset collected from a large healthcare system in the United States), iBKH KG dataset Ссылка IBKH и System System UMLS UMLS. Из -за конфиденциального характера медицинских данных и соображений конфиденциальности существуют ограничения на обмен данными. Чтобы получить доступ к этим медицинским наборам данных, может потребоваться соответствующее обучение и учетные данные. Для получения дополнительной помощи с доступом к данным или другими связанными запросами, пожалуйста, не стесняйтесь обратиться к нашей команде автора.
Большая часть кода хранится в трех папках: «gen_candidates», «gen_gpt_responses» и «Базовые линии». Более подробную информацию можно найти в этих папках соответственно.
Папка "Gen_Candidates": эта папка содержит код для представления концепции racklink и процесса генерации кандидатов.
Папка "gen_gpt_responses": эта папка показывает, как rackslink использует LLM для получения окончательного ответа на прогнозирование.
Папка «Базовые показатели»: эта папка содержит код для запуска всех сравниваемых базовых методов, включая BM25, Levenshtein Distance, Biobert и Sapbert.