이 repo에는 종이 코드 "프롬프트 : 크로스 소스 생물 의학 개념 연결을위한 대형 언어 모델 활용"에 대한 코드가 포함되어 있습니다.
이 논문에서, 우리는 생물 의학 개념 연결 작업을 다루며, 이는 시맨틱 의미와 생물 의학적 지식을 기반으로 소스/시스템의 생물 의학 개념을 연결하는 것을 목표로합니다. 그것은 전적으로 개념 이름에 의존하므로 훨씬 광범위한 실제 응용 프로그램을 다룰 수 있습니다. 이 작업은 추가 상황 또는 토폴로지 정보에 의존하는 엔티티 링크, 엔터티 정렬 및 온톨로지 일치와 같은 기존 작업과 다릅니다. 생의학 개념 연결 작업의 장난감 예는 다음 그림에 설명되어 있습니다.

그림 1 : 장난감 예제. 왼쪽 : EHR의 개념. 오른쪽 : 생의학 KG의 개념.
PrestLink는 큰 언어 모델 (LLMS)을 활용하는 새로운 생물 의학 개념 연결 프레임 워크입니다. LLM 컨텍스트 창에 맞는 후보 개념을 생성하기 위해 생체 의학에 특화된 미리 훈련 된 언어 모델을 사용합니다. 그런 다음 LLM을 사용하여 2 단계 프롬프트를 통해 개념을 연결합니다. 1 단계 프롬프트는 개념 연결 작업에 대해 LLM의 생의학 사전 지식을 이끌어내는 것을 목표로하는 반면, 2 단계 프롬프트는 LLM이 자신의 예측을 반영하여 신뢰성을 더욱 향상시켜야합니다. 프롬프트 링크 프레임 워크의 개요는 다음 그림에 설명되어 있습니다.

그림 2 : 제안 된 프롬프트 링크 프레임 워크의 개요.
[ "요구 사항.txt"파일을 사용하여 Python 패키지를 자동으로 다운로드 할 수 있습니다]
Python == 3.8.10
editdistance == 0.6.2
불 == 0.5.0
Numpy == 1.19.5
Openai == 0.28.1
팬더 == 1.3.4
RANK_BM25 == 0.2.2
scipy == 1.12.0
simstring-fast == 0.3.0
TextDistance == 4.6.1
토치 == 1.10.0+CU111
TQDM == 4.66.1
변압기 == 4.33.3
우리는 벤치 마크 데이터 세트를 연결하는 두 가지 생물 의학적 개념을 큐 레이트합니다. MIID (MIMIC-III-IBKH-DISEASE) 및 CISE (Cradle-IBKH-Side-Effect), MIMIC-III EHR 데이터 세트 모방 링크, Cradle EHR 데이터 세트 (Cradle EHR DataSet), Cradle EHR 데이터 세트에서 수집 된 대규모 의료 시스템) 링크 및 UMLS 코딩 시스템 UMLS 링크. 의료 데이터 및 개인 정보 보호 고려 사항의 민감한 특성으로 인해 데이터 공유에 대한 제한이 있습니다. 이러한 의료 데이터 세트에 액세스하려면 적절한 교육 및 자격 증명이 필요할 수 있습니다. 데이터 액세스 또는 기타 관련 문의에 대한 추가 지원은 저자 팀에 문의하십시오.
대부분의 코드는 "gen_candidates", "gen_gpt_responses"및 "Baselines"의 세 가지 폴더에 저장됩니다. 자세한 내용은 이러한 폴더 내에서 각각 찾을 수 있습니다.
폴더 "gen_candidates":이 폴더에는 PremptLink의 개념 표현 및 후보 생성 프로세스에 대한 코드가 포함되어 있습니다.
폴더 "gen_gpt_responses":이 폴더는 프롬프트 링크가 LLM을 활용하여 최종 예측 답변을 검색하는 방법을 보여줍니다.
폴더 "Baselines":이 폴더에는 BM25, Levenshtein 거리, Biobert 및 Sapbert를 포함한 모든 비교 기준 방법을 실행하기위한 코드가 포함되어 있습니다.