このレポは、紙「PromptLink:クロスソースの生物医学的概念リンクの大規模な言語モデルを活用する」のコードが含まれています。
この論文では、セマンティックな意味と生物医学的知識に基づいて、ソース/システム全体で生物医学の概念をリンクすることを目的とする生物医学的概念リンクタスクに取り組みます。概念名のみに依存しているため、はるかに幅広い範囲の実際のアプリケーションをカバーできます。このタスクは、エンティティのリンク、エンティティアライメント、オントロジーマッチングなどの既存のタスクとは異なります。これらは、追加のコンテキスト情報またはトポロジ情報に依存します。生物医学の概念リンクタスクのおもちゃの例については、次の図に説明します。

図1:おもちゃの例。左:EHRの概念。右:生物医学KGの概念。
PromptLinkは、大規模な言語モデル(LLMS)を活用するフレームワークをリンクする新しい生物医学的概念です。最初に、バイオメディシンに特化した事前に訓練された言語モデルを採用して、LLMコンテキストウィンドウに適合する候補の概念を生成します。次に、LLMを使用して、2段階のプロンプトを介して概念をリンクします。第1段階のプロンプトは、LLMから生物医学の事前知識をリンクリンクタスクのLLMから引き出すことを目的としていますが、第2段階のプロンプトはLLMに独自の予測を反映して信頼性をさらに高めることを強いることを目的としています。 PromptLinkフレームワークの概要を次の図に示します。

図2:提案されているPromptLinkフレームワークの概要。
["requiction.txt"ファイルを使用して、Pythonパッケージを自動的にダウンロードできます]
python == 3.8.10
editdistance == 0.6.2
火== 0.5.0
numpy == 1.19.5
openai == 0.28.1
pandas == 1.3.4
rank_bm25 == 0.2.2
scipy == 1.12.0
Simstring-fast == 0.3.0
textDistance == 4.6.1
Torch == 1.10.0+Cu111
TQDM == 4.66.1
トランス== 4.33.3
ベンチマークデータセットをリンクする2つの生物医学的概念をキュレートします:MIID(Mimic-Iii-Ibkh-disease)とCise(Cradle-Ibkh-Side-Effect)、Mimic-III Dataset Mimicリンク、Cradle ehr Datasetのデータを使用して、Ingecare Systems a a United chr dataset IBKHリンク、およびUMLSコーディングシステムUMLSリンク。医療データの繊細な性質とプライバシーの考慮事項により、データ共有には制限があります。これらの医療データセットにアクセスするには、適切なトレーニングと資格情報が必要になる場合があります。データアクセスまたはその他の関連する問い合わせに関するさらなる支援については、著者チームにお気軽にお問い合わせください。
コードのほとんどは、「Gen_Candidates」、「Gen_GPT_Responses」、および「ベースライン」の3つのフォルダーに保存されています。詳細は、これらのフォルダー内にそれぞれ見つけることができます。
フォルダー「Gen_Candidates」:このフォルダーには、PromptLinkの概念表現と候補生成プロセスのコードが含まれています。
フォルダー「gen_gpt_responses」:このフォルダーは、promptlinkがLLMをレバレッジして最終的な予測回答を取得する方法を示しています。
フォルダー「ベースライン」:このフォルダーには、BM25、Levenshtein Distance、Biobert、Sapbertなど、すべての比較ベースラインメソッドを実行するためのコードが含まれています。