
Cara mengekstrak informasi dari data dan teks biomedis yang tidak terstruktur.
APA ITU BIOIE? Ini mencakup upaya apa pun untuk mengekstraksi informasi terstruktur dari data biologis, klinis, atau biomedis yang tidak terstruktur (atau setidaknya tidak konsisten). Sumber data sering kali beberapa kumpulan dokumen teks yang ditulis dalam bahasa teknis. Jika informasi yang dihasilkan dapat diverifikasi dan konsisten di seluruh sumber, kami kemudian dapat mempertimbangkan pengetahuannya . Mengekstraksi informasi dan memproduksi pengetahuan dari data bio membutuhkan adaptasi pada metode yang dikembangkan untuk jenis data yang tidak terstruktur lainnya.
Bioie telah mengalami perubahan besar sejak diperkenalkannya model bahasa seperti Bert dan model bahasa yang lebih baru dibuat (LLM; misalnya, GPT-3/4, LLAMA2/3, Gemini, dll).
Sumber daya yang disertakan di sini lebih disukai mereka yang tersedia tanpa biaya moneter dan persyaratan lisensi yang terbatas. Metode dan set data harus dapat diakses secara publik dan dipelihara secara aktif.
Lihat juga Awesome-NLP, Awesome-Biology dan Awesome-Bioinformatics.
Harap baca pedoman kontribusi sebelum berkontribusi. Tambahkan sumber daya favorit Anda dengan mengajukan permintaan tarik.
Isi
- Tinjauan Penelitian
- Grup aktif di lapangan
- Organisasi
- Jurnal dan acara
- Jurnal
- Konferensi dan acara lainnya
- Tantangan
- Tutorial
- Pemandu
- Kuliah video dan kursus online
- Perpustakaan Kode
- Repo untuk set data tertentu
- Alat, platform, dan layanan
- Teknik dan model
- Kumpulan data
- Sumber teks biomedis
- Data teks beranotasi
- Interaksi protein-protein beranotasi korporat
- Kumpulan data lainnya
- Ontologi dan Kosakata Terkendali
- Model Data
- Kredit
Tinjauan Penelitian
Llms di biomedis yaitu
- Model bahasa besar dalam perawatan kesehatan: tolok ukur komprehensif - evaluasi statistik dan manusia dari enam belas LLM berbeda yang diterapkan pada tugas bahasa medis.
- Menilai lanskap penelitian dan utilitas klinis model bahasa besar: ulasan pelingkupan - tinjauan tingkat tinggi dari aplikasi LLM dalam kedokteran pada Maret 2024.
- Tantangan etis dan peraturan dari model bahasa besar dalam kedokteran - tinjauan masalah etika yang timbul dari aplikasi LLM dalam biomedis.
- Tentang bahaya burung beo stokastik: Bisakah model bahasa terlalu besar? ? - Pekerjaan yang sering dirujuk tetapi masih relevan tentang peran, aplikasi, dan risiko model bahasa.
Tinjauan Pra-LLM
- Informatika Biomedis di Cloud: Perburuan harta karun untuk memajukan pengobatan kardiovaskular - gambaran tentang bagaimana alur kerja bioie dan bioinformatika dapat diterapkan pada pertanyaan dalam penelitian kesehatan dan obat -obatan kardiovaskular.
- Aplikasi Ekstraksi Informasi Klinis: Tinjauan Literatur - Tinjauan Makalah Klinis IE yang diterbitkan pada September 2016. Dari Mayo Clinic Group (lihat di bawah).
- Penemuan berbasis literatur: model, metode, dan tren - tinjauan penemuan berbasis literatur (LBD), atau filosofi bahwa koneksi yang bermakna dapat ditemukan antara literatur ilmiah yang tampaknya tidak terkait.
- Untuk beberapa konteks historis tentang LBD, lihat makalah oleh University of Chicago Don Swanson dan Neil Smalheiser, termasuk pengetahuan publik yang belum ditemukan (paywalled) dan menemukan kembali Don Swanson: masa lalu, saat ini dan masa depan penemuan berbasis literatur .
- Penambangan Catatan Kesehatan Elektronik (EHRS): Sebuah survei - Tinjauan metode dan filosofi di balik catatan kesehatan elektronik pertambangan, termasuk menggunakannya untuk deteksi kejadian yang merugikan. Lihat Tabel 2 untuk daftar makalah yang relevan pada pertengahan 2017.
- Menangkap perspektif pasien: Tinjauan kemajuan dalam pemrosesan bahasa alami teks terkait kesehatan - tinjauan 2017 tentang metode pemrosesan bahasa alami yang diterapkan pada ekstraksi informasi dalam catatan kesehatan dan teks media sosial. Catatan penting dari ulasan ini: "Salah satu tantangan utama di lapangan adalah ketersediaan data yang dapat dibagikan dan yang dapat digunakan oleh masyarakat untuk mendorong pengembangan metode berdasarkan studi yang sebanding dan dapat direproduksi".
Kembali ke atas
Grup aktif di lapangan
- Laboratorium Pemrosesan Bahasa Alami Rumah Sakit Anak Boston - Dipimpin oleh Dr. Guergana Savova, sebelumnya di Mayo Clinic dan Proyek Apache Ctakes.
- Brown Center for Biomedical Informatics - yang berbasis di Brown University dan disutradarai oleh Dr. Neil Sarkar, yang kelompok risetnya bekerja pada topik -topik dalam NLP klinis dan IE.
- Center for Computational Pharmacology NLP Group - yang berbasis di University of Colorado, Denver dan dipimpin oleh Larry Hunter - lihat repo github mereka di sini.
- Kelompok di US National Institutes of Health (NIH) / National Library of Medicine (NLM):
- Grup Demner-Fushman di NLM
- BIONLP Group di NCBI - Mengembangkan peningkatan pencarian dan kurasi literatur biomedis (misalnya, melalui PubMed), dipimpin oleh Dr. Zhiyong Lu.
- Jensenlab - Berbasis di Pusat Penelitian Protein Novo Nordisk Foundation di University of Copenhagen, Denmark.
- Pusat Nasional untuk Penambangan Teks (NACTEM) - Berbasis di University of Manchester dan dipimpin oleh Prof. Sophia Ananiadou, Nactem berkaitan dengan penambangan teks secara umum tetapi memiliki fokus khusus pada aplikasi biomedis.
- Program Pemrosesan Bahasa Alami Klinis Mayo Clinic - Beberapa kelompok di Mayo Clinic telah memberikan kontribusi besar bagi Bioie (misalnya, platform Apache Ctakes) selama 20 tahun terakhir.
- Inisiatif Monarch - Upaya bersama antara kelompok -kelompok di Oregon State University, Oregon Health & Science University, Lawrence Berkeley National Lab, Laboratorium Jackson, dan beberapa lainnya, berusaha untuk "mengintegrasikan informasi biologis menggunakan semantik, dan menyajikannya dengan cara baru, memanfaatkan fenotipe untuk menjembatani kesenjangan pengetahuan".
- Turkunlp - Berbasis di University of Turku dan peduli dengan NLP secara umum dengan fokus pada BIONLP dan aplikasi klinis.
- Laboratorium Pemrosesan Bahasa Alam Biomedis Uthealth Houston - Berbasis di Pusat Ilmu Kesehatan Universitas Texas di Houston, Sekolah Informatika Biomedis dan dipimpin oleh Dr. Hua Xu.
- VCU Natural Language Processing Lab - Berbasis di Virginia Commonwealth University dan dipimpin oleh Dr. Bridget McInnes.
- Zaklab - Kelompok yang dipimpin oleh Dr. Isaac Kohane di Departemen Informatika Biomedis Sekolah Kedokteran Harvard (Dr. Kohane juga merupakan pelayan dari kumpulan data N2C2 (sebelumnya I2B2) - lihat dataset di bawah).
- Departemen Informatika Biomedis Universitas Columbia - Dipimpin oleh Drs. George Hripcsak dan Noémie Elhadad.
Kembali ke atas
Organisasi
- Amia - banyak - tetapi tentu saja tidak semua - individu yang mempelajari informatika biomedis adalah anggota American Medical Informatics Association. Amia menerbitkan jurnal, Jamia (lihat di bawah).
- IMIA - Asosiasi Informatika Medis Internasional. Menerbitkan buku tahunan IMIA dari Informatika Medis.
Kembali ke atas
Jurnal dan acara
Sifat interdisipliner bioie berarti para peneliti di ruang ini dapat berbagi temuan dan alat mereka dalam berbagai cara. Mereka dapat menerbitkan makalah dalam jurnal, seperti biasa dalam ilmu biomedis dan kehidupan. Mereka dapat menerbitkan makalah konferensi dan, setelah diterima, memberikan poster dan/atau presentasi lisan di suatu acara; Ini adalah praktik umum di bidang ilmu komputer dan teknik. Makalah konferensi sering diterbitkan dalam koleksi proses. Publikasi pracetak adalah cara yang semakin populer dan diterima secara kelembagaan untuk mempublikasikan temuan juga. Di sekitar produk -produk formal dan tertulis ini adalah ide -ide sains terbuka, data terbuka, dan open source: kode, data, dan perangkat lunak yang dikembangkan oleh peneliti bioie adalah sumber daya yang berharga bagi masyarakat.
Jurnal
Untuk pracetak, coba arxiv, terutama komputasi dan bahasa subjek (CS.Cl) dan pengambilan informasi (Cs.ir); biorxiv; atau medrxiv, terutama bidang subjek informatika kesehatan.
- Database - Subtitle -nya adalah "Jurnal Database dan Kurasi Biologi". Akses terbuka.
- NAR - Penelitian asam nukleat. Memiliki fokus biomolekul yang luas tetapi terutama terkenal karena masalah basis data tahunannya.
- JAMIA - Jurnal Asosiasi Informatika Medis Amerika. Kekhawatiran "Artikel di bidang perawatan klinis, penelitian klinis, ilmu translasi, ilmu implementasi, pencitraan, pendidikan, kesehatan konsumen, kesehatan masyarakat, dan kebijakan".
- JBI - Jurnal Informatika Biomedis. Tidak membuka akses secara default, meskipun memiliki versi "X" akses terbuka.
- Data Ilmiah - Jurnal Alam Springer Akses Terbuka yang menerbitkan "Deskripsi Dataset Ilmiah Berharga, dan Penelitian yang Maju Berbagi dan Penggunaan Penggunaan Data Ilmiah".
Konferensi dan acara lainnya
- ACM -BCB - Konferensi ACM tentang Bioinformatika, Biologi Komputasi, dan Informatika Kesehatan. Diadakan setiap tahun sejak 2010.
- BIBM - Konferensi Internasional IEEE tentang Bioinformatika dan Biomedis.
- ISMB - Konferensi Internasional tentang Sistem Cerdas untuk Biologi Molekuler adalah konferensi tahunan yang diselenggarakan oleh Masyarakat Internasional untuk Biologi Komputasi sejak tahun 1993. Sebagian besar fokusnya telah menyangkut bioinformatika dan biologi komputasi tanpa fokus klinis eksplisit, meskipun telah termasuk peningkatan kandungan penambangan teks (EG, pertemuan 2019. Termasuk sesi khusus sehari -hari pada penambangan teks untuk penambangan teks untuk biologi dan biologi. Pertemuan ini dikombinasikan dengan konferensi Eropa tentang Biologi Komputasi (ECCB) pada tahun-tahun bernomor ganjil.
- PSB - Simposium Pasifik tentang Biokomputasi.
Tantangan
Beberapa peristiwa di Bioie diselenggarakan di sekitar tugas dan tantangan formal di mana kelompok mengembangkan solusi komputasi mereka sendiri, diberi dataset.
- BIOASQ - Tantangan pada pengindeksan semantik biomedis dan menjawab pertanyaan. Tantangan dan lokakarya diadakan setiap tahun sejak 2013.
- Lokakarya BioCreative - Lokakarya ini telah diselenggarakan sejak tahun 2004, dengan BioCreative VI terjadi Februari 2017 dan Tantangan BioCreative/Ohnlp diadakan pada tahun 2018. Lihat set data di bawah ini.
- Lokakarya Semeval - Tugas dan Evaluasi dalam Analisis Semantik Komputasi. Tugas bervariasi berdasarkan tahun tetapi sering meliput bahasa ilmiah dan/atau biomedis, misalnya Tugas Semeval-2019 12 tentang resolusi toponim dalam makalah ilmiah.
- EHealth -KD - Tantangan untuk mendorong "pengembangan teknologi perangkat lunak untuk secara otomatis mengekstraksi berbagai macam pengetahuan dari dokumen eHealth yang ditulis dalam bahasa Spanyol". Sebelumnya diadakan sebagai bagian dari Tass, lokakarya tahunan untuk analisis semantik dalam bahasa Spanyol.
- EHR Dream Challenge - Diadakan bersama dengan beberapa tantangan lain yang berfokus pada bioinformatika, tantangan ini dibuka pada Oktober 2019 dan berfokus pada penggunaan data catatan kesehatan elektronik untuk memprediksi kematian pasien. Menggunakan set data sintetis daripada konten EHR nyata.
Kembali ke atas
Tutorial
Lapangan berubah dengan cukup cepat sehingga tutorial yang lebih tua dari beberapa tahun kehilangan detail penting. Beberapa sumber pendidikan terbaru tercantum di bawah ini. Pemahaman dasar yang baik tentang teknik penambangan teks sangat membantu, seperti halnya beberapa pengalaman dasar dengan bahasa Python dan atau R. Pilihan terbaik adalah belajar dengan melakukan.
Panduan LLM
TBD - Tonton ruang ini!
Panduan Pra-Llm, Kuliah, dan Kursus
- Memulai dalam penambangan teks - pengantar singkat untuk penambangan bio -teks dari Cohen dan Hunter. Lebih dari sepuluh tahun tetapi masih cukup relevan. Lihat juga makalah sebelumnya oleh penulis yang sama.
- Penambangan Literatur Biomedis - A (non -bebas) Volume metode dalam biologi molekuler dari 2014. Bab mencakup prinsip pengantar dalam penambangan teks, aplikasi dalam ilmu biologi, dan potensi untuk digunakan dalam skenario keamanan klinis atau medis.
- Coursera - Yayasan Penambangan Data Medis Non -Struktur - Sekitar tiga jam kuliah video tentang bekerja dengan data medis dari berbagai jenis dan struktur, termasuk data teks dan gambar. Muncul cukup tinggi dan ditujukan untuk pemula.
- Latihan Penambangan Teks Jensenlab
- VIB Teks Penambangan dan Pelatihan Kurasi - Lokakarya pelatihan ini terjadi pada tahun 2013 tetapi slide masih online.
Kembali ke atas
Perpustakaan Kode
- Biopython - Paper - Kode - Alat Python terutama dimaksudkan untuk tujuan bioinformatika dan biologi molekuler komputasi, tetapi juga cara yang nyaman untuk mendapatkan data, termasuk dokumen/abstrak dari PubMed (lihat Bab 9 dari dokumentasi).
- Bio -Scores - Kertas - Kerangka kerja untuk resolusi coreference biomedis.
- Medacy - Suatu sistem untuk membangun model pemrosesan bahasa alami prediktif. Dibangun di atas kerangka kerja spacy.
- Scispacy - Paper - Versi kerangka kerja Spacy untuk dokumen ilmiah dan biomedis.
- Rentrez - r utilitas untuk mengakses sumber daya NCBI, termasuk PubMed.
- Med7 - Paper - Code - Paket dan model Python (untuk digunakan dengan spacy) untuk melakukan NER dengan konsep terkait obat.
Repo untuk set data tertentu
- MIMIC-CODE-Kode yang terkait dengan dataset Mimic-III (lihat di bawah). Termasuk beberapa tutorial yang bermanfaat.
Kembali ke atas
Alat, platform, dan layanan
- Ctakes - Kaper - Kode - Suatu sistem untuk memproses teks dalam catatan medis elektronik. Sumber yang banyak digunakan dan terbuka.
- Kertas - Kertas - Perangkat pemrosesan bahasa alami yang dimaksudkan untuk digunakan dengan teks dalam laporan klinis. Lihatlah demo langsung mereka terlebih dahulu untuk melihat apa yang dilakukannya. Dapat digunakan tanpa biaya untuk penelitian akademik.
- DEEPPHE - Suatu sistem untuk memproses dokumen yang menggambarkan presentasi kanker. Berdasarkan Ctakes (lihat di atas).
- Dnorm - Kertas - Metode untuk normalisasi penyakit, yaitu, menghubungkan menyebutkan nama penyakit dan akronim ke pengidentifikasi konsep yang unik. Versi yang dapat diunduh termasuk NCBI Disease Corpus dan BC5CDR (lihat data teks beranotasi di bawah).
- Pubtator Central - Paper - Platform Web yang mengidentifikasi lima jenis konsep biomedis yang berbeda dalam artikel PubMed dan PubMed Teks Lengkap Pusat. Set anotasi lengkap dapat diunduh (lihat data teks beranotasi di bawah).
- PubRunner - Kerangka kerja untuk menjalankan alat penambangan teks pada set dokumen terbaru dari PubMed.
- Semehr - Kertas - Infrastruktur IE untuk Catatan Kesehatan Elektronik (EHR). Dibangun di atas proyek CogStack.
- TagGerOne - Kertas - Melakukan Normalisasi Konsep (lihat juga Dnorm di atas). Dapat dilatih untuk jenis konsep tertentu dan dapat melakukan NER independen dari fungsi normalisasi lainnya.
- Tabinout - Paper - Kerangka kerja untuk IE dari Tabel dalam literatur.
Alat Anotasi
- Anafora - Paper - Alat anotasi dengan fitur ajudikasi dan pelacakan kemajuan.
- Brat - Paper - Kode - Alat anotasi cepat brat. Mendukung memproduksi anotasi teks secara visual, melalui browser. Tidak spesifik subjek; sesuai untuk banyak proyek anotasi. Visualisasi didasarkan pada alat Stav .
- Medtator - Kaper - Kode - Alat anotasi yang dirancang untuk memiliki dependensi minimal.
Kembali ke atas
Teknik dan model
Model bahasa besar
TBD - Tonton ruang ini!
Model Bert
- BioBert - Paper - Code - Versi PubMed dan PubMed Central terlatih dari model bahasa Bert.
- Clinicalbert - Dua model bahasa yang dilatih pada teks klinis memiliki nama yang sama. Keduanya adalah model Bert yang dilatih pada teks catatan klinis dari dataset Mimic-III.
- Alsentzer dkk. Kertas klinis -
- Huang et al Clinicalbert - kertas
- Scibert - Kertas - Model Bert yang dilatih pada makalah> 1M dari database Semantic Scholar.
- Bluebert - Paper - Model Bert yang pra -terlatih di PubMed Text dan Mimic -III Notes.
- PubMedbert - Paper - Model Bert yang dilatih dari awal di PubMed, dengan versi yang dilatih pada abstrak+teks lengkap dan pada abstrak saja.
Model GPT-2
- Biogpt-Paper-Model GPT-2 yang dilatih sebelumnya pada 15 juta abstrak PubMed, bersama dengan versi yang disesuaikan untuk beberapa tugas biomedis.
Model lain
- Embeddings Flair dari PubMed - Model bahasa yang tersedia melalui kerangka kerja bakat dan metode penyematan. Dilatih lebih dari 5% sampel abstrak PubMed hingga 2015, atau> 1,2 juta abstrak secara total.
Teks Embeddings
- Makalah ini dari kelompok Hongfang Liu di Mayo Clinic menunjukkan bagaimana embeddings teks yang dilatih pada teks biomedis atau klinis dapat, tetapi tidak selalu, berkinerja lebih baik pada tugas pemrosesan bahasa alami biomedis. Yang sedang berkata, embedding pra-terlatih mungkin sesuai untuk kebutuhan Anda, terutama karena pelatihan embedding khusus domain dapat intensif secara komputasi.
- BIOASQWORD2VEC - Paper - Qord Embeddings yang berasal dari teks biomedis (> 10 juta abstrak PubMed) menggunakan alat Word2Vec populer.
- BioWordVec - Kertas - Kode - Kata Embeddings yang berasal dari teks biomedis (> 27 juta judul dan abstrak PubMed), termasuk model penyematan subword berdasarkan mesh.
Kembali ke atas
Kumpulan data
Beberapa dataset yang tercantum di bawah ini memerlukan akun UMLS Terminology Services (UTS) untuk diakses. Harap dicatat bahwa lisensi yang diberikan dengan akun UTS mengharuskan pengguna untuk mengirimkan laporan tahunan tentang penggunaan sumber daya UMLS mereka. Ini kurang menantang daripada kedengarannya.
Sumber teks biomedis
Sumber daya berikut berisi dokumen teks yang diindeks dalam ilmu biomedis.
- OHSUMED - Kertas - 348.566 entri Medline (judul dan terkadang abstrak) dari antara 1987 dan 1991. Termasuk label mesh. Terutama yang penting historis.
- PubMed Central Open Access Subset - Satu set artikel pusat PubMed yang dapat digunakan di bawah lisensi selain hak cipta tradisional, meskipun lisensi yang tepat bervariasi berdasarkan publikasi dan sumber. Artikel tersedia sebagai PDF dan XML.
- Cord-19-Korpus naskah ilmiah tentang Covid-19. Artikel terutama dari server PubMed Central dan pracetak, meskipun set juga mencakup metadata pada kertas tanpa ketersediaan teks lengkap.
Data teks beranotasi
- SPL-ADR-200DB-Kertas-Dataset pilot yang berisi informasi standar, dan anotasi kejadian dalam teks, sekitar ~ 5.000 reaksi merugikan yang diketahui untuk 200 obat yang disetujui FDA.
- BioCreative 1 - Kertas - 15.000 kalimat (10.000 pelatihan dan 5.000 tes) dijelaskan untuk nama protein dan gen. 1.000 Teks Lengkap Artikel Penelitian Biomedis Dianotasi dengan Nama Protein dan Istilah Ontologi Gen.
- BioCreative 2 - Paper - 15.000 kalimat (10.000 pelatihan dan 5.000 tes, berbeda dari korpus pertama) yang dijelaskan untuk nama protein dan gen. 542 Abstrak Terkait dengan Pengidentifikasi Entrezgene. Berbagai artikel penelitian yang dianotasi untuk fitur interaksi protein -protein.
- BioCreative V CDR Tugas Corpus (BC5CDR) - Kertas - 1.500 artikel (judul dan abstrak) yang diterbitkan pada 2014 atau lebih baru, dijelaskan untuk 4.409 bahan kimia, 5.818 penyakit dan 3116 interaksi kimia -penyakit. Membutuhkan pendaftaran.
- BioCreative VI Chemprot Corpus - Paper -> 2.400 artikel yang dianotasi dengan interaksi protein kimia dari berbagai jenis hubungan. Membutuhkan pendaftaran.
- Craft - Paper - 67 Artikel biomedis teks lengkap yang dianotasi dalam berbagai cara, termasuk untuk konsep dan coreferences. Sekarang di versi 5, termasuk anotasi yang menghubungkan konsep ke ontologi penyakit Mondo.
- Data N2C2 (sebelumnya I2B2) - Departemen Informatika Biomedis (DBMI) di Harvard Medical School mengelola data untuk tantangan klinis NLP nasional dan informatika untuk mengintegrasikan biologi dan tantangan samping tempat tidur yang berjalan sejak 2006. Mereka memerlukan pendaftaran sebelum akses dan penggunaan. Dataset mencakup berbagai topik. Lihat daftar tantangan data untuk deskripsi individu.
- NCBI Disease Corpus - Paper - Sebuah korpus dari 793 abstrak biomedis yang dianotasi dengan nama penyakit dan konsep terkait dari mesh dan omim.
- Pubtator Central Datasets - Kertas - Dapat diakses melalui API RESTful atau FTP Download. Termasuk anotasi untuk> 29 juta abstrak dan ∼3 juta dokumen teks lengkap.
- Word Sense disambiguation (WSD) - Kertas - 203 Kata -kata ambigu dan 37.888 secara otomatis diekstraksi secara otomatis dari penggunaannya dalam publikasi penelitian biomedis. Membutuhkan akun UTS.
- Koleksi Pertanyaan Klinis - Juga dikenal sebagai CQC atau Koleksi Iowa, ini adalah beberapa ribu pertanyaan yang diajukan oleh dokter selama kunjungan kantor bersama dengan jawaban terkait.
- Dataset BionLP ST 2013 - Data dari enam tugas bersama, meskipun beberapa mungkin tidak mudah diakses; Coba set tugas CG (BIONLP2013CG) untuk entitas yang luas dan anotasi acara.
- Bioscope - Paper - Korpus kalimat dari dokumen medis dan biologis, dijelaskan untuk negasi, spekulasi, dan ruang lingkup linguistik.
- Biored - Paper - Satu set Anotasi Hubungan Biomedis> 6,5K, ditambah label untuk temuan baru.
Interaksi protein-protein beranotasi korporat
Interaksi protein-protein disingkat sebagai PPI. Set berikut tersedia dalam format BIOC. Set yang lebih lama (Aimed, Bioinfer, HPRD50, IEPA, dan LLL) tersedia milik Repositori WBI Corpositori dan awalnya berasal dari set asli oleh kelompok di Turku University.
- Aimed - Paper - 225 Medline Abstrak Dianotasi untuk PPI.
- BIOC -BIOGRID - Kertas - 120 Artikel Teks Lengkap Dianotasi untuk PPI dan interaksi genetik. Digunakan dalam tugas biocreative v bioc.
- Bioinfer - Kertas - 1.100 kalimat dari Abstrak Penelitian Biomedis Dianotasi untuk Hubungan (termasuk PPI), entitas yang disebutkan, dan dependensi sintaksis. Informasi tambahan dan tautan unduhan ada di sini.
- HPRD50 - Kertas - 50 Abstrak ilmiah yang dirujuk oleh database referensi protein manusia, dijelaskan untuk PPI.
- IEPA - Kertas - 486 Kalimat dari Penelitian Biomedis Abstrak yang dianotasi untuk pasangan bahan kimia yang terjadi bersama, termasuk protein (karenanya, anotasi PPI).
- LLL - Kertas - 77 Kalimat dari artikel penelitian tentang bakteri Bacillus subtilis , dijelaskan untuk interaksi protein -gen (jadi, cukup dekat dengan anotasi PPI). Informasi tambahan ada di sini.
Kumpulan data lainnya
- Columbia Open Health Data - Kertas - Basis data prevalensi dan frekuensi co -kejadian kondisi, obat, prosedur, dan demografi pasien yang diekstraksi dari catatan kesehatan elektronik. Tidak termasuk teks catatan asli.
- Basis Data Toksikogenomik Komparatif - Kertas - Basis data asosiasi yang dikuratori secara manual antara bahan kimia, produk gen, fenotipe, penyakit, dan paparan lingkungan. Berguna untuk merakit ontologi konsep terkait, seperti jenis bahan kimia.
- Mimic -III - Kertas - Data kesehatan yang tidak diidentifikasi dari ~ 60.000 penerimaan unit perawatan intensif. Membutuhkan penyelesaian kursus pelatihan online (pelatihan CITI) dan penerimaan perjanjian penggunaan data sebelum digunakan.
- MIMIC-CXR-Database X-Ray Dada Mimic. Berisi lebih dari 377.000 gambar radiografi dan menyertai laporan radiologi teks bebas. Seperti halnya Mimic-III, membutuhkan penerimaan perjanjian penggunaan data.
- Sumber Pengetahuan UMLS - Manual Referensi - Kumpulan terminologi dan pengidentifikasi biomedis yang besar dan komprehensif, serta alat dan skrip yang menyertainya. Bergantung pada tujuan Anda, file tunggal mrConso.rrf mungkin cukup, karena file ini berisi pengidentifikasi dan nama yang unik untuk semua konsep dalam Metathesaurus UMLS. Lihat juga bagian ontologi dan kosakata terkontrol di bawah ini.
- Mimic-IV-Pembaruan untuk data pasien multimodal Mimic-III, sekarang mencakup penerimaan yang lebih baru, ditambah struktur data baru, catatan gawat darurat, dan tautan ke gambar Mimic-CXR.
- EICU Collaborative Research Database - Paper - Basis data pengamatan dari lebih dari 200 ribu penerimaan unit perawatan intensif, dengan struktur yang konsisten. Membutuhkan pendaftaran, penyelesaian kursus pelatihan, dan perjanjian penggunaan data.
Kembali ke atas
Ontologi dan Kosakata Terkendali
- Ontologi Penyakit - Kertas - Ontologi Penyakit Manusia. Memiliki tautan silang ke mesh, icd, nci tesaurus, mendengkur, dan omim. Domain publik. Tersedia di GitHub dan di Foundry OBO.
- RXNORM - Kertas - Nama yang dinormalisasi untuk obat klinis dan paket obat, dengan bahan -bahan gabungan, kekuatan, dan bentuk, dan jenis yang ditugaskan dari jaringan semantik (lihat di bawah). Dirilis setiap bulan.
- Spesialis Leksikon - Kertas - Leksikon Bahasa Inggris Umum yang mencakup banyak istilah biomedis. Diperbarui setiap tahun sejak 1994 dan masih diperbarui pada 2019. Bagian dari UMLS tetapi tidak memerlukan akun UTS untuk diunduh.
- UMLS Metathesaurus - Kertas - Pemetaan antara> 3,8 juta konsep, 14 juta nama konsep, dan> 200 sumber kosa kata dan pengidentifikasi biomedis. Itu besar. Mungkin membantu untuk menyiapkan subset dari Metathesaurus dengan alat instalasi Metamorfosys tetapi kita masih berbicara tentang ~ 30 GB ruang disk yang diperlukan untuk rilis 2019. Lihat manual di sini. Membutuhkan akun UTS.
- UMLS Semantik Jaringan - Kertas - Daftar 133 jenis semantik dan 54 hubungan semantik yang mencakup konsep dan kosa kata biomedis. Apakah Metathesaurus terlalu rumit untuk kebutuhan Anda? Coba ini. Tidak memerlukan akun UTS untuk diunduh.
Kembali ke atas
Model Data
Apakah Anda memerlukan model data? Jika Anda bekerja dengan data biomedis, maka jawabannya mungkin "ya".
- Biolink - Kode - Model data entitas biologis. Disediakan sebagai file YAML.
- BioUML - Kertas - Arsitektur untuk Analisis Data Biomedis, Integrasi, dan Visualisasi. Secara konseptual berdasarkan UML Bahasa Pemodelan Visual.
- Model Data Umum OMOP - Standar untuk Data Kesehatan Observasional.
Kembali ke atas
Kredit
Kredit untuk kurator dan sumber.
Lisensi
Lisensi