Medical_nlp
Resumo da avaliação/concorrência/concorrência médica do Domínio PNLP, conjunto de dados, papel e recursos de modelo pré-treinado.
Resumo das avaliações/competições médicas de PNL, conjuntos de dados, papéis e modelos pré-treinados.
Notícias
- ? 2024/11/14 Adicionado
4. VLM数据集, 5.3 医疗VLM , 5.4 医疗VLM Benchmark . No futuro, o foco será manter os recursos relevantes relacionados à direção da manutenção médica do VLM . O repositório será mantido por Rongsheng Wang. - ? Antes de 2024/11/14 , quando Cris Lee deixou o campo Medical NLP em 2021, este repo agora é mantido por Xidong Wang, Ziyue Lin, Jing Tang.
Conteúdo
- 1. Avaliação
- 1.1 Avaliação de referência médica chinesa: CMB / Cmexam / PromptCBlue
- 1.2 Avaliação de referência médica em inglês:
- 2. Competição
- 2.1 Partidas em andamento
- 2.2 o jogo final
- 3. DATASET LLM
- 4. DATASET VLM
- 5. Modelo pré-treinado de código aberto
- 5.1 Plm médico
- 5.2 Medical LLM
- 5.3 VLM médico
- 5.4 Benchmark Medical VLM
- 6. Documentos relacionados
- 6.1 Documentos que podem ser úteis na era pós-Chatgpt
- 6.2 Artigos de visão geral
- 6.3 Artigos específicos da tarefa
- 6.4 Índice de reunião
- 7. Kit de ferramentas de código aberto
- 8. Soluções de produtos de nível industrial
- 9. Compartilhamento de blogs
- 10. Links amigáveis
1. Avaliação
1.1 Avaliação de referência médica chinesa: CMB / Cmexam / PromptCBlue
CMB
- Endereço: https://github.com/freedomintelligence/cmb
- Fonte: exames em vários trabalhos médicos clínicos em todas as etapas; consulta sobre casos complexos clínicos
Cmexam
- Endereço: https://github.com/williamliujl/cmexam
- Fonte: Exame de qualificação para médicos práticos Perguntas do ano anterior
PromptCBlue
- Endereço: https://github.com/michael-wzhu/promptcblue
- Fonte: CBLUE
PromptCBlue
- Endereço: https://github.com/cbluebenchmark/cblue
- Fonte: conjuntos de dados de competições anteriores de avaliação acadêmica e negócios de pesquisa médica Ali Quark de revisões acadêmicas anteriores
Medbench
- Endereço: https://arxiv.org/abs/2312.12806
- Fonte: contém 40.041 perguntas de exames médicos e relatórios, cobrindo todas as especialidades.
1.2 Avaliação de referência médica em inglês:
MultimedBench
- Introdução: É um grande modelo de geração multimodal derivado do Google
↥ de volta ao topo
2. Competição
2.1 Partidas em andamento
2.2 o jogo final
2.2.1 Competição em inglês
2.2.2 Competição chinesa
NLP de imagem - geração de relatórios de diagnóstico de imagem médica
- Endereço: https://gaiic.caai.cn/ai2023/
- Fonte: 2023 Global Artificial Intelligence Technology Innovation Competition Track 1
Desafio simples de triagem para requisitos de doenças não padronizadas 2.0
- Endereço: http://challenge.xfyun.cn/topic/info?type=disease-claims-2022&ch=ds22-dw-sq03
- Fonte: Iflytek
Tarefa de avaliação da 8ª Conferência de Processamento de Informações sobre Saúde da China (CHIP2022)
- Endereço: http://cips-chip.org.cn/
- Fonte: CHIP2022
IFLYTEK Médica e desafio de identificação de relacionamento
- Endereço: http://www.fudan-disc.com/sharedtask/imcs21/index.html
- Fonte: Iflytek
O "fígado" é macio e macio, e o grande modelo cria um novo padrão de serviços interativos para médicos e pacientes na doença hepática.
- Endereço: http://www.fudan-disc.com/sharedtask/imcs21/index.html ](https://www.dcic-china.com/competitions/10090
- Fonte: Comitê de Organização da Cúpula de Construção da China Digital
↥ de volta ao topo
3. DATASET LLM
3.1 Chinês
Huatuo-26m
- Endereço: https://github.com/freedomintelligence/huatuo-26m
- INTRODUÇÃO: O Huatuo-26m é de longe o maior conjunto de dados de perguntas e respostas da medicina chinesa.
Conjunto de diálogo médico chinês
- Endereço: https://github.com/toyhom/chinese-medical-dialogue-data
- Introdução: Dados de perguntas e respostas médicas contendo seis departamentos
CBLUE
- Endereço: https://github.com/cbluebenchmark/cblue
- Introdução: Cobrindo a extração de informações de texto médico (reconhecimento de entidades, extração de relacionamento)
CMEDQA2 (108K)
- Endereço: https://github.com/zhangsheng93/cmedqa2
- Introdução: Mais de 100.000 perguntas e conjuntos de dados de respostas na medicina chinesa
XYWY-KG (294K TRIPLE)
- Endereço: https://github.com/baiyang2464/chatbot-base-on-knowledge-graph
- Introdução: 44.1k entidade 294.1k triplo
39Health-KG (210K Triple)
- Endereço: https://github.com/zhihao-chen/qasystemonmedicalgraph
- Introdução: inclui 15 itens de informação, incluindo 7 tipos de entidades, cerca de 37.000 entidades e 210.000 relacionamentos de entidade.
Sistema médico-diário
- Endereço: https://github.com/ucsd-ai4h/medical-dialogue-system
- O conjunto de dados MedDialog (chinês) contém conversas entre médicos e pacientes (chinês). Este conjunto de dados tem 1,1 milhão de conversas e 4 milhões de declarações. Os dados ainda estão crescendo e mais conversas serão adicionadas no futuro.
Dados de diálogo médico chinês
- Endereço: https://github.com/toyhom/chinese-medical-dialogue-data
- Esse conjunto de dados contém um total de 792.099 dados de seis departamentos diferentes, incluindo ortopedia, pediatria, obstetrícia e ginecologia, medicina interna, cirurgia e oncologia.
Yidu-S4K
- Endereço: http://openkg.cn/dataset/yidu-s4k
- Introdução: reconhecimento de entidade nomeado, entidade e extração de atributos
Yidu-N7K
- Endereço: http://openkg.cn/dataset/yidu-n7k
- Introdução: padronização de linguagem clínica
Conjunto de dados de perguntas e respostas da medicina chinesa
- Endereço: https://github.com/zhangsheng93/cmedqa2
- Introdução: Perguntas e respostas médicas
Dados de diálogo do médico-paciente chinês
- Endereço: https://github.com/ucsd-ai4h/medical-dialogue-system
- Introdução: Perguntas e respostas médicas
CPUBMED-KG (4,4M TRIPLE)
- Endereço: https://cpubmed.openi.org.cn/graph/wiki
- Introdução: Dados de diário de texto completo de alta qualidade da Associação Médica Chinesa
Gráfico de conhecimento médico chinês CMEKG (1M TRIPLE)
- Endereço: http://cmekg.pcl.ac.cn/
- Introdução: CMEKG (Gráfico de conhecimento médico chinês)
Avaliação dos anos anteriores (avaliação oficial)
- Endereço: http://cips-chip.org.cn/2022/callforeval; http://www.cips-chip.org.cn/2021/; http://cips-chip.org.cn/2020/
- Introdução: Avaliação dos anos anteriores (avaliação oficial)
Conjunto de dados de diabetes do Hospital Ruijin (diabetes)
- Endereço: https://tianchi.aliyun.com/competition/entrance/231687/information
- Introdução: conjunto de dados de diabetes do Hospital Ruijin (diabetes)
Tianchi CoVid-19 Pergunta Concorrência da correspondência (novo coronavírus)
- Endereço: https://tianchi.aliyun.com/competition/entrance/231776/information
- Introdução: Os dados desta competição incluem: pares de dados de problemas médicos e dados de rotulagem após dessensibilização.
3.2 Inglês
↥ de volta ao topo
4. DATASET VLM
| Conjunto de dados | Papel | Github | Palavras -chave |
|---|
| Medtrinity-25m | link | link | 25 million images , 10 modalities , 65 diseases , VQA , EN |
| Llava-med | link | link | 630k images , VQA , EN |
| Chinês-Llava-Med | - | link | 60k images , VQA , ZH |
| Huatuogpt-Vision | link | link | 647k images , VQA , EN |
| MedVidqa | link | link | 7k videos , VQA , EN |
| Chimed-VL | link | link | 1M images , VQA , EN , ZH |
| Radfm | link | link | 16M images , 5000 diseases , VQA , EN , 2D/3D |
| Biomedparsedata | link | link | 6.8 million image-mask-description 45 biomedical image segmentation datasets 9 modalities EN 2D |
| Omnimedvqa | link | link | 118,010 images , 12 modalities , 2D , 20 human anatomical regions |
| Preção | link | link | 160K volumes , 42M slices , 3D , CT |
| GMAI-VL-5.5M | link | link | 5.5m image and text , 219 specialized medical imaging datasets , 2D , VQA |
| SA-MED2D-20M | link | link | 4.6 million 2D medical images and 19.7 million corresponding masks , 2D , EN |
| Banche de IMIS | link | link | 6.4 million images, 273.4 million masks (56 masks per image), 14 imaging modalities, and 204 segmentation targets , EN |
↥ de volta ao topo
5. Modelo pré-treinado de código aberto
5.1 Plm médico
BioBert:
- Endereço: https://github.com/naver/biobert-pretring
- Introdução: BioBert é um modelo de representação de idiomas no campo da ciência biomédica, que é especialmente usada para tarefas de mineração de texto biomédico, como reconhecimento biomédico de entidade nomeada, extração de relacionamento, perguntas e respostas etc.
5.2 Medical LLM
5.2.1 Modelo Médico Multilíngue
Apollomoe:
- Endereço: https://github.com/freedomintelligence/apollomoe
- Introdução: Democratizar efetivamente LLM em 50 medicamentos para idiomas através de uma mistura de especialistas em família de idiomas
Apollo:
- Endereço: https://github.com/freedomintelligence/apollo
- Introdução: Medicina Multilíngue leve LLM, popularizando a inteligência artificial médica para 6 bilhões de pessoas
Mmedlm:
- Endereço: https://github.com/magic-ai4med/mmedlm
- Introdução: o primeiro modelo de linguagem médica multilíngue de código aberto
5.2.2 Modelo de grande idioma médica chinesa
- Bentsao:
- Endereço: https://github.com/scir-hi/huatuo-llama-med-chinese
- Introdução: Bentsao é baseado no llama-7b e obtido através do ajuste fino de instruções/instruções médicas chinesas. Os pesquisadores construíram um conjunto de dados de instruções médicas chinesas por meio do gráfico de conhecimento médico e da API GPT3.5, e instruções de llama ajustadas sobre isso, melhorando o efeito de perguntas e respostas da lhama no campo médico.
- Bianque:
- Endereço: https://github.com/scutcyr/bianque
- Introdução: Um modelo de diálogo médico que é ajustado por instruções e várias rodadas de diálogo de consulta. Usando o Clueii/Chatyuan-Large-V2 como base, ele usa instruções chinesas de perguntas e respostas médicas e um conjunto de dados misto de várias rodadas de diálogo de investigação para ajuste fino.
- Soulchat:
- Endereço: https://github.com/scutcyr/soulchat
- Introdução: O Lingxin usa o ChatGLM-6b como modelo de inicialização e instruções de texto longo chinês no campo do aconselhamento psicológico e várias rodadas de dados de diálogo de empatia para melhorar a capacidade de empatia do modelo, orientar a capacidade dos usuários de conversar e fornecer sugestões razoáveis.
- Doctorglm:
- Endereço: https://github.com/xionghonglin/doctorglm
- Introdução: Um modelo de consulta chinês com base no chatglm-6b. Este modelo é ajustado pelo conjunto de dados de diálogo médico chinês, que realiza ajustes finos e implantação, incluindo Lora, p-tuningv2, etc.
- Huatuogpt:
- Endereço: https://github.com/freedomintelligence/huatuogpt
- Introdução: Hua Tuo GPT é um modelo semelhante ao GPT obtido por instruções médicas chinesas de ajuste fino/instrução FINE (ajuste de instrução). O modelo é um LLM chinês projetado especificamente para consulta médica. Seus dados de treinamento contêm dados destilados do ChatGPT e dados reais dos médicos. O feedback do RLHF é adicionado durante o processo de treinamento.
- Huatuogpt-ii:
- Endereço: https://github.com/freedomintelligence/huatugpt-ii
- Introdução: Hua Tuo GPT2 adota um método inovador de adaptação de campo, melhorando bastante seu conhecimento médico e capacidade de diálogo. Ele mostrou desempenho de alto nível em vários benchmarks médicos, superando especialmente o GPT-4 em avaliação de especialistas e novos exames de qualificação para a prática médica.
5.2.3 Modelo de idioma médico inglês
- Gatortron:
- Endereço: https://github.com/uf-hobi-informatics-lab/gatortron
- Introdução: Um modelo de maquete inicial no campo da saúde, dedicado a como os sistemas que usam casos de saúde eletrônica não estruturados se beneficiam de uma maquete médico com bilhões de parâmetros.
- Codex-Med:
- Endereço: https://github.com/vlievin/medical-ruononing
- Introdução: dedicado à capacidade do modelo GPT-3.5 de responder e motivos para problemas médicos reais. Conjuntos de dados de testes médicos USMLE e MEDMCQA e conjunto de dados de compreensão de leitura médica PubMedqa.
- Galactica:
- Endereço: https://galactica.org/
- INTRODUÇÃO: A Galactica está comprometida em resolver a sobrecarga de informações no campo da ciência e armazena e incorpora conhecimento científico, incluindo o campo médico e de saúde. A Galactica é treinada em um grande corpus de trabalhos e referências para tentar descobrir possíveis relações entre pesquisas em diferentes campos.
- Deid-Gpt:
- Endereço: https://github.com/yhydhx/chatgpt-api
- Introdução: Uma estrutura inovadora de desidentificação habilitada para GPT4 que pode identificar e excluir automaticamente as informações de identificação.
- ChatDoctor:
- Endereço: https://github.com/kent0n-li/chatdoctor
- Introdução: Um modelo de diálogo médico obtido por ajuste fino com base na llama usando conhecimento básico no campo médico.
- Medalpaca:
- Endereço: https://github.com/kbreakm/medalpaca
- INTRODUÇÃO: A Medalpaca adota uma estratégia de código aberto dedicado à solução de questões de privacidade nos sistemas de saúde. O modelo é construído na llama com 7 bilhões e 13 bilhões de parâmetros.
- PMC-llama:
- Endereço: https://github.com/chaoyi-wu/pmc-llama
- INTRODUÇÃO: O PMC-LLAMA é um modelo de linguagem de código aberto que incuta ainda mais o conhecimento médico, regulando a llama-7b em um total de 4,8 milhões de trabalhos acadêmicos biomédicos para aprimorar suas capacidades no campo médico.
- Visual Med-Alpaca:
- Endereço: https://github.com/cambridgeltl/visual-med-alpaca
- INTRODUÇÃO: O Visual Med-Alpaca é um modelo básico biomédico de código aberto e eficiente em parâmetro que pode ser integrado aos "especialistas em visão" da medicina para tarefas biomédicas multimodais. O modelo é construído na arquitetura LLAMA-7B e é treinado usando um conjunto de instruções com curadoria de especialistas GPT-3.5-Turbo e humanos.
- Gatortrongpt:
- Endereço: https://github.com/uf-hobi-informatics-lab/gatortrongpt
- INTRODUÇÃO: Gatortrongpt é um modelo de idioma grande generativo médico. O modelo é construído no GPT-3 e contém 5 bilhões ou 20 bilhões de parâmetros. O modelo usa um enorme corpus de textos clínicos e ingleses contendo 277 bilhões de palavras.
- Medagi:
- Endereço: https://github.com/joshuachou2018/medagi
- Introdução: Medagi, um exemplo, unifica os modelos de idiomas médicos específicos do domínio, com o menor custo, fornece uma maneira possível de implementar a inteligência artificial médica geral.
- Llava-med:
- Endereço: https://github.com/microsoft/llava-med
- INTRODUÇÃO: O LLAVA-MED usa o domínio geral llava para inicialização e depois treinado continuamente de maneira de aprendizado de curso (primeiro com alinhamento de conceito biomédico, seguido de um ajuste abrangente de instrução).
- Medflamingo:
- Endereço: https://github.com/snap-stanford/med-flamingo
- Introdução: Med-Flamingo é um modelo de linguagem visual projetado especificamente para processar dados multimodais entrelaçados contendo imagens e texto. Com base no Flamingo, o Med-Flamingo aprimora ainda mais suas capacidades nesses campos médicos, pré-treinamento de uma variedade de fontes de conhecimento multimodais em diferentes disciplinas médicas.
5.3 VLM médico
| Modelo | Papel | Github |
|---|
| Medvint | link | link |
| Medflamingo | link | link |
| Llava-med | link | link |
| Qilin-med-vl | link | link |
| Radfm | link | link |
| Meddr | link | link |
| Huatuogpt-Vision | link | link |
| Biomedgpt | link | link |
| Med-MOE | link | link |
| R-LLAVA | link | - |
| Med-2E3 | link | - |
| GMAI-VL | link | link |
5.4 Benchmark Medical VLM
| Benchmark | Papel | Github |
|---|
| Gmai-mmbench | link | link |
| Omnimedvqa | link | link |
| Mmmu | link | link |
| Multimedeval | link | link |
| WorldMedqa-V | link | - |
↥ de volta ao topo
6. Documentos relacionados
6.1 Documentos que podem ser úteis na era pós-Chatgpt
Modelo de idioma grande codificação de conhecimento clínico Endereço do artigo: https://arxiv.org/abs/2212.13138
Desempenho do ChatGPT no USMLE: Potencial para educação médica assistida por AI usando grandes modelos de idiomas Endereço em papel: https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000198
Testes (Turing) para o endereço de papel de aconselhamento médico do ChatGPT: https://arxiv.org/abs/2301.10035
Ferramentas: o Modelo de Idioma pode ser ensinado por si só usando o endereço do papel da ferramenta: https://arxiv.org/abs/2302.047611
Verifique seus fatos e tente novamente: Melhore documentos de modelos de idiomas grandes usando conhecimento externo e feedback automático: https://arxiv.org/abs/2302.12813
Capacidade do GPT-4 nos desafios médicos Endereço em papel: https://arxiv.org/abs/2303.13375
6.2 Artigos de visão geral
- Modelo de linguagem pré-treinado no campo da ciência biomédica: endereço sistemático de papel de pesquisa
- Um resumo do endereço em papel do guia de aprendizado profundo da saúde Endereço de papel da natureza Medicine
- Uma revisão do endereço em papel do grande modelo de linguagem no campo dos cuidados de saúde
6.3 Artigos específicos da tarefa
Artigos relacionados a registros médicos eletrônicos
- Transfira o aprendizado da literatura médica para previsão de seção em discos de saúde eletrônica endereço em papel
- MUFASA: Pesquisa multimodal de arquitetura de fusão por registros eletrônicos de saúde
Extração de relacionamento médico
- Aproveitando a floresta de dependência para o endereço de papel de extração de relação médica neural
Gráfico de conhecimento médico
- Aprendendo um gráfico de conhecimento de saúde do endereço de papel de registros médicos eletrônicos
Diagnóstico auxiliar
- Avaliação e diagnóstico preciso de doenças pediátricas usando inteligência artística
Entidade médica Linking (padronização)
- Entidade médica ligando usando o endereço de papel de rede tripleto
- Uma estrutura de geração e rank com regularização do tipo semântico para conceito biomédico Endereço de papel de normalização
- Modelos neurais profundos para normalização do conceito médico em textos gerados pelo usuário Endereço em papel
6.4 Índice de reunião
Lista de documentos relacionados no campo da medicina no ACL2020
- Uma estrutura de geração e rank com regularização do tipo semântico para conceito biomédico Endereço de papel de normalização
- Representações de entidades biomédicas com endereço de papel de marginalização sinônimo
- Tradução de documentos vs. Tradução de consulta para recuperação de informações transversais no endereço de papel de domínio médico
- MIE: Um extrator de informações médicas para o endereço de papel de diálogos médicos
- Racionalizando a previsão de relação médica do endereço de papel estatística no nível do corpus
AAAI2020 Lista de papéis relacionados à PND médica
- Sobre a geração de pares de perguntas de perguntas médicas, endereço em papel
- LATTE: Modelagem de tipo latente para entidade biomédica Linking em papel
- Aprendendo incorporações conceituais contextuais para o endereço de papel de texto médico
- Entendendo conversas médicas com atenção da palavra -chave dispersa e supervisão fraca das respostas endereço do papel
- Simultaneamente, vincular entidades e extrair relações do texto biomédico sem o endereço de papel de supervisão de nível de menção
- As incorporações podem representar adequadamente a terminologia médica? Novos conjuntos de dados de similaridade de termos médicos em larga escala têm a resposta! Endereço em papel
Lista de papéis relacionados à NLP médica EMNLP2020
- Rumo à compreensão da leitura da máquina médica com conhecimento estrutural e endereço de papel de texto simples
- Meddialog: conjunto de conjuntos de dados de diálogo médico em larga escala
- Cometa: um corpus para entidade médica que vincula o endereço de papel de mídia social
- Extração de eventos biomédicos como endereço de papel de marcação de sequência
- Fedido: Aprendizagem Federada via Destilação do Ensemble para Relacionamento Médico Endereço de Extração de Artigo Análise: Fedido: Aprendizagem Federada para Extração de Relacionamento Médico (Com base na Destilação de Fusion)
- Infundir o conhecimento da doença em Bert para resposta à saúde de perguntas, inferência médica e endereço de papel de reconhecimento de nomes de doenças
- Um modelo generativo orientado ao conhecimento para multi-explicação do endereço do papel de normalização de procedimentos médicos chineses de procedimentos médicos
- Biomegatron: maior endereço de papel do modelo de linguagem biomédica de domínio biomédico
- Consulta entre gêneros para reivindicações médicas no endereço do jornal de notícias
↥ de volta ao topo
7. Kit de ferramentas de código aberto
- Ferramenta de partição de palavras: PKUSEG Endereço do projeto Descrição do projeto: Uma ferramenta de particípio de palavras chinesas de vários domínios lançada pela Peking University suporta a seleção de campos médicos.
↥ de volta ao topo
8. Soluções de produtos de nível industrial
Sabedoria da medicina espiritual
Médico canhoto
Yidu Cloud Research Institute-Medical Natural Language Processing
Baidu - Estrutura de texto médico
Alibaba Cloud - Processamento de linguagem natural médica
↥ de volta ao topo
9. Compartilhamento de blogs
- ALPACA: Uma poderosa instrução de código aberto seguinte ao modelo
- Lições aprendidas com a construção de sistemas de processamento de linguagem natural no campo médico
- Introdução ao banco de dados público e tecnologia de mineração de dados na era do big data
- Olhando para o desenvolvimento da PNL no campo médico da ACL 2021, com download de recursos
↥ de volta ao topo
10. Links amigáveis
- Awesome_chinese_medical_nlp
- Pesquisa de conjunto de dados da PNL chinesa
- dados médicos (dados massivos relacionados à medicina)
- Conjunto de dados Tianchi (incluindo vários conjuntos de dados médicos de NLP)
↥ de volta ao topo
11. Referência
@misc { medical_NLP_github ,
author = { Xidong Wang, Ziyue Lin and Jing Tang, Rongsheng Wang, Benyou Wang } ,
title = { Medical NLP } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/FreedomIntelligence/Medical_NLP} }
}