Pesquisa semântica incrível
Logotipo feito por @createdbytango.
Procurando mais adições de papel. PS: Levante um PR
A seguir, o repositório tem como objetivo servir um meta-repositório para pesquisa semântica e tarefas relacionadas à similaridade semântica.
A pesquisa semântica não se limita ao texto! Isso pode ser feito com imagens, fala, etc. Existem inúmeras casos de uso diferentes e aplicações da pesquisa semântica.
Sinta -se à vontade para aumentar um PR neste repositório!
Conteúdo
- Papéis
- 2014
- 2015
- 2016
- 2017
- 2018
- 2019
- 2020
- 2021
- 2022
- 2023
- Artigos
- Bibliotecas e ferramentas
- Conjuntos de dados
- Conquistas
Papéis
2010
- Árvores de faixa prioritária
- Recuperação de informações e a Web semântica?
2014
- Um modelo semântico latente com estrutura convolucional para recuperação de informações?
2015
- Vetores de pular a pensamento?
- LSH prático e ideal para distância angular
2016
- Saco de truques para classificação de texto eficiente?
- Vetores de palavras enriquecedores com informações da subglema?
- Pesquisa aproximada mais próxima e eficiente e robusta, usando gráficos mundiais pequenos de navegação hierárquica
- Ao procurar aproximadamente por incorporações de palavras semelhantes
- Aprendendo representações distribuídas de frases a partir de dados não marcados?
- Pesquisa de vizinha mais próxima aproximada em dados de alta dimensão-experimentos, análises e melhorias
2017
- Aprendizagem supervisionada de representações universais de sentenças a partir de dados de inferência de linguagem natural?
- Similaridade textual semântica para o hindi?
- Sugestão eficiente de resposta à linguagem natural para resposta inteligente?
2018
- Codificador de frase universal?
- Aprendendo similaridade textual semântica das conversas?
- Google AI Blog: Avanços na similaridade textual semântica?
- Speech2Vec: uma estrutura de sequência para sequência para aprender palavras de palavras da fala)?
- Otimização da indexação com base no gráfico vizinho mais parecido com a pesquisa de proximidade em dados de alta dimensão?
- Pesquisa de vizinho mais próxima aproximada mais rápida com o gráfico de espalhamento de navegação
- O caso das estruturas de índice aprendidas
2019
- Laser: Representações de frases agnósticas de idiomas?
- Documentar a expansão por previsão de consultas?
- Sentença-Bert: incorporações de sentença usando Siamese Bert-Networks?
- Classificação de documentos de vários estágios com Bert?
- Recuperação latente para respostas de perguntas de domínio aberto fracamente supervisionado
- Perguntas para o domínio aberto de ponta a ponta Resposta com Bertserini
- BioBert: Um modelo de representação de linguagem biomédica pré-treinada para mineração de texto biomédico?
- Analisando e melhorando as representações com a perda de vizinha mais próxima?
- Diskann: Pesquisa de vizinho mais próxima de bilhões de pontos mais rápidos em um único nó
2020
- Implantando rapidamente um mecanismo de busca neural para o conjunto de dados de pesquisa aberta covid-19: pensamentos preliminares e lições aprendidas?
- Passagem re-ranking com Bert?
- Co-Pesquisa: Recuperação de informações CoVID-19 com pesquisa semântica, resposta a perguntas e resumo abstrato?
- LABSE: Sentença Bert de Bert, idioma, incorporação?
- Covidex: modelos de classificação neural e infraestrutura de pesquisa de palavras-chave para o conjunto de dados de pesquisa aberta covid-19?
- Detext: Uma estrutura profunda do NLP para entender o texto inteligente?
- Fazendo incorporação de frases monolíngues multilíngues usando destilação de conhecimento?
- Transformadores pré -criados para classificação de texto: Bert e além?
- Reino: modelo de idioma de recuperação de recuperação pré-treinamento
- Electra: codificadores de texto pré-treinamento como discriminadores em vez de geradores?
- Melhorando o aprendizado profundo da pesquisa do Airbnb
- Gerenciando a diversidade na pesquisa do Airbnb?
- Aprendizagem contrastiva negativa mais próxima do vizinho mais próximo para recuperação de texto densa?
- Incorporações de estilo de imagem não supervisionadas para tarefas de recuperação e reconhecimento?
- Declaração: Aprendizagem contrastiva profunda para representações textuais não supervisionadas?
2021
- Abordagem híbrida para cálculo de similaridade semântica entre palavras tâmeis?
- Sbert aumentado?
- Beir: Uma referência heterogênea para avaliação zero de modelos de recuperação de informações?
- Pesquisa visual heterogênea consciente da compatibilidade?
- Aprendendo estilo pessoal de poucos exemplos?
- TSDAE: Usando o codificador de denoising seqüencial baseado em transformador para a sentença não supervisionada que incorpore o aprendizado?
- Uma pesquisa de transformadores ??
- Splade: modelo escasso lexical e de expansão para a classificação do primeiro estágio?
- Sugestões de consulta de pesquisa de alta qualidade usando aprendizado de reforço profundo
- Recuperação de produtos baseada em incorporação na pesquisa de Taobao ??
- TPRM: Um modelo de classificação personalizado baseado em tópicos para pesquisa na web?
- MMARCO: Uma versão multilíngue do conjunto de dados de classificação da MS Marco Passage?
- Raciocínio do banco de dados sobre o texto?
- Como o ajuste fino adversário beneficia Bert?)?
- Trem curto, teste longo: atenção com vieses lineares permite extrapolação de comprimento de entrada?
- Primer: Procurando transformadores eficientes para modelagem de idiomas?
- Quão familiar isso parece? Análise de similaridade representacional transversal de incorporações de palavras acústicas?
- SIMCSE: Aprendizagem contrastiva simples de incorporações de sentença?
- Atenção composicional: Desvendando a pesquisa e a recuperação?
- Spann: Pesquisa aproximada de vizinho mais próximo em escala de bilhão altamente eficiente
- GPL: Pseudo -rotulagem generativa para adaptação do domínio não supervisionada da recuperação densa?
- Motores de pesquisa generativos: experimentos iniciais?
- Repensando a busca: Fazendo especialistas em domínio de diletentes -Whiteningbert: uma abordagem fácil de incorporação de sentença não supervisionada
2022
- O texto e o código incorporam o pré-treinamento contrastivo?
- Relíquia: recuperando evidências de reivindicações literárias?
- Trans-codificador: modelagem de pares de frases não supervisionada por meio de distilações auto e mútuas?
- SAMU-XLSR: Representação de fala transversal semanticamente alinhada em nível multimodal?
- Uma análise das funções de fusão para recuperação híbrida?
- Detecção fora da distribuição com vizinhos profundos mais próximos
- ESB: Uma referência para o reconhecimento de fala de ponta a ponta de vários domínios?
- Analisando incorporações de palavras acústicas de modelos de fala auto-supervisionados pré-treinados)?
- Repensando com recuperação: fiel grande inferência do modelo de linguagem?
- Recuperação precisa de densa tiro zero sem rótulos de relevância?
- Memória do transformador como um índice de pesquisa diferenciável?
2023
- Dedo: inferência rápida para busca aproximada mais próxima baseada em gráficos?
- Classificação de texto de "baixo resistência": um método de classificação sem parâmetros com compressores?
- Sparseembed: Aprendendo representações lexicais esparsas com incorporações contextuais para recuperação?
Artigos
- Abordando a pesquisa semântica
- Pesquisa semântica na pesquisa cognitiva do Azure
- Como usamos a pesquisa semântica para tornar nossa pesquisa 10x mais inteligente
- Blog de Stanford AI: Construindo modelos de PNL escaláveis, explicáveis e adaptáveis com recuperação
- Construindo um mecanismo de busca semântica com incorporações de palavras de espaço duplo
- Pesquisa de similaridade semântica em escala de bilhão com Faiss+Sbert
- Algumas observações sobre limiares de pesquisa de similaridade
- Pesquisa de imagem quase duplicada usando hash sensível à localidade
- Curso grátis sobre pesquisa de similaridade vetorial e faiss
- Guia abrangente para aproximar algoritmos dos vizinhos mais próximos
- Apresentando o índice híbrido para ativar a pesquisa semântica com conhecimento de palavras-chave
- Pesquisa semântica de Argilla
- CO: Aqui está o modelo de compreensão de texto multilíngue
- Simplifique os modelos de incorporação multilíngue de pesquisa
Bibliotecas e ferramentas
- FastText
- Codificador de frase universal
- Sbert
- Electra
- Labse
- LASER
- Relevância AI - plataforma vetorial de experimentação à implantação
- Palheiro
- Jina.ai
- Pinecone
- Senteval Toolkit
- ranx
- Beir: Benchmarking IR
- Relíquia: recuperando evidências para o conjunto de dados de reivindicações literárias
- Matchzoo-Py
- Deep_text_matching
- Qual quadro?
- lexica.art
- Pesquisa semântica emoji
- Pyserini
- Bertserini
- Bertsimilaridade
- Milvus
- Neuronlp ++
- tecelava
- Pesquisa semântica-através da wikipedia-with-Witheaviate
- Pesquisa-Youtube-Youtube em linguagem natural
- mesmo. Energia
- Ann Benchmarks
- Scann
- REINO
- irritar
- PynNDescent
- nsg
- Falconn
- Redis HNSW
- Autofaisiss
- DPR
- rank_bm25
- FlashRank
- quasepy
- VECH
- Vespa
- PynNDescent
- pgann
- Similaridade do tensorflow
- OpenSemanticSearch.org
- Pesquisa semântica do GPT3
- Searchy
- txtai
- Hypertag
- Vectorai
- INCEDDINGHUB
- Aquiladb
- Stretnet
Conjuntos de dados
- Hub semântico de conjunto de dados de similaridade de texto
- Desafio de similaridade da imagem da AI do Facebook
- Sagacidade: conjunto de dados de texto de imagem baseado em Wikipedia
- Beir
- Mteb
Conquistas
Dê uma olhada no conselho do projeto para que a lista de tarefas contribua para qualquer um dos problemas abertos.