Download de masakhane mt - masakhane mt Download de código fonte

masakhane mt

Outro código-fonte

1.0.0

Baixar

Masakhane - Uma coleção viva de projetos de PNL para africanos, por africanos

Masakhane é um esforço de pesquisa para a PNL para idiomas africanos que são de código aberto, em todo o continente, distribuídos e online. Este repositório do GitHub abriga os dados, código, resultados e pesquisas para a construção de resultados de PNL de linha de base aberta para idiomas africanos.

Site: Masakhane.io

Metas

Para a África : construir e facilitar uma comunidade de pesquisadores de PNL, conectá -lo e cultivá -lo, estimular e compartilhar pesquisas adicionais, construir ferramentas úteis para aplicações em governo, medicina, ciência e educação, para permitir a preservação de idiomas e aumentar sua visibilidade e relevância global.
Para pesquisa de PNL : criar conjuntos de dados e ferramentas para facilitar a pesquisa da PNL sobre idiomas africanos e representar novos problemas de pesquisa para enriquecer o cenário de pesquisa da PNL.
Para a comunidade global de pesquisadores : descobrir as melhores práticas para pesquisas distribuídas, a serem aplicadas por outras comunidades de pesquisa emergentes.

Hall of Fame para nossos colaboradores

Progresso

Veja nossa pré-impressão a ser publicada nas descobertas do EMNLP 2020 aqui
Veja nossos benchmarks de tradução da máquina enviada aqui! Não consegue ver seu idioma? Por favor, envie uma referência!
Confira nosso artigo a ser publicado no Workshop AfricanLP @ ICLR 2020
Confira os papéis escritos por nossos participantes aqui
Encontre mais sobre nossas iniciativas atuais
Veja a nossa lista de documentos da comunidade
Leia nossas notas semanais da reunião
Siga nossa publicação no Medium

Como posso contribuir?

Existem muitas maneiras de contribuir para Masakhane .

Treine um modelo - contribua com um modelo treinado e código relacionado para o seu idioma
Análise - Contribua com a análise de dados/modelos para qualquer idioma africano. Você não precisa de nenhuma experiência técnica para isso! Se você é um linguista, podemos emparelhá -lo com um profissional de tradução de máquinas e você pode ajudar a contribuir com a análise
Dados - Ajude a criar ou encontrar conjuntos de dados para o seu idioma
Documentação - Ajude a documentar nossas discussões, progresso. Isso é muito necessário. Ou contribuir para a documentação da base "Notebook" que melhorará a experiência de outros
Orientação - forneça conselhos ou ajude os modelos para seus idiomas e conjuntos de dados ou ajude as pessoas a começar
Admin - Trabalhar com tantos pesquisadores pode ser um grande desafio! Ajude com tarefas administrativas
Compute - Ajuda com a infraestrutura e calcule! Você tem computação sobressalente para doar? Deixe -nos saber! Estamos sempre procurando mais!
Brainstorm se junta às nossas reuniões semanais, forneça conselhos ou idéias
Informação - Conte nossas histórias para o mundo conversando sobre a comunidade, contribuindo para nossa publicação média ou se envolvendo com meios de comunicação
Mlops & ML Engineering - Você gosta de se aprofundar no lado do MLOPS do aprendizado de máquina? Você é um desenvolvedor de software que procura aprimorar suas habilidades de engenheiro de ML? Junte -se a nós para ajudar a criar ferramentas para apoiar a reprodutibilidade, a coleta de dados e o compartilhamento de modelos!

Quer mais detalhes? Confira nossas iniciativas atuais

Como faço para entrar?

Junte -se à nossa folga
Solicitação para ingressar no nosso grupo do Google
Isso é para que possamos apresentá -lo em nossa página da web masakhane.io. Envie um email o seguinte para [email protected]:
- Seu nome completo
- Um link de mídia social preferido
- O (s) idioma (s) você estará trabalhando (ou sua especialidade relevante geral - se você é um especialista na tradução da máquina e - gostaria de aumentar a comunidade por isso)
- Uma foto
- Sua afiliação e papel.

Por favor, seja paciente com uma resposta através do nosso endereço de e-mail, estamos muito atrasados em nossa administração, no tempo do Covid-19.

Construindo seu primeiro modelo de tradução de máquina

Normalmente, se você tem alguma experiência de programação, incentivamos você a começar sua jornada com Masakhane, construindo uma linha de base para o seu idioma. Sentindo -se nervoso em se submeter ou não sabe por onde começar? Por favor, junte -se à nossa reunião semanal e nós o emparemos com um mentor!

1. Dê uma olhada no código de exemplo

Temos um exemplo de notebook Colab que treina um modelo para tradução em inglês para zulu. Você pode selecioná -lo indo para a seção do GitHub ao abrir um novo projeto.

2. Encontrar dados para o meu idioma?!

Este é um grande desafio, mas felizmente temos um lugar para começar! Na ACL 2019, este artigo foi publicado. O conto? Acontece que a comunidade de testemunhas de Jeová está traduzindo muitos documentos e nem todos são religiosos. E a representação de sua linguagem é diversa.

Confira esta planilha aqui para ver se o seu idioma está em destaque e depois vá para o Opus para encontrar os links para os dados: http://opus.nlpl.eu/jw300.php

Também fornecemos um script para facilitar o download e o preprocessamento do BPE dos dados JW300 da Opus: jw300_utils/get_jw300.py . Requer a instalação do pacote Python Opustools-PKG. Exemplo: para dowloading e pré-processamento das partes acholi (ACh) e Nyaneka (NYK) do JW300, chame o script como este: python get_jw300.py ach nyk --output_dir jw300

Não consegue encontrar seu idioma no conjunto de dados JW300?

Então ainda temos algumas opções! Nossa comunidade está pesquisando ampla e longe! Junte -se ao nosso grupo Slack e Google para discutir um caminho a seguir!

3. Execute o caderno!

Sua próxima etapa é usar o conjunto de dados JW300 no notebook Colab e executá -lo. A maioria dos conselhos está dentro do próprio caderno. Estamos constantemente melhorando esse caderno e estamos abertos a quaisquer recomendações. Lutou para ir? Então vamos trabalhar juntos para construir um caderno mais fácil de usar! Crie um problema do GitHub ou envie um email!

4. Está feito! Eu tenho resultados! Agora o quê?

Incrível! Você criou sua primeira linha de base. Agora precisamos obter o código, dados e resultados neste repositório do GitHub

Para considerarmos o seu oficial de envio de resultados, precisamos de algumas coisas:

O notebook que executará o código. O notebook deve ser executado na conta de outra pessoa e os dados que ele usa devem estar acessíveis publicamente (ou seja, se eu baixar o notebook e executá -lo, ele deve funcionar - portanto, não deve estar usando arquivos privados). Se você está se perguntando como fazer isso, não tema! Deixe -nos uma linha e trabalharemos juntos para garantir que o envio seja bom! :)
Os conjuntos de testes - para replicar isso e testar seus resultados, precisamos de configurações de teste salvas enviadas separadamente.
Um readme.md que descreve os (a) os dados utilizados - ESP Importante se for uma combinação de fontes (b) quaisquer alterações interessantes no modelo (c) talvez alguma análise de algumas frases do modelo final
O próprio modelo. Isso pode ser na forma de um link do Google Drive ou Dropbox. Em breve encontraremos um lar para nossos modelos treinados. Para que os modelos sejam usados para o aprendizado de transferência, mais treinados ou implantados, você precisa fornecer:
1. Um ponto de verificação com os parâmetros (arquivo .ckpt ),
2. O vocabulário de origem e destino ( src_vocab.txt , trg_vocab.txt ),
3. O arquivo de configuração ( config.yaml ),
4. e se aplicável: os códigos BPE ou scripts para o seu pipeline de pré-processamento. Joey NMT salva os três primeiros no diretório de modelos.
Os resultados - o trem, o dev e o conjunto de testes Bleu Score

Vamos expandir ainda mais nossas técnicas de análise, por isso é super importante agora temos uma cópia do modelo e dos conjuntos de testes, para que não precisemos executar novamente o treinamento apenas para fazer a análise

Depois de ter tudo isso acima, crie uma solicitação de tração no repositório. Veja as diretrizes aqui.

Estrutura do meu PR:

Veja também isso como um exemplo para a estrutura de sua contribuição

Estrutura:

 /benchmarks
 /<src-lang>-<tgt-lang>
   /<technique> -- this could be "jw300-baseline" or "fine-tuned-baseline" or "nig-newspaper-dataset"
     - notebook.ipynb
     - README.md
     - test.src
     - test.tgt
     - results.txt
     - src_vocab.txt
     - trg_vocab.txt
     - src.bpe
     - [trg.bpe if the bpe model is not joint with src]
     - config.yaml
     - any other files, if you have any

Exemplo:

 /benchmarks
  /en-xh
    /xhnavy-data-baseline
      - notebook.ipynb
      - README.md
      - test.xh
      - test.en
      - results.txt
      - src_vocab.txt
      - trg_vocab.txt
      - en-xh.4000.bpe
      - config.yaml
      - preprocessing.py

Aqui está um link para uma solicitação de tração que tenha as coisas relevantes.

Sentindo -se nervoso por contribuir com sua primeira solicitação de tração ou não tem certeza de como proceder? Por favor, não se sinta desanimado! Envie -nos um e -mail ou uma mensagem frouxa e trabalharemos juntos para obter sua contribuição em forma de navio!

5. Eu tenho uma linha de base. O que eu faço para melhorá -lo?

Legal! Portanto, existem muitas maneiras de melhorar os resultados. Nós nos desentendemos alguns deles neste documento. Tem outras idéias? Deixe -nos uma linha ou envie um PR!

Notas sobre implantação de modelo

Gostaríamos de destacar como nenhum dos modelos treinados é adequado para o uso da produção . Em nosso artigo aqui, exploramos os efeitos de desempenho do treinamento desse modelo nos conjuntos de dados JW300 - os modelos ainda não conseguem generalizar para domínios não religiosos. Como regra, nunca se deve implantar um modelo de PNL em um domínio para o qual ele não tenha sido treinado. E mesmo que seja treinado no domínio relevante, um modelo deve ser analisado em detalhes para entender os vieses e possíveis danos . Esses modelos têm como objetivo servir como trabalho em andamento para estimular mais pesquisas e entender melhor o fracasso de tais sistemas.

Código de Conduta

Consulte Código de Conduta

Referência

Bibtex

 @article{nekoto2020participatory,
  title={Participatory research for low-resourced machine translation: A case study in african languages},
  author={{$forall$}, { } and Nekoto, Wilhelmina and Marivate, Vukosi and Matsila, Tshinondiwa and Fasubaa, Timi and Kolawole, Tajudeen and Fagbohungbe, Taiwo and Akinola, Solomon Oluwole and Muhammad, Shamsuddee Hassan and Kabongo, Salomon and Osei, Salomey and others},
  journal={Findings of EMNLP},
  year={2020}
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-16
tamanho 214.25MB
Vindo de Github

Aplicativos Relacionados

versão beta do gerenciador mt

2024-09-25
Mundo MT

2023-08-18
Aplicativo de bicicleta Meituan MT

2023-07-27
MT Fotos versão Android

2023-05-18
MT retorna

2023-04-18
Ladrão de imagens MT

2009-05-09

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos