Essa extensão fornece várias funcionalidades úteis para usuários do OpenRefine que desejam editar (dados estruturados de) arquivos de mídia (imagens, vídeos, PDFs ...) no Wikimedia Commons . Para mais informações, documentação e instruções sobre o OpenRefine for Wikimedia Commons, consulte https://commons.wikimedia.org/wiki/Commons:openRefine .
Recursos incluídos nesta extensão:
Inicie um projeto OpenRefine carregando nomes de arquivos de uma ou mais categorias da Wikimedia Commons (incluindo a profundidade da categoria)
Adicione colunas com categorias Commons e/ou M-IDs de cada nome de arquivo
Os nomes de arquivos já serão reconciliados ao iniciar o projeto
Alguns comandos de Grel dedicados permitem processamento básico e extração de Wikitext: extractFromTemplate e value.extractCategories
(Na versão 0.1.1 desta extensão e posterior) Suporte básico para visualizações de miniatura de arquivo dos arquivos da Wikimedia Commons existentes. As miniaturas são exibidas para alguns (mas não todos) tipos/extensões de arquivo. Atualmente, existe suporte de miniatura para arquivos JPEG, GIF, PNG, DJVU, PDF, SVG, WEBM e OGV.
Funciona com o OpenRefine 3.6.x e versões posteriores do OpenRefine . Não é compatível com o OpenRefine 3.5.x ou anterior. (OpenRefine suporta a edição da Wikimedia Commons da versão 3.6; isso não é possível nas versões anteriores.)
Esta extensão foi lançada pela primeira vez em outubro de 2022. Foi financiada por uma concessão do Wikimedia Project.
Faça o download do arquivo .zip da versão mais recente desta extensão. Descompacte este arquivo e coloque a pasta descompactada na sua pasta OpenRefine Extensions. Leia mais sobre como instalar extensões no manual do usuário do OpenRefine.
Quando essa extensão for instalada corretamente, agora você verá a opção adicional 'Wikimedia Commons' ao iniciar um novo projeto no OpenRefine.
Depois de instalar esta extensão, clique na opção 'Wikimedia Commons' para iniciar um novo projeto no OpenRefine. Você será solicitado a adicionar uma ou mais categorias da Wikimedia Commons.
Não há necessidade de digitar a categoria: prefixo.
Você pode especificar a profundidade da categoria digitando ou selecionando um número no campo de entrada após cada categoria. Profundidade 0 significa apenas arquivos do nível atual da categoria; A profundidade 1 recuperará arquivos de um nível de subcategoria, etc.
Em seguida, na tela de visualização do projeto ( Configure parsing options ), você pode optar por incluir também uma coluna com as categorias M-ID de cada arquivo (identificador de MediaInfo) e/ou Commons.
Os nomes dos arquivos já serão reconciliados quando o seu projeto iniciar.
Quando você carrega categorias maiores (milhares de arquivos) em um novo projeto, o OpenRefine começa lentamente e oferece um aviso de memória. Este é um problema conhecido. Espere um pouco; O projeto acabará por começar. A extensão do Commons foi testada com um projeto de mais de 450.000 arquivos.
A extensão da Wikimedia Commons também permite dois comandos Grel dedicados, que ajudam a extrair informações específicas do Wikitext dos arquivos da Wikimedia Commons. (Grel, Geral Refine Expression Language, é uma linguagem de script dedicada usada no OpenRefine para muitas operações de dados flexíveis. Para uma referência geral sobre o uso de Grel no OpenRefine, consulte https://docs.openrefine.org/manual/Grefunctions.)
Em primeiro lugar, recupere o Wikitext de uma lista de arquivos do Commons em seu projeto. No menu de coluna da coluna dos nomes de arquivos reconciliados, selecione Edit column > Add column from reconciled values... e selecione Wikitext na janela de diálogo resultante.
A partir desta nova coluna com o Wikitext, agora você pode extrair valores e categorias, conforme descrito abaixo. Comece selecionando Edit column > Add column based on this column... no menu da coluna. Na próxima janela de diálogo, você pode usar vários comandos Grel específicos:
extractFromTemplateUse a seguinte sintaxe:
extractFromTemplate(value, "BHL", "source")[0]
Onde você substitui BHL pelo nome do modelo (sem colchetes encaracolados) e source pelo parâmetro do qual você deseja extrair o valor. Essa sintaxe do Grel retornará o primeiro (e geralmente o único) do parâmetro referido, por exemplo, https://www.flickr.com/photos/biodivlibrary/10329116385 .
value.extractCategoriesUse a seguinte sintaxe:
value.extractCategories().join('#') Essa sintaxe do Grel retornará todas as categorias mencionadas no Wikitext, separadas pelo caractere # , que você pode usar para dividir ainda mais a célula resultante, conforme necessário.
Correr
mvn package
Isso cria um arquivo zip na pasta target , que pode ser instalada no OpenRefine.
Para evitar a necessidade de descompactar a extensão no diretório correspondente sempre que desejar testá -lo, você também pode usar outra configuração: basta criar um link simbólico da pasta de extensões no OpenRefine para a cópia local deste repositório. Com essa configuração, você não precisa executar mvn package ao fazer alterações na extensão, mas ainda o compilará com mvn compile se estiver fazendo alterações nos arquivos Java e reinicie o OpenRefine se fizer alterações em algum arquivo.
Certifique -se de que você está no ramo master e está atualizado ( git pull )
Abra pom.xml e defina a versão para o número da versão desejada, como <version>0.1.0</version>
Cometer e empurrar essas mudanças para dominar
Adicione uma tag git correspondente, com git tag -a v0.1.0 -m "Version 0.1.0" (Ao trabalhar na área de trabalho do Github, você pode seguir esse processo e adicionar manualmente a tag v0.1.0 com a versão Descrição Version 0.1.0 )
Empurre a etiqueta para o Github: git push --tags (na área de trabalho do Github, basta empurrar novamente)
Crie uma nova versão no Github em https://github.com/openrefine/commonsoxtion/releases/new, fornecendo um título de liberação (como "Commons Extension 0.1.0") e uma descrição dos recursos nesta versão.
Abra pom.xml e defina a versão para o número da próxima versão esperada, seguida de -SNAPSHOT . Por exemplo, se você acabou de lançar 0.1.0, poderá definir <version>0.1.1-SNAPSHOT</version>
Cometer e empurrar essas mudanças.