該擴展名為想要在Wikimedia Commons上編輯(圖像,視頻,PDFS ...)的OpenRefine用戶提供了幾個有用的功能。有關Wikimedia Commons的有關OpenRefine的更多信息,文檔和How-TO,請參見https://commons.wikimedia.org/wiki/commons:ponsemons:openrefine 。
此擴展中包含的功能:
通過從一個或多個Wikimedia Commons類別(包括類別深度)加載文件名來啟動OpenRefine項目
添加每個文件名稱的Commons類別和/或M-IDS的列
啟動項目時,文件名將已經進行調解
一些專用的GREL命令允許wikitext的基本處理和提取: extractFromTemplate和value.extractCategories
(在此擴展程序的0.1.1發行版中)對現有Wikimedia Commons文件的文件縮略圖預覽的基本支持。顯示一些(但不是全部)文件類型/擴展名的縮略圖。當前有縮略圖支持JPEG,GIF,PNG,DJVU,PDF,SVG,WebM和OGV文件。
它可與OpenRefine 3.6.x和更高版本的OpenRefine一起使用。它與OpenRefine 3.5.x或更早的OpenRefine不兼容。 (OpenRefine支持版本3.6的Wikimedia Commons編輯;這在早期版本中是不可能的。)
該擴展名於2022年10月首次發布。它是由Wikimedia Project Grant資助的。
下載此擴展程序最新版本的.zip文件。解壓縮此文件,然後將未拉鍊的文件夾放入OpenRefine擴展文件夾中。閱讀有關在OpenRefine的用戶手冊中安裝擴展的更多信息。
正確安裝此擴展程序後,現在您將在OpenRefine啟動新項目時看到其他選項“ Wikimedia Commons”。
安裝此擴展程序後,單擊“ Wikimedia Commons”選項,以在OpenRefine中啟動一個新項目。將提示您添加一個或多個Wikimedia Commons類別。
無需鍵入類別:前綴。
您可以通過在每個類別之後輸入或在輸入字段中選擇一個數字來指定類別深度。深度0僅表示當前類別級別的文件;深度1將從一個子類別級別下降,等等。
接下來,在項目預覽屏幕( Configure parsing options )中,您還可以選擇在每個文件的M-ID(唯一的MediaInfo標識符)和/或CONSON類別中包括一個列。
當您的項目啟動時,文件名將已經進行調解。
當您將較大類別(數千個文件)加載到一個新項目中時,OpenRefine將開始緩慢啟動,並會為您提供記憶警告。這是一個已知的問題。等待一點;該項目最終將開始。 Commons擴展已通過超過450,000個文件進行了測試。
Wikimedia Commons擴展程序還啟用了兩個專用的GREL命令,這些命令有助於從Wikimedia Commons文件的Wikitext提取特定信息。 (Grel,一般的精煉表達語言,是一種專用的腳本語言,用於OpenRefine中用於許多靈活的數據操作。有關OpenRefine中使用Grel的一般參考,請參見https://docs.openrefine.org/ manual/grelfelfunctions。)
首先,從項目中的Commons文件列表中檢索Wikitext。在“對帳”文件名的“列”列列中,選擇Edit column > Add column from reconciled values...然後在“結果”對話框窗口中選擇Wikitext 。
從Wikitext的新列中,您現在可以提取如下所述提取值和類別。首先選擇Edit column > Add column based on this column...在列菜單中。在下一個對話框窗口中,您可以使用各種特定的GREL命令:
extractFromTemplate使用以下語法:
extractFromTemplate(value, "BHL", "source")[0]
在哪裡替換BHL用模板的名稱(無捲曲括號)和source為要提取值的參數。該GREL語法將返回上述參數的第一個(通常是唯一的)值,例如https://www.flickr.com/photos/biodivlibrary/10329116385 。
value.extractCategories使用以下語法:
value.extractCategories().join('#')該GREL語法將返回Wikitext中提到的所有類別,該類別由#字符隔開,然後您可以根據需要將其用於進一步分配結果單元格。
跑步
mvn package
這將在target文件夾中創建一個ZIP文件,然後可以將其安裝在OpenRefine中。
為了避免在每次要測試時都必須在相應目錄中解壓縮擴展程序,您也可以使用另一個設置:只需在OpenRefine中的擴展程序文件夾中創建一個符號鏈接到此存儲庫的本地副本。使用此設置,您無需在更改擴展程序時運行mvn package ,但是如果您要更改Java文件,則仍將使用mvn compile進行編譯,如果您對任何文件進行更改,請重新啟動OpenRefine。
確保您在master分支上,並且是最新的( git pull )
打開pom.xml並將版本設置為所需的版本編號,例如<version>0.1.0</version>
提交並將這些更改推向主人
添加一個相應的git標籤,帶有git tag -a v0.1.0 -m "Version 0.1.0" (從github桌面上工作時,您可以遵循此過程,並手動添加v0.1.0標籤,並帶有描述Version 0.1.0 )
將標籤推到github: git push --tags (在github桌面中,只需再次推動)
在https://github.com/openrefine/commonsextension/releases/new上在github上創建新版本,提供了一個發行標題(例如“ Commons Extension 0.1.0”),並描述了此版本中的功能。
打開pom.xml並將版本設置為預期的下一個版本號,然後將版本設置為-SNAPSHOT 。例如,如果您剛剛發布了0.1.0,則可以設置<version>0.1.1-SNAPSHOT</version>
提交並推動這些變化。