Низкие языки ресурсов
Ресурсы для сохранения, разработки и документации языков с низким ресурсом (человеком).
Согласно некоторым оценкам, половина из 7000 ~ разговорных языков, как ожидается, вымерли в этом столетии. Тем не менее, ученых, независимых ученых, организаций, сообществ и отдельных лиц, которые идут на остановку или замедление этой тенденции. Этот список предназначен для предоставления списка открытого кода, который был бы полезен для документирования, сохранения, разработки, сохранения или работы с исчезающими языками.
Слабая группа
У нас есть слабая группа для живого обсуждения. Присоединяйтесь к нам здесь!
Публикация
Белый документ, описывающий этот репозиторий, был опубликован на семинаре CCURL LREC 2016 (сотрудничество и вычисления для языков с низким разрешением). Бумага находится в этом хранилище, в папке papers . Загрузите сырую бумагу здесь: Открытый исходный код, обслуживающий исчезающие языки.
Способствовать
Чтобы отредактировать этот список на GitHub, просто нажмите здесь. Если вы хотите обсудить что -либо, связанное с этим, пожалуйста, откройте проблему. Если вы знаете о каком -либо доступном ресурсе, которого нет в этом списке, добавьте его, либо используя ссылку выше, либо отправив запросы.
Есть более подробная информация о внесении вклад в руководство по содействию.
Если вы заинтересованы в обсуждении списка в каком -то автономном качестве, свяжитесь с @RichardLitt. Я был бы более чем рад, что позвонил или по электронной почте обмен.
Оглавление
Содержимое содержимого , генерируемое с помощью doctoc
- Определения
- Общие репозитории
- Проекты и коммунальные услуги с одним языком
- Программное обеспечение
- Помощники конфигурации макета клавиатуры
- Аннотация
- Спецификации формата
- Связанные с I18N репозитории
- Аудио автоматизация
- Текст в речь (TTS)
- Автоматическое распознавание речи (ASR)
- Автоматизация текста
- Эксперименты
- Карточки
- Генерация естественного языка
- Вычислительные системы
- Android -приложения
- Хромированные расширения
- Fielddb
- FieldDB Webservices/Components/Plugins
- Академические исследовательские репозитории
- Пример репозитории
- Шрифты
- Корпус
- Организации
- На GitHub
- Другие организации OSS
- Учебные пособия
- Языковые проекты
- африкаанс
- албанский
- Alutiiq
- Амхарский
- Баск
- Бенгальский
- Чичева
- Галиц
- Грузинец
- Шрифты
- Интернационализация и локализация (I18N/L10N)
- Гуарани
- Хауса
- хинди
- Høgnorsk
- исландский
- Inuktitut
- Ирландский
- Kinyarwanda
- Курдский
- Лингала
- Lushootseed
- малайский
- Малагасийский
- Манкс
- Мигмак
- Minderico
- Нишнааб
- Оромо
- кечуа
- Сами
- Шотландский гэльский
- Secwepemctsín
- Сомалийский
- Тигринья
- Уральный
- Зулу
- Лицензия
Определения
Языки, находящиеся под угрозой исчезновения , - это человеческие языки, которые находятся под угрозой исчезновения. Этот список также охватывает языки меньшинства - языки, на которых говорят стабильное, но небольшое население (например, мальтийский или гавайский); и языки с низким или низким разрешением, на которых может быть сказано большая популяция, но недостаточно представлена в цифровом виде (например, кечуа). Эти языки имеют общие характеристики; Наиболее уместным являются редкие данные и отсутствие ресурсов, от проверки орфографии до грамматики до машинного перевода корпораций. Другие языки с недостаточным ресурсом, которые не подпадают под этот список, включают в себя построенные языки (например, клингон или на'ви), компьютерные языки (например, JavaScript или Lua), а также вымершие языки, которые настолько скудны, чтобы оказаться в вычислительном отношении для большинства целей (например, Tocharian).
Открытый исходный код »способствует универсальному доступу с помощью бесплатной лицензии на дизайн или план продукта, а также универсальное перераспределение этой конструкции или плана, включая последующие улучшения его любым». (Вики). Это важно, потому что деньги и ресурсы, выделяемые на язык или проект, которые не являются открытым исходным кодом, тратятся за счет возможной расширяемости в других местах.
Этот список раньше был назван endangered-languages . Он был переименован в то, что угроза - это загруженный термин, который оба могут не отражать взгляды языковых сообществ, говорящих на языках меньшинств. low-resource-languages фокусирует этот список на отсутствие цифровых ресурсов по сравнению с другими языками с высоким ресурсом.
Tools which are built for these languages are not included (unless relevant for dialects or variants): Arabic, Bulgarian, Catalan, Chinese, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, Flemish, French, German, Greek, Hebrew, Hungarian, Indonesian, Italian, Japanese, Korean, Latvian, Lithuanian, Norwegian, Norwegian (Bokmål), Персидский, польский, португальский, румынский, русский, сербский, славацкий, словенский, испанский, шведский, тайский, турецкий, украинский, валенсианский, вьетнамский. Этот список поступает из списка самых популярных языков контента для веб -сайтов, на этой странице Википедии. Можно использовать другие показатели - если у вас есть еще один, пожалуйста, предложите это!
Этот список особенно хорош в одном; показывая виды инструментов, которые существуют в полевых условиях, в целом. Однако для глубокого исследования в области конкретного языка или набора инструментов он не работает исключительно хорошо. Например, перечисление всех языковых пакетов Firefox или апертивных модулей для каждого низкого языка ресурсов будет бесполезным, что будет включать в себя все инструменты, доступные для Баски, отмеченные в Wiki ACL, что в основном означало бы инструменты каталогизации через группу IXA, некоторые из которых являются открытым исходным кодом, а некоторые - нет. Вместо этого просмотрите этот список как отправная точка для получения дополнительных исследований.
Ищете ресурсы для языков кода? Взгляните на коллекцию Awesome Lists.
Общие репозитории
Проекты и коммунальные услуги с одним языком
Коммунальные услуги
- Проект для бесплатных электронных словарей - это проект для среднеквадрата Java для мобильных телефонов - для языковых словарей коренных народов.
- Webonary Sate, на котором размещаются цифровые словаря для отдельных языков.
- Wesay - позволяет языковым сообществам строить свои собственные словаря. https://software.sil.org/wesay/ (от SIL International).
Программное обеспечение
- 4lang - концептуальный словарь с использованием машин Эйленберга.
- Акцентировать.us aka "charlifter". Статистическое одноизодирование простого текста для многих языков
- Выравнивание с Openfst-это реализация структуры AutoEcoder CRF для четырех задач: выравнивание слов Bitext, тегирование части речи, переключение кода, анализ зависимости.
- Apertium Apertium-это набор инструментов для создания систем трансляции с мелководным перевозом с открытым исходным кодом, особенно подходящего для связанных языковых пар: он включает в себя двигатель, инструменты обслуживания и открытые лингвистические данные для нескольких языковых пар.
- ARK-TWEET-NLP-CMU ARK TWITTER Часть речи ( FOK ).
- Artofreading - Индекс и обработка сценариев, связанных с коллекцией искусства чтения иллюстраций.
- Bayesline - многономическая байесовская классификация для идентификации языка.
- Библейские-корпусные инструменты-коллекция инструментов для чтения/обработки многоязычного библейского корпуса.
- Bloomdesktop - Bloom Desktop - это гибридное приложение C#/JavaScript/HTML/CSS Windows, которое значительно «снижает планку» для языковых сообществ, которые хотят книги на своих языках. Bloom обеспечивает систему с высоким выходом с низким уровнем обучения, в которой спикеры из родного языка и их адвокаты работают вместе, чтобы способствовать как общинную авторство, так и доступ к внешней материи… https://bloomlibrary.org/.
- Bloomlibrary - Bloom Library приложение, используя Angularjs & Bootstrap, Parse.com Backend. https://bloomlibrary.org/.
- мозг - нейронные сети в JavaScript.
- Бристоль Uni MT Morphology Tools - Это репо является зеркалом сценариев, ранее доступных на http://www.cs.bris.ac.uk/research/machinelearning/morphology/resources.jsp. Включено: UKWABELANA - морфологический зюл -корпус с открытым исходным кодом и Эмма: новая метрика оценки для морфологического анализа.
- Браун -кластер - C ++ Реализация алгоритма кластеризации коричневых слов.
- Casualcon CasualConc - это программа согласования, которая изначально работает на Mac OS X 10.5 Leopard или позже. Первоначально он был разработан для повседневного использования (предварительный анализ или не исследование), хотя [Содействующий] использовал его для его собственных исследований (а также могут иметь другие). Он может генерировать строки согласия KWIC, кластеры слов, анализ коллокаций и количество слов.
- CDEC - декодер, выравнивание и оптимизатор модели для статистического машинного перевода и других структурированных моделей прогнозирования, основанных на (в основном) свободных контекстных формализмах.
- Charlint Charlint - это инструмент нормализации/проверки персонажа, написанный в Perl. Среди прочего, он реализует форму нормализации C Unicode TR 15, в качестве тестовой платформы для ранней равномерной нормализации в модели символов W3C.
- Припев - система управления версиями, предназначенная для обеспечения рабочих процессов, подходящих для типичных групп по разработке языка, которые географически распределены.
- CLAM-медиатор приложения вычислительной лингвистики-быстро превратите приложения NLP в Restful Webservices с фронт-концом веб-применения. Вы предоставляете спецификацию приложения вашей командной строки, ее входной, вывод и параметров, а также моллюсков вокруг вашего приложения сформируют полностью сбежный веб -сервис RESTFUL.
- CMU SPHINX Cmusphinx-это непрерывное распознавание речи, независимое от спикера. Это также набор инструментов и ресурсов с открытым исходным кодом, который позволяет исследователям и разработчикам создавать системы распознавания речи.
- CnminlangWebCollect - Китайское сайт -сайт. Обнаружение языков и коллекции веб -сайтов.
- COG - COG - это инструмент для сравнения языков с использованием лексикостатистики и методов сравнительной лингвистики. Его можно использовать для автоматизации большей части процесса сравнения списков слов из разных языковых сортов. http://sillsdev.github.io/cog/.
- Convertextract - преобразовать файлы Excel, Word и PowerPoint с текстом не Unicode (например, текст, требующий SIL -шрифтов) в Unicode, сохраняя при этом форматирование исходного файла.
- Corpustools - Фонологические Corpustools http://phonologicalcorpustools.github.io/corpustools/.
- CTK-Построенный вокруг ядра выравнивания предложений LDC Champollion, набор инструментов Champollion (CTK) направлен на предоставление готовых к использованию инструментов выравнивания параллельных текстовых предложений для как можно большего количества языковых пар. (Оригинальный проект находится на SourceForge: http://champollion.sourceforge.net).
- DataTags - Система для оценки чувствительности и риска конфиденциальности набора данных, и назначить тег, чтобы описать, как набор данных должен быть передан, сохранен и доступ. ( Вилка ).
- Dataverse - структура репозитория данных для обмена и публикации данных исследований.
- Diate - Dative: Программное обеспечение для лингвистических полевых работ http://www.dative.ca.
- DAITION - одностраничное приложение, которое взаимодействует с несколькими лингвистическими базами данных веб -служб. Веб -сайт.
- Deeplearntoolbox - Matlab/Octave Toolbox для глубокого обучения. Включает в себя глубокие сетки веры, сложенные автоэнкодории, сверточные нейронные сети, сверточные автоэкодовые и ванильные нейронные сети. У каждого метода есть примеры, чтобы вы начали.
- Desmeme - база данных и инструменты для изучения лингвистических шаблонов.
- DICTDB - Словажная база данных для языкового перевода.
- DiscourseGraphs - инструмент на основе Python для преобразования и объединения многослойных аннотированных лингвистических данных.
- Divvun-Gramcheck-эта программа выполняет поиск в формах, указанных как чтения формата грамматики ограничения, и рассматривает ошибки в файле XML с читаемыми человеком сообщением. Он предназначен для использования в качестве поздней стадии конвейера по шарике грамматики.
- Divvun -Keyboard - Клавианые приложения для iOS и Android с макетами клавиатуры для коренных и меньшинств.
- Divvunspell -
hfst-ospell (ниже) Переписывается в ржавчине для надежного параллелизма и управления памятью. Практическое использование примерно в 10 раз быстрее, чем hfst-ospell . Он использует те же файлы ZHFST, что и hfst-ospell , которые доступны для всех языков в org Giellalt Github (см. Ниже). - DLTK - Deutsch Language Tool Kit. Более.
- Epitran - Grapheme to Phoneme Conversion (G2P) для многих языков с низким разрешением.
- Старейшина: Испыщенные языковые данные Электронный репозиторий-Расширение исчезающих языковых данных Электронное репозиторий: веб-онтологически соответствующий инструмент каталогизации лингвистических данных.
- Enchant - Enchant Spellchecking Library https://abiword.github.io/enchant/.
- exsite9 - exsite9 - это настольное приложение, которое было создано для легкого облегчения исследователей и быстро пометить свои файлы данных с описательными метадатами и впоследствии упаковывать свои файлы данных и связанные метаданные, готовые к представлению в хранилище. Exsite9 также позволяет создавать структурную организацию указанных файлов в рамках фактического перемещения своего физического местоположения в вашем локальном хранилище файлов; Позволяя правильно организовать ваши файлы и метаданные, готовые к упаковке.
- FAST_ALIGN - простой, быстрый неконтролируемый словом выравнивателем.
- FASTTEXT - Библиотека для быстрого представления текста и классификации.
- FieldWorks - FieldWorks - это набор программных инструментов для языковых и культурных данных, при поддержке сложных сценариев. https://software.sil.org/fieldworks/ Fieldworks Language Explorer (или Flex, для краткости) предназначено для того, чтобы помочь лингвистам полевых лингвистов выполнять множество общих языковых документов и анализа задач. Это может помочь вам: выявить и записывать лексическую информацию, создавать словаря, интерлинеризировать тексты, анализировать функции дискурса, морфологию исследования.
- Франк - обнаружение естественного языка https://wooorm.com/franc/.
- FWDOCUMENTIATION - документация разработчика для FieldWorks (программные инструменты для языковых и культурных данных, с поддержкой сложных сценариев).
- Fwlocalizations - Локализация для Fieldworks.
- FwsupportTools - Дополнительные инструменты для разработки FieldWorks.
- GAIA - GAIA - это пользовательский интерфейс телефона на базе HTML5 для проекта Boot 2 Gecko. ПРИМЕЧАНИЕ. Для получения подробной информации о том, какие ветви используются для того, что выпускает, см. Вики. Если вы заинтересованы в настройке клавиатуры на новом языке, посмотрите это.
- giellakbd-android-вилка латинского языка (Google для Android), нацеленная на маргинальные языки, которые также заслуживают первого класса в мобильных операционных системах. Используется KBDGEN (см. В другом месте на этой странице).
- Giellakbd -IOIS - переосмысление открытого исходного кода нативной клавиатуры iOS Apple с особым акцентом на поддержку локализованных клавиатур. Используется KBDGEN (см. В другом месте на этой странице).
- Giza-PP-Giza ++-это инструментарий статистического машинного перевода, который используется для обучения моделей IBM 1-5 и модели выравнивания слов HMM. Этот пакет также содержит источник инструмента MKCLS, который генерирует классы слов, необходимые для обучения некоторых моделей выравнивания.
- GV -Clawl - Global Voices Bitext Crawler за создание параллельных корпораций.
- GLOTLID - Идентификация языка быстрого текста с поддержкой более чем 2000 ярлыков.
- Данные Glottolog - Glottolog предоставляет полную справочную информацию для языков мира.
- Gramadóir - Проверка грамматики, предназначенное для быстрого развития грамматических шашек для языков меньшинств и других языков с ограниченными вычислительными ресурсами.
- Grind - плагин Indesign 5.5, разработанный Smart Smart Smart -шрифт, используется в Allize Smart Indesign. Этот проект интегрирует технологию SIL Graphite 2 Smart Font с нашей собственной реализацией плагина композитора абзаца.
- Hermitcrab-Hermitcrab.net-это гибкий морфологический/фонологический анализатор, который использует подход.
- HFST -OSPELL - Library и инструмент командной строки HFST.
- HFST-OSPELL-JS-Привязки узла для HFST-OSPELL.
- HFST-оптимизированный взгляд-HFST Оптимизированная автономная библиотека и инструмент командной строки HFST.
- Hundict - двуязычный словарь из параллельных корпораций.
- Hunspell - Проверка орфографии и библиотека морфологического анализатора и программа, разработанная для языков с богатой морфологией и сложным составлением слов или кодированием персонажа.
- Huntag - последовательный теги для NLP с использованием максимального энтропийного обучения и скрытых моделей Маркова.
- ICU -DOTNET - C# Обертка для ICU4C.
- ICU4C - Зеркало проекта SVN по адресу http://source.icu-project.org/repos/icu/icu/. В филиале Fieldworks есть некоторые конкретные улучшения Fieldworks.
- Ilanguage - полузащитный, независимый от языка морфологический анализатор, полезный для неизвестного текста языка или получения приблизительной оценки возможных синтаксий для морфем одним словом. Ввод: корпус. Использует сжатие, максимальную энтропию и полевую плату.
- IPA -HELP - IPA помогает.
- Itweets -Geodata - Geodata из коренных твитов.
- jquery.ime - библиотека методов ввода на основе JQUERY.
- KBDGEN - генерируйте клавиатуры и макет клавиатуры для различных операционных систем.
- Koreksyon-Инструменты для разработки и реализации возможностей проверки орфографии и проверки грамматики на языках с низким разрешением.
- L20N.JS - L20N Revents Software Localization. Пользователи должны иметь возможность извлечь выгоду из всей выразительной силы естественных языков. L20N делает простые вещи простыми и в то же время делает возможными сложные вещи. Это реализация JavaScript L20N. http://l20n.org.
- langid.py - отдельная система идентификации языка.
- Langtech Оставление ресурсов, предоставленных в SVN Университетом Тромсё. Детали здесь и на английском языке здесь.
- LEGO Unified Compeicticon - Материал, относящийся к Unified Concepticon LEGO.
- LEX4ALL - Лексики произношения для любого языка с низким содержанием ресурсов http://lex4all.github.io/lex4all/.
- LEXDB - LEXDB - это база данных Lexical Conalate Branging. Он хранит полное происхождение всех лексиков и родственных суждений и допускает экспорт в ряд диалектов Nexus. База данных записана в гибкой веб -структуре Python/Django.
- Lfmerge - отправить/получить для languageforge.org.
- Liblevenshtein - библиотека для создания конечных преобразователей состояния на основе Automata Levenshtein.
- Libpalaso - Библиотека Palaso: набор библиотек .NET, полезный для разработчиков языкового программного обеспечения.
- Грамматическая матрица Lingo Матрица грамматики Lingo-это структура для разработки широкого покрытия, точность, внедренные грамматики для разнообразных языков.
- Lingpy - Lingpy: библиотека Python для количественных задач в исторической лингвистике http://lingpy.org.
- Linguistica linguistica-это программа, предназначенная для изучения неконтролируемого изучения естественного языка, с основным акцентом на морфологию (структура слов). Он работает под Windows, Mac OS X и Linux и записывается в C ++ в рамках разработки QT. Его требования к памяти зависят от размера проанализированного корпуса.
- Long -Press - плагин jQuery, чтобы облегчить написание акцентов или редких персонажей. http://toki-woki.net/lab/long-press/.
- с низким ресурсом-посотом-топированием 2014 года с низким ресурсом Posging: 2014
- LRL - для работы, касающиеся низких языков ресурсов.
- Macvoikko - Сервер орфографии OS X на основе Voikko.
- Машина - Машина - это библиотека обработки естественного языка для .NET, которая ориентирована на предоставление инструментов для обработки языков с плохими ресурсами (используемых Flex).
- MAKE -EXTENSION - Сценарии для генерации расширений заклинаний Hunspell.
- Mgiza - инструмент выравнивания слов, основанный на знаменитой Giza ++, расширенном для поддержки многопоточного, резюме обучения и постепенного обучения.
- Меньшинство Translate Minority Translate - это простая программа, помогающая генерировать контент на википедиях меньшего размера (фактически любого размера), давая указатели на существующие статьи в других языковых википедиях, чтобы пользователь мог легко переводить или адаптировать существующие тексты и, таким образом, увеличить размер и использование их википедийных изданий.
- Morfessor - Morfessor - это инструмент для неконтролируемой и полупрофильной морфологической сегментации.
- Морфолм - морфологические языковые модели.
- Morph -test - сценарий Python для проведения тестов для генерации и анализа морфологического преобразователя, созданного с использованием инфраструктуры Giella. Работает с HFST, FST -инструментами Xerox и с FOMA.
- Mosesdecoder - Моисей, система трансляции машин.
- MOZ-L10N-Tiers-создает псевдо-локальный для оценки приоритетов строк для L10N.
- Mukurtucms - Система управления контентом Mukurtu (CMS) - это платформа на основе Интернета, предназначенная для архивирования цифровых культурных ресурсов
- Миф - Mythes - это простой тезаурус, который использует структурированный файл текстовых данных и файл индекса с двоичным поиском для поиска слов и фраз и возврата информации о части речи, значений и синонимов.
- MyWorksafe - Smart & Simple Backup для работников по развитию языка. http://software.sil.org/myworksafe/.
- NABU - NABU - это система управления цифровыми носителями, которая предоставляет каталог аудио и видео, метаданные для этих элементов, а также информацию о статусе рабочего процесса элементов. www.paradisec.org.au
- Естественный - JavaScript Общий естественный язык для узла.
- NIST 2008 Open Machine Evalutation
- NLTK - набор инструментов для естественного языка Python . NLTK Source http://www.nltk.org/.
- Node -Panlex - Node.js Client для Panlex.
- Норма - инструмент для автоматической нормализации орфографии.
- nplm - вилка https://nlg.isi.edu/software/nplm/ с некоторыми изменениями эффективности и адаптацией для использования в Mosesdecoder.
- Octothorpe - вики с кучедом.
- ODTXSLT - выполните преобразование XSLT на содержимое пакета (например, ODT, DOCX и т. Д.).
- Old-Webapp-онлайн-лингвистическая база данных --- Программное обеспечение для создания веб-приложений для совместных документов.
- Старая - онлайн -лингвистическая база данных (старая): программное обеспечение для лингвистических полевых работ. http://www.onlinelingingisticdatabase.org.
- Старая пирамида - онлайн -лингвистическая база данных мигрировала в пирамидную структуру.
- Omegat-Hfst-Tokenizer-Omegat-Hfst-Tokenizer обеспечивает токенизацию на основе FST в Омегате.
- OpenDatakit Open Data Kit (ODK)-это набор инструментов с открытым исходным кодом, который помогает организациям автора, поля и управление решениями по сбору данных
- OpenNLP - Библиотека Apache OpenNLP - это инструментарий на основе машинного обучения для обработки текста естественного языка. Веб -сайт.
- Ops -Devbox - Ansible Playbook для (Linux) Developer Machine.
- Panlex -Tools - Этот пакет содержит сценарии для преобразования лексических ресурсов в формат, подходящего для импорта в панлекс. Документация может быть найдена на https://dev.panlex.org.
- PDSC-Collection-Viewer-браузер с коллекцией Paradisec
- Paradigm - Paradigm - это реализация .NET (C#) работы Джозефа Э. Граймса 1983 года под названием «Положения аффиксов и кусочков: программа Paradigm».
- Путь - подготовка языковых данных для публикации.
- Pdfdroplet - Библиотека и графический интерфейс для навязывания PDF -страниц (например, 2 -UP) http://software.sil.org/pdfdroplet/.
- Pepper - Pepper - это плачечная структура преобразователя с открытым исходным кодом для лингвистических данных.
- Ассистент фонологии - ассистент фонологии является инструментом открытия. Предоставляется с корпусом фонетических данных, он автоматически намещает звуки и благодаря своим поисковым возможностям, помогает пользователю обнаружить и проверить правила звука на языке.
- Pressagio - Pressagio - это библиотека, которая предсказывает текст на основе моделей N -грамма. Например, вы можете отправить строку, и библиотека вернет наиболее вероятные завершения слов для последнего токена в строке.
- PrimerPro - Цель PrimerPro состоит в том, чтобы помочь работнику грамотности в разработке праймеров для данного языка.
- Pydelphin - библиотеки Python для Delph -In (Friendly Fork).
- RBGPARSER - Диаграмм зависимостей на основе графиков.
- Rosetta Pangloss - система Pangloss Project Rosetta.
- SALM - SALM: суффикс массив и его приложения в эмпирической обработке языка от радости.
- Соль - модель на основе графика для хранения и манипулирования лингвистическими данными.
- SAYMORE - инструмент для выполнения задач с общими языковыми документациями, такими как сохранение всех полученных файлов и организованных метаданных, преобразования файлов в архивирующие форматы и транскрипцию.
- Secwepemc -Facebook - перевести Facebook на неподдерживаемые языки.
- SEGPARSER - Рандомизированный жадный алгоритм для совместной сегментации, метки POS и анализа зависимостей.
- SEDENCE - Строительство и использование семенного корпуса для проекта человеческого языка.
- Skype на вашем языке - перевести Skype на неподдерживаемые языки.
- Solid - Solid - это программный инструмент, который можно использовать для проверки, очистки и преобразования данных стандартного формата (например, инструментария).
- Инструменты преобразования сферы Многие корпорации LDC содержат речевые файлы в формате Nist Sphere. Программы ниже конвертируют файлы сфер в другие форматы.
- StandardFormatlib - Стандартная библиотека формата.
- Стэнфорд Corenlp - Стэнфорд Corenlp: Java Suite of Core NLP Tools. https://stanfordnlp.github.io/corenlp/.
- Stanford Corenlp Python - обертка Python для инструментов Stanford Corenlp.
- Stanza - Стэнфордская NLP Group, общие инструменты Python.
- STR2IPA-Словары произношения для языков с системами близких к фонетическим письмам.
- Sugali - Это устаревший хранилище проекта идентификации языка для многих (многих) языков проекта для курса проекта программного обеспечения, проектов NLP для языков с низким разрешением.
- Сахарная - идентификация языка для низких языков ресурсов (Сюзанна, Гай и Лилинг).
- Сложность - интерфейс Python для универсальных алгоритмов слоговой слоги
- Tasty-Imation-Keyboard-пользовательская клавиатура для iOS8+, которая служит вкусной имитацией клавиатуры Apple по умолчанию. Создан с помощью Swift и новейших Apple Technologies!.
- Teckit - инструментарий для преобразования текста.
- Teny - Инструменты для машинного перевода с низким ресурсом.
- Teradict - перевести английские слова на сотни языков!.
- Tesseract.js - Pure JavaScript OCR для 62 языков ?? http://tesseract.projectnaptha.com/.
- TEXNLP - TEXNLP: Техасские инструменты обработки естественного языка.
- Timbl Timbl-это программный пакет с открытым исходным кодом, реализующий несколько алгоритмов обучения на основе памяти, среди которых IB1-IG, реализация классификации K-ближайшей соседей с весом функций, подходящей для символических пространств функций, и IGTREE, приближения к дереву решения IB1-IG. Все реализованные алгоритмы имеют общее, что они хранят некоторое представление учебного набора явно в памяти. Во время тестирования новые случаи классифицируются по экстраполяции из наиболее похожих хранимых случаев.
- Тони - программное обеспечение классификации тона.
- Инструментарий Field Linguist - Toolbox - это инструмент для управления данными и анализ для полевых лингвистов. Это особенно полезно для поддержания лексических данных, а также для анализа и интернелизующего текста, но его можно использовать для управления практически любыми видами данных.
- Скрипты инструментов для Elan - зеркало сценариев инструментов Александра Кенига https://tla.mpi.nl/tools/tla-tools/elan/thirdparty/.
- Toolsforfieldlinguistics - коллекция сценариев и рецептов для лингвистики.
- Транскрибер - инструмент транскрипции HTML5 для Aikuma
- Transitit -двигатель - двигатель транслитерации, написанный в JavaScript.
- Данные Tsammalex - Tsammalex - это многоязычная лексическая база данных для растений и животных.
- Tweet2learn - приложение, чтобы облегчить использование родного языка в Twitter.
- Twitter_langid - иерархическая нейронная сеть с нормом характера для идентификации языка.
- Документы Universaldendences - универсальные зависимости онлайн документация http://universaldependencies.org/docs/.
- Инструменты Universaldependences - Различные утилиты для обработки данных.
- Vocbench Vocbench-это веб-инструмент, многоязычный, редактирование и инструмент для рабочего процесса, который управляет тезаури, списками авторитетов и глоссариями с использованием SKOS-XL.
- wavesurfer.js - Навигативная форма волны, созданная на веб -аудио и холсте https://wavesurfer-js.org/ (также имеет плагин Elan).
- Web-Template-Это веб-шаблон, который может использоваться для представления ресурсов обучения языку, чтобы помочь усилиям по оживлению языка. Он включает в себя говорящий словарь и фразикон, содержащий предложения и фразы.
- WebCorpus - Этот проект представляет собой набор сценариев и программ для создания веб -корпуса из ползанных данных.
- Wikt2dict - инструмент анализатора Wiktionary для многих языковых изданий.
- Wikipron - Поиск произношения IPA для записей Wiktionary
- Word Generator Worderator генерирует гипотетические слова из спецификаций их слоговой структуры.
- Wordboundary - эксперимент в обнаружении и сегментации границ слов.
- Wordbyword-Wordbyword-это бесплатный, простой в использовании мультимедийный словарный тренер, разработанный Верой Феррейрой, Питером Бууда и Рикардо Филипе в Сидлсе при поддержке основания для исчезающих языков.
- WSI4URLANG - Индукция чувства слов (WSI) для языков с недостаточным ресурсом (Urlang).
- XDXF_MAKEDICT - Формат словаря XDXF и словарь «MADECTICT» преобразование программного обеспечения (Официальный репозиторий).
Помощники конфигурации макета клавиатуры
- jQuery.ime - редактор методов ввода jQuery, используемый в Википедии
- KBDGEN - Создайте клавиатуры и макет клавиатуры для Windows, MacOS, X11, iOS, Android и Chrome, из одного, простого файла YAML. Также регистрирует языки, неизвестные Windows, так что после установки существует правильная и надежная связь между назначенным кодом BCP 47 (включая полную поддержку ISO 639-3) и установленными языковыми инструментами, такими как клавиатуры, шашки по орфографии и другие инструменты.
- Клавиатура - Виртуальная клавиатура с использованием jQuery ~ https://mottie.github.io/keyboard/.
- Клавиатуры - клавиатуры с открытым исходным кодом.
- Keyman - Методы ввода поперечного платформы Keyman. Keyman позволяет вам ввести более 1000 языков на Windows, iPhone, iPad, планшетах и телефонах Android, и даже мгновенно в вашем веб -браузере. Веб -сайт.
- KeyboardLayouteditor - Редактор макетов клавиатуры https://code.google.com/archive/p/keyboardlayouteditor/.
- Редактор макета клавиатуры-Редактор макетов клавиатуры http://www.keyboard-layout-editor.com
- Lipika-Itme-Method Method Method Engine (IME) для Mac OS X со встроенной поддержкой для всех индийских языков.
- XkeyboardConfig - база данных конфигурации клавиатуры, не являющейся Aarch для окна X. Цель состоит в том, чтобы предоставить последовательные, хорошо структурированные, часто выпущенные открытые исходные данные конфигурации x для реализации системы x Windows (бесплатный, открытый исходный код и коммерческий). Проект предназначен для систем на основе XKB.
Аннотация
- AGTK - AGTK - это набор программных компонентов для создания инструментов для аннотирования лингвистических сигналов, данных временных рядов, которые документируют любой вид лингвистического поведения (например, аудио, видео). Внутренние структуры данных основаны на графиках аннотаций. (Оригинальный проект находится на SourceForge: https://sourceforge.net/projects/agtk/).
- Брендано - Язык фрагмента графика для легкой синтаксической аннотации https://www.cs.cmu.edu/~ark/fudg/.
- Элан Элан - профессиональный инструмент для создания сложных аннотаций на видео и аудио -ресурсах.
- EOOPAS - Этнерская онлайн -презентация и система аннотации.
- Flat - Folia Linguistic Annotation Tool - Flat - это веб -лингвистическая аннотационная среда, основанная на формате Folia (http://proycon.github.io/flia/), богатый формат на основе XML для лингвистического аннотации. Flat позволяет пользователям просматривать аннотированные документы Folia и обогащать эти документы новыми аннотациями, широкий спектр лингвистических типов аннотаций поддерживается через парадигму Folia. Это инструмент, ориентированный на документ, который полностью сохраняет и визуализирует структуру документов.
- GFL_SYNTAX - Язык фрагмента графика для легкой синтаксической аннотации https://www.cs.cmu.edu/~ark/fudg/.
- Graf-Python-Библиотека Graf-Python-это Python Python Python Python для разбора и записи файлов GRAF/XML, как описано в ISO 24612. Ситуарбилятор библиотеки создает график аннотации из файлов. Пользователь может затем запросить график аннотации через API Graf-Python.
- Kwaras - Инструменты для управления Elan Corpus.
- LDC Word Aligner LDC Word Aligner-это программный инструмент, используемый для ручной аннотации выравнивания слов, разработанных для поддержки арабских и китайско-английских задач выравнивания слов. Он имеет чистый, простой в использовании интерфейс. С момента своей разработки в 2009 году LDC использовал Aligner Word LDC для генерации более 1 000 000 токенов аннотированных данных выравнивания слов из различных жанров, включая источники вещания, новшвей и веб-сайт. Веб -сайт.
- Poio -Analyzer - Poio - это набор программных инструментов для лингвистов, работающих в языковой документации, описательной лингвистике и/или языковой типологии. Это позволяет лингвистам управлять и анализировать свои данные. The Poio Interlinear Editor allows to add morpho-syntactic annotations to transcriptions. It supports various file formats for input, but will only output standardized XML defined by the Corpus Encoding Standard and the Text Encoding Initiative. Several tools for analyzing linguistic data will be made available to further process annotated data. Poio tools are written in Python and are based on PyQt.
- poio-api - Poio API is a free and open source Python library to access and search data from language documentation in your linguistic analysis workflow. It converts file formats like Elan's EAF, Toolbox files, Typecraft XML and others into annotation graphs as defined in ISO 24612. Those graphs, for which we use an implementation called “Graph Annotation F…
- pyannotation - PyAnnotation is a Python Library to access and manipulate linguistically annotated corpus files.
- XTrans Trans is a next generation multi-platform, multilingual, multi-channel transcription tool that supports manual transcription and annotation of audio recordings. The XTrans toolkit provides new and efficient solutions to common transcription challenges and addresses critical gaps in existing tools.Designed with input from experienced human transcribers working with real world data, XTrans provides a flexible and intuitive graphical user interface for a multitude of speech annotation tasks including (virtual) segmentation of audio into smaller units like turns and sentences; speaker identification; orthographic transcription in any language; and labeling of structural elements of the transcript like topics.
Format Specifications
- spec - The official specification for the DLx linguistic data format. https://digitallinguistics.github.io/spec/.
- FoLiA FoLiA: Format for Linguistic Annotation - FoLiA is a rich XML-based annotation format for the representation of language resources (including corpora) with linguistic annotations. A wide variety of linguistic annotations are support, making FoLiA a useful format for NLP tasks and data interchange. http://proycon.github.io/folia/
- xdxf_makedict - XDXF dictionary format and "makedict" dictionary converting software (official repository).
i18n-related Repositories
- Express-Lingua - An i18n middleware for the Express.js framework.
- Polyglot.js Give your JavaScript the ability to speak many languages.
- Transifex - System for providing a nice, userfriendly/project oriented approach to translating
.po files. Great for non-technical users, free for open-source projects, decent for minority languages; however , it can take a while to get a new language added to the Transifex system because the ticketing system Transifex uses results in them losing tickets sometimes. Provides translation memory, ability to appoint reviewers, etc. Transifex used to have an open source system that you could host on your own, but that seems to have disappeared.
Audio automation
- arctic-prompts - Generate prompts PDF for CMU ARCTIC dataset.
- AudioWebService - a simple nodejs server which accepts upload of audio and runs it through praat.
- AuToBI - Automatic prosodic annotation tool written in Java.
- BashScriptsForPhonetics - ( Fork of a dormant project).
- esv-text-audio-aligner - ESV Text/Audio Aligner to programmatically obtain the timings for each word in the corresponding audio.
- html5-audio-read-along - HTML5 Audio Read-Along.
- ipa-chart - International Phonetic Alphabet (IPA) Unicode Chart and Character Picker.
- kaldi-svn-archive - An read-only archive of the original Kaldi SVN repository (mainly to keep sandboxes available).
- lex4all - pronunciation LEXicons for Any Low-resource Language ( Fork of a student project).
- Montreal-Forced-Aligner - Python interface for forced text/speech alignment.
- node-pocketsphinx
- opensauce - GNU Octave-compatible version of VoiceSauce.
- pocketsphinx - PocketSphinx is a lightweight speech recognition engine, specifically tuned for handheld and mobile devices, though it works equally well on the desktop.
- pocketsphinx-ios-demo - Simple demo for iOS.
- pocketsphinx-python - Python module installed with setup.py.
- pocketsphinx-ruby - Ruby speech recognition with Pocketsphinx.
- pocketsphinx-wp-demo - Demo to run pocketsphinx on WP8 platform.
- pocketsphinx.js - Speech recognition in JavaScript.
- praat-py - From my PhD days: Praat-Py is a custom build of Praat, the computer program used by linguists for doing phonetic analysis on sound files, to allow for scripts to be written in the Python programming language, rather than in Praat's built-in language. ( Fork of a dormant project).
- Praat-Scripts - Mietta's Scripts.
- PraatTextGridJS - A small library which can parse TextGrid into json and json into TextGrid.
- PraatontheWeb - Web implementation of Praat. Source code, running demo scripts on web, samples and documentation.
- prosodicParsing - different kinds of HMMs to use for incorporating prosody into basic parsing.
- Prosodylab-Aligner - Python interface for forced audio alignment using HTK and SoX.
- prosodylab.alignertools
- Recordmp3js - Record MP3 files directly from the browser using JS and HTML.
- sphinx4 - Pure Java speech recognition library.
- sphinxbase
- sphinxtrain
- TLSphinx - Swift wrapper around Pocketsphinx.
Text-to-Speech (TTS)
- espeak - eSpeak is a compact open source software speech synthesizer for English and other languages, for Linux and Windows. http://espeak.sourceforge.net.
- MARY TTS - MARY TTS -- an open-source, multilingual text-to-speech synthesis system written in pure java http://mary.dfki.de.
- Ossian - Ossian is a collection of Python code for building text-to-speech (TTS) systems, with an emphasis on easing research into building TTS systems with minimal expert supervision.
Automatic Speech Recognition (ASR)
- Elpis - Elpis is software for creating speech recognition models and applying them to the transcription of audio. As of 2022, it gives access to Kaldi and Huggingface Transformers.
- kaldi - This is now the official location of the Kaldi project.
- Persephone - Persephone aims to make state-of-the-art phonemic transcription accessible to people involved in language documentation, who have a training corpus of about one to four hours of transcribed speech. As of 2022, Persephone is superseded by Elpis.
Text automation
- clld - Cross Linguistic Linked Data python library.
- LaTeX2HTML5 - LaTeX web components.
- MultilingualCorporaExtractor - Node io Spider for extracting multilingual corpora ( Fork of a student project).
- SeedLing - Building and Using A Seed Corpus for the Human Language Project ( Fork of a student project).
Experimentation
- experigen - A framework for creating linguistic experiments.
- GamifyPsycholinguisticsExperiments - A simple node server to gamify linguistics experiments, runs offline on a laptop for small scale experiements and online on a server for large scale experiments. Data is sent to a Google spreadsheet. ( Fork of a dormant project).
- OpenSesame - Graphical experiment builder for the social sciences.
- OPrime - Open Source Experimentation Libraries - Online and Offline for Android and HTML5.
- psychopyMegProsody - Runs MegProsody using PsychoPy.
- PsychScript - A HTML5/Javascript library for running behavioural experiments online.
Карточки
- Anki - Anki is a program to make and share flaschard decks (including audio) for any language or writing system. https://apps.ankiweb.net/.
- awesome-anki - A curated list of awesome Anki add-ons, decks and resources.
- VocabLift - Language-learning tool that uses vocabulary from LIFT-format dictionaries produced by programs such as Fieldworks Language Explorer and WeSay.
Natural language generation
- OpenCCG - OpenCCG library for parsing and realization with CCG. Includes mini-grammars for Inuit, Nezperce, Basque and others.
Computing systems
- Common Language Resources and Technology Infrastructure Norway / Clarino - One of their projects (not clearly listed here) is about providing an online system for language analysis, so users can connect resources visually, dump in text, and get a result. Kind of like the Yahoo! Pipes but for language processing. Uses the ABEL cluster.
Android Applications
- Aikuma - Android software for recording and translation.
- Android Speech Recognition Trainer - Speech recognition training app for low resource languages which interfaces with FieldDB corpora.
- android-template - This is a template of an Android word-learning app that may be used a way to introduce a language. It includes a quiz. For the documentation, go to http://eddersko.github.io/android-template/.
- AndroidFieldDB - An Android app which lets the user build a custom visual and auditory vocabulary, useful for guided anomia treatment and self designed language lessons by heritage speakers.
- AndroidFieldDBElicitationRecorder - A general purpose video recording tool.
- AndroidLanguageLessons - Lets heritage speakers create self designed language lessons.
- AndroidProductionExperiment - Android App to run perception experiments.
- Bevara - Android Phone Application designed for Linguistic Fieldwork to help preserve, maintain, and save endangered languages.
- ojoVoz - A mobile app for sending georeferenced image and voice recordings from an Adroid phone to an email address. For more information, please go to http://sautiyawakulima.net/ojovoz/.
- pocketsphinx-android - pocketsphinx build for Android.
- pocketsphinx-android-demo
Chrome Extensions
- babelfrog - Chrome extension to help learn languages as you browse.
- DictionaryChromeExtension - Dictionary for websites in low-resource languages. App and codebase which connects to a Wiktionary to provide definitions of any term on any website (current languages Cherokee 194,426 entries, Inuktitut 251 entries, Kartuli 7,363 entries, Plains Cree (incubation) 0 entries) use.
FieldDB
FieldDB is actively worked on by the FieldDB (Formally known as OpenSourceFieldlinguistics) group. These repos explicitly work with it but could be repurposed for other projects.
- FieldDB - An offline/online field database which adapts to its user's terminology and I-Language, has plugins for various data automation routines along the process of primary data collection to cleaning to publication and archival. использовать.
FieldDB Webservices/Components/Plugins
- AndroidLanguageLearningClientForFieldDB-sikuli - Sikuli tests for AndroidLanguageLearningClientForFieldDB.
- AuthenticationWebService - A node.js web service which mananges users and corpora creation and authentication.
- bower-fielddb-angular - A bower repository which hosts fielddb-angular components, bower install fielddb-angular --save.
- bower-fielddb - A bower repository which hosts fielddb core components, bower install fielddb --save.
- fielddb-spreadsheet-sikuli - sikuli tests for the spreadsheet module use.
- FieldDBActivityFeed - A fielddb activity feed widget which can be embedded in other codebases, websites etc use.
- FieldDBGlosser - A semi-unsupervised language independent morphological analyzer useful for stemming unknown language text, or getting a rough estimate of possible parses for morphemes in a word. bower install fielddb-glosser --save.
- FieldDBLexicon - A lexicon browser/editor web widget for FieldDB databases.
- LanguageClassDashboard - App which provides a view of FieldDB corpora for language teachers use.
- LexiconWebService - A node.js ElasticSearch wrapper for indexing/training lexicons from corpora.
- LexiconWebServiceSample - A node.js web server which implements the fieldlinguist's lexicon API for the FieldDB project.
Academic Research Paper-Specific Repositories
- Gargantua - Fast Unsupervised Sentence Aligner described in "Improved unsupervised sentence alignment for symmetrical and asymmetrical parallel corpora", COLING 2010.
- ldc-kiy - Materials for: The experimental state of mind in elicitation: illustrations from tonal fieldwork. Dubmitted to Language Documentation & Conservation, How to study a tone language .
- Learning to map into a Univerisal POS tagset Yuan Zhang, Roi Reichart, Regina Barzilay and Amir Globerson
- low-resource-pos-tagging-2014 and low-resource-pos-tagging-2014 Published in: Learning a Part-of-Speech Tagger from Two Hours of Annotation. Dan Garrette and Jason Baldridge . In Proceedings of NAACL 2013. And in: Real-World Semi-Supervised Learning of POS-Taggers for Low-Resource Languages. Dan Garrette, Jason Mielens, and Jason Baldridge . In Proceedings of ACL 2013.
- orthotree - Linguistic family tree based on orthographic distance.
- type-supervised-tagging-2012emnlp This repository contains the code, scripts, and instructions needed to reproduce the results in the paper: Type-Supervised Hidden Markov Models for Part-of-Speech Tagging with Incomplete Tag Dictionaries. Dan Garrette and Jason Baldridge . In Proceedings of EMNLP 2012. This code is frozen as of the version used to obtain the results in the paper. It will not be maintained. To see the updated code, visit nlp
- visualizing-language - For visualizations of WALS and other typological databases.
- WALS-APiCS - Code for working with WALS-APiCS (Atlas of Pidgin and Creole Language Structures) complexity metrics.
Example Repositories
These are repositories that are generally only interesting for training purposes or seeing how something is done.
- CorpusWebService - über-simple node.js-Proxy to enable CORS request for couchdb.
- CorporaForFieldLinguistics - Small corpora from diverse language typologies, useful for testing scripts.
- startR
- lucenerevolution-2013 - Demo examples for linguistics in Lucene and Solr.
- berlin-buzzwords-2013 - Demo examples for Lucene, Solr, ElasticSearch and OpenNLP from Berlin Buzzwords 2013 talk.
Fonts
- fontinline - Make inline stroke paths from an outline font.
- Noto Fonts - Noto is Google's free font family that aims to support all the world's scripts. Its design goal is to achieve visual harmonization across languages. Noto fonts are under Apache License 2.0.
- Unicodify Unicodify is a suite of programs for converting text in a variety of 8-bit encodings to Unicode (using the UTF-16 encoding). Unicodify was particularly designed to handle HTML-based text using non-ISCII 8-bit fonts to render South Asian scripts. However, elements of the suite can map other types of non-ASCII 8-bit encodings, such as Latin-2, ISCII and PASCII.
Corpora
These corpora are useful for working with tools on endangered languages. Monolingual corpora that are more for archival efforts should most likely not be included here.
- bible-corpus - A multilingual parallel corpus created from translations of the Bible.
- poio-corpus - The Poio Corpus is a freely available collection of language resources for the lesser-used languages. The data is extracted from free sources like Wikipedia, dictionaries, documents, websites and others.
Организации
On GitHub
- batumi - Speech recognition and natural language processing for low-resource languages
- BloomBooks
- unicode-cldr - Unicode Common Locale Data Repository (CLDR) Project http://cldr.unicode.org
- cmusphinx - Mirror of the SourceForge repositories
- dativebase - Tools for working with OLD.
- divvun - The Divvun group at UiT develops proofing tools, keyboard apps and other language technology solutions for indigenous and minority languages, especially the Sámi languages. Website.
- FieldDB
- GiellaLT - home for keyboard layouts, lexicons and morphologies for indigenous and minority languages, especially for morphologically complex languages, using mainly rule-based techonlogies. The resources are used by Divvun (above) and Giellatekno (below) to build a number of tools for the language communities. Almost everything is open source.
- HFST - Helsinki Finite-State Technology. Website.
- hunspell
- keymanapp - Website.
- langtech - Language Technology Group, University of Melbourne
- lex4all
- longnow
- MontrealCorpusTools
- moses-smt - Statistical Machine Translation.
- mukurtucms
- NLTK - Natural Language Toolkit.
- PhonologicalCorpusTools)
- Projet de recherche sur l'écriture - Crowdsourcing or conducting large scale psycholinguistics experiments (or statistically significant field linguistics).
- prosodylab - Prosodylab at McGill University, Canada
- SIL International (Dev) SIL International- Another SIL organization, with many repositories.
- SIL International - SIL (originally known as the Summer Institute of Linguistics, Inc.) is probably the leading organization which provides software and tools tailored for use by field linguists and lexicographers working on endangered languages. A little known fact is that much of it's code is open sourced on GitHub and SIL is happy to recieve open source contributions and collaborate on open source projects.
- SIL NRSI - SIL Non-Roman Script Initiative. The NRSI is a department of SIL International, whose task is to provide assistance, research and development for SIL International and its partners to support the use of non-Roman and complex scripts in language development.
- StanfordNLP https://nlp.stanford.edu
- ucsd-field-lab - University of California, San Diego
- UniversalDependencies - Universal Dependencies (UD) is a project that is developing cross-linguistically consistent treebank annotation for many languages, with the goal of facilitating multilingual parser development, cross-lingual learning, and parsing research from a language typology perspective. The annotation scheme is based on an evolution of (universal) Stanford dependencies (de Marneffe et al., 2006, 2008, 2014), Google universal part-of-speech tags (Petrov et al., 2012), and the Interset interlingua for morphosyntactic tagsets (Zeman, 2008). The general philosophy is to provide a universal inventory of categories and guidelines to facilitate consistent annotation of similar constructions across languages, while allowing language-specific extensions when necessary.
- utcompling - The University of Texas at Austin's Computational Linguistics Lab. Website.
Other OSS Organizations
- Giellatekno - Giellatekno combines cutting-edge linguistic and computational research into the analysis of Saami and other morphologically-rich languages, with the development of practical applications. We focus on deep linguistic modeling and on highly efficient and robust computational analysis with a wide empirical coverage. They use svn for their code: all of it can be found here, sorted by language.
- LOWLANDS - LOWLANDS – Parsing low-resource languages and domains https://ccc.ku.dk/research/lowlands/
- LTRC: Language Technologies Research Center IIIT Hyderabad LTRC addresses the complex problem of understanding and processing natural languages in both speech and text mode. LTRC conducts research on both basic and applied aspects of language technology. It is the largest academic centre of speech and language technology in South Asia. LTRC carries out its work through four labs, which work in synergy with each other, as listed above.
- The Language Archive Part of the MPI
Учебные пособия
- How to Write a Spelling Corrector by Peter Norvig.
Language Specific Projects
For each language, we include the ISO 639-3 code, and the main autonym for that language.
африкаанс
afr :: Afrikaans
- Afrikaanse rekenaarlinguïstiek (Afrikaans computational linguistics) — wordlists, corpora, morphological analyser, tagger, word decompounder. Available upon email.
албанский
sqi :: shqip
- Apertium rules for Albanian - Machine Translation rules
- out-of-copyright-albanian-authors - authors scraped from the albanian language wikipedia who are out of copyright.
- Plis keyboard - The Plis keyboard is a keyboard or computer keyboard layout for the Albanian language.
- spell checking - Here you find a collection of Albanian words and information about them. Aspell, Ispell, and MySpell are included.
Alutiiq
ems :: sugpiaq
- wiinaq - Word Wiinaq is a Kodiak Alutiiq dictionary web application with automatically generated ending tables and souped-up search capabilities. It is written in Python using Django.
Амхарский
amh :: አማርኛ
- HornMorpho - Morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs
Баск
eus :: euskara
- Matxin - An open-source transfer machine translation engine. Linguistic information for the translation from Spanish and Basque (es-eu) is included.
Бенгальский
ben :: বাংলা
- Bangla-অঙ্কুর for Mac This project aims to develop a phonetic based Bangla typing system for Macintosh computer which can be developed into a transliteration technique in the future.
- Bengali Writer - `Bengali Writer' is a set of utilities for computerized editing and typesetting in Bengali, a language of India and Bangladesh. It comprises a set of fonts for Bengali in several formats (METAFONT, BDF, PS), a text editor with spell-cheking, export, and more. (Original project is on SourceForge: https://sourceforge.net/projects/bengaliwriter/).
- Ekushey Bangla Computing and Localization Project for the Bangla speaking people.
- Lekho - A collection of tools and resources for using bangla on computers (Original project is on SourceForge: https://sourceforge.net/projects/lekho/).
Чичева
nya :: chicheŵa
- Chichewa - NLP resources for Chichewa.
Галиц
glg :: galego
- an-metri-gal - Análise métrico de texto en verso en lingua galega (Galician language) gl-ES
- android_gl_dict - Android Galician (gl_ES) Keyboard Dictionary
- aspell-gl - Galician dictionary for aspell
- CitiusSentiment - Sentiment analysis (opinion mining) for Portuguese, English, Spanish, and Galician
- CitiusTagger - A PoS-Tagger and Named Entity Classification tool for Portuguese, English, Galician, and Spanish
- Conshuga - Galician verb conjugator
- corpora - This is a collection of corpus of Galician (or related to Galicia) words / Colección de corpus de palabras en galego (ou relacionadas con Galicia)
- DepPattern - Dependency Syntactic Parsing for Portuguese, Spanish, English, and Galician, including MetaRomance parser
- DOGA_scraper - Galician Official journal scraper
- elFinder-language - Galician - Gallego / language for elFinder
- EuroWordNetLemon - EuroWordNet lemon lexicons generated from the LMF versions of the Multilingual Central Repository (MCR) EuroWordNet lexicons. It includes lexicons for Spanish, Catalan, Basque & Galician.
- GalegoDroid - Galician Translator for Android
- galeXtra - Multiword Extractor for Portuguese, English, Spanish, Galician, French
- Galician-Dependency-Treebank - This Galician Dependency Treebank has been developed by transliterating and adapting lexically the Portuguese part (Bosque 7.3 by the Floresta sintá(c)tica project) of the CONLL-X 2006.
- Galician-Fuzzy-Text-watch - Based on Fuzzy Text International by Jesse Hallett, uses the galician language to display time.
- galician-locale-for-mac - Galician locale for Mac OS X
- gl-syllabler - Split galician language words into syllables
- gl- Galician OmegaT Localisation
- hunspell-gl-ciencias - Project oriented into developing a science and maths Galician language Hunspell dictionary
- hunspell-gl - Galician hunspell dictionaries
- hyphen-gl - Galician hyphenation rules
- javagalician-java6 - The Java Galician Locale is an implementation of Java localization SPIs which will allow the Java VM to use the Galician Language (locales "gl" and "gl_ES"), one of the official languages of Spain, which is not included in Sun's JVM distribution.
- Linguakit - Multilingual toolkit for NLP: dependency parser, PoS tagger, NERC, multiword extractor, sentiment analysis, etc.
- ParlamentoGalicia - Project based on the information extracted from the transcriptions of the sessions held in the Galician Parlament
- poss-gl - Galician translation of Producing Open Source Software, by Karl Fogel
- rima - Find rhyming words in galician language.
- stopwords-gl - Galician stopwords collection
- texlive-babel-galician - TeXLive babel-galician package
- UD_Galician-CTG - The Galician UD treebank is based on the automatic parsing of the Galician Technical Corpus created at the University of Vigo by the the TALG NLP research group.
- UD_Galician-TreeGal - The Galician-TreeGal is a treebank for Galician developed at LyS Group (Universidade da Coruña).
- UL_Galician-TreeGal - CoNLL-UL Repository for UD_Galician-TreeGal
Apertium
- apertium-cat-glg - Apertium translation pair for Catalan and Galician
- apertium-dict-en-gl - English-Galician language pair for Apertium
- apertium-dict-es-gl - Spanish-Galician language pair for Apertium
- apertium-dict-pt-gl - Portuguese-Galician language pair for Apertium
- apertium-en-gl - Apertium translation pair for English and Galician
- apertium-es-gl - Apertium translation pair for Spanish and Galician
- apertium-glg - Apertium linguistic data for Galician
- Apertium-pt-gl.pt-gl-LMF - This is the LMF version of the Apertium bilingual ditionary for Portugues and Galician languages
- apertium-pt-gl - Apertium translation pair for Portuguese and Galician
Грузинец
kat :: ქართული
- awesome-georgia - A curated list of awesome libraries and packages specific/related to Georgia (country).
- Gadatsqvetilebebi - გადაწყვეტილებები; Web spider and corpora importer for public legal decisions.
- GeoWordsDatabase - Around 310 000 unique Georgian words https://bumbeishvili.github.io/GeoWordsDatabase/.
- Kartuli Speech Recognition - ანდროიდის ქართველი მომხმარებლებისთვის სიტყვის ამოცნობის სისტემის შექმნა. Codebase to turn any webpage from any alphabet into another alphabet, the default is to turn latin letters into Kartuli. use "Do your friends keep commenting on Facebook with English keyboards (either because they forgot to switch, or because they didn't/can't install a Georgian keyboard)? Now you can read the web through კართული eyes.".
- KartuliChromeExtension - Chrome აპლიკაცია, რომელიც ყველა ინგლისურ ასო-ბგერას აჩვენებს ქართულ ასო-ბგერად.
- QartuliDaBunebismetkveleba - მათემატიკისა და ბუნებისმეტყველების ინტერაქტიული სახელმძღვანელო მე-2 - მე-3 კლასის მოსწავლეებისათვის.
- SakartvelosUzenaesiSasamartloSarke - საქართველოს უზენაესი სასამართლო სარკე.
- SamartlosSakonstitutsioSasamartdoSarke - სამართლოს საკონსტიტუციო სასამართდო სარკე.
- translitit-latin-to-mkhedruli-georgian - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- translitit-mkhedruli-georgian-to-ipa - A Latin to ქართული (Mkhedruli Georgian) transliteration function written in JavaScript.
- Declensions - Methods to generate declensions for Georgian language
Fonts
- Stichoza/font-larisome - Iconic font for Georgian currency inspired by Font-Awesome (CSS).
- Lotuashvili/BPGNateli - Bower package for BPG Nateli font (CSS).
- thecotne/georgian-webfonts - Package for georgian fonts (CSS).
Internationalization and Localization (i18n/l10n)
- Stichoza/money-num-to-string - Convert a number/money to localized string (PHP, JavaScript).
- natchkebiailia/NumberToWord - Convert numbers to localized strings (JavaScript).
- d0ragon/number-to-words-ka - Convert numbers to localized strings (PHP).
- dimakura/ka - Common functionality for georgian projects (Ruby).
- dimakura/ka.js - Georgian language support for node and browser (JavaScript).
- akalongman/kautilities - Convert Georgian letters to Latin and vice-versa (PHP).
- Landish/Laravel-Ka - Laravel Georgian Language Pack.
- Landish/RedactorJS-GE - Redactor WYSIWYG HTML Editor Georgian Language Pack (JavaScript).
- wenzhixin/bootstrap-table - Bootstrap table with extra features. l10n by @Lotuashvili and @Stichoza.
- moment/moment - A lightweight date library (JavaScript).
- ioseb/geokbd - Georgian keyboard library (JavaScript).
Гуарани
grn :: Guarani
- ParaMorfo - morphological analysis and generation of Spanish and Guarani verbs, nouns, and adjectives.
Хауса
hau :: هَرْشَن هَوْسَ
- Hausa - Repository for Hausa NLP tools.
хинди
hin :: हिन्दी
- hindi-morph - An open source morphological analyzer for Hindi.
Høgnorsk
nno :: Høgnorsk
- hunspell-hn_NO - A beginning to a spellchecking tool for Høgnorsk, a conservative variant of Norwegian Nynorsk, based on a set of corpuses.
исландский
isl :: íslenska
- IceNLP - IceNLP is an open source Natural Language Processing (NLP) toolkit for analyzing and processing Icelandic text. The toolkit is implemented in Java.
Inuktitut
iku :: Inuktitut
- InuktitutAlignerData - Scripts for alignment of laboratory speech production data.
- InuktitutComputing - Inuktitut Morphological Analyser, transcoder, transliterator, corpus tools, and lexical lists for working with Inuktitut. Usable online at http://inuktitutcomputing.ca/index.php.
Ирландский
gle :: Gaeilge
- aimsigh - Source for the now-defunct aimsigh.com Irish search engine.
- caighdean - Code for standardizing Irish language text.
- fleiscin - Irish hyphenation patterns for TeX https://cadhan.com/fleiscin/.
- GaelSpell - Sources for an Irish language spell checker.
- tesseract-gle-uncial - OCR for old Irish fonts.
Kinyarwanda
kin :: Ikinyarwanda
- kin-morph-fst - Kinyarwanda morphological analyzer.
- TurboTagger & TurboParser for Kinyarwanda (download) TurboTagger & TurboParser for Kinyarwanda
Курдский
kur :: Kurdî
- Kurlex - Morphological analyser and lexicon, written in the Alexina framework, licensed under the LGPL-LR.
- kurmanji-stemmer - NLTK based kurmanji stemmer
Лингала
lin :: Lingála
- Lingala NLP NLP tools and resources for Lingala
Lushootseed
lut :: Lushootseed
- Lushootseed - Joshua Crowgey's work on Lushootseed http://students.washington.edu/jcrowgey/lushootseed/.
малайский
msa :: Bahasa Melayu
- MorfoMalayu - morphological analysis of Malay words.
Малагасийский
mlg :: Malagasy
- Global Voices Malagasy Project This page provides a link to a corpus of parallel news articles in Malagasy and English from the Global Voices project. This corpus was collected and aligned at the sentence level by Victor Chahuneau.
Манкс
glv :: Gaelg
- aspell-gv - Manx Gaelic dictionary for aspell.
- gaelg - NLP resources for Manx Gaelic, mainly in support of the gv2ga MT engine.
Migmaq
mic :: Mi'kmaq
- migmaq-lessons - Repository for website building Mi'gmaq language lessons.
Minderico
drc :: Piação do Ninhou
- fredericajordarzambarino - A web based game for mobile devices in minderico based in the "Who Wants to be a Millionaire" TV show.
Nishnaabe
oji :: Ojibwe, Oddawa, Chippewa, Anishinaabemowin, ᐊᓂᔑᓈᐯᒧᐎᓐ
- Ojibway-iphone-app - An iPhone app with audio and images for learning the Ojibway language.
- OjibwayMap - An iPhone app with audio and images for learning Ojibway language and culture.
- nishanimate - A desktop app to facilitate Nishnaabe-language acquisition via animations produced by the natural language processing of audio-accompanied text.
Оромо
orm :: Oromo
- hornmorpho - morphological analysis and generation of amharic and oromo verbs and nouns. and tigrinya verbs
кечуа
que :: Runa Simi
- AntiMorfo - morphological analysis and generation of Quechua nouns, adjectives, and verbs and Spanish verbs.
- Morphology, spellchecker - XFST and FOMA, plus OpenOffice plugin.
Сами
sma :: Sámi/Saami
- divvun-webdemo - simple webdemo for divvun grammar checker. Website.
- Giellatekno A host of Sámi tools.
- Mobile keyboards (iOS and Android), learning apps, dictionaries, morphologies, syntax disambiguators, some amount of project collaboration with Apertium on shallow translation between Saami languages, and
- Oahpa! - A learning portal for Saami languages. Includes WordPress based, media rich lesson-based learning, and morphological and syntactic exercizes generated from the morphological and syntactic tools
- Neahttadigisánit - A morphologically sensitive dictionary, with modes for 'social media input' (which allows users to type a 'relaxed' version of the orthography ( acdnstz will be recognized also as áčđŋšŧz̄ ), and also includes a JavaScript bookmarklet to offer click-to-read dictionary lookup functionality. Also available for other Uralic, and non-Uralic languages. Giellatekno does a lot for other minority Uralic languages. Following are some keywords for CTRL+F friendliness:
- Saami languages: North Saami, Lule Saami, South Saami // Inari Saami, Kildin Saami, Pite Saami, Skolt Saami.
- Other Uralic languages: Erzya, Finnish, Hill Mari, Ingrian, Khanty, Kven, Komi, Livonian, Meadow Mari, Moksha, Nenets, Nganasan, Olonetsian, Udmurt, Veps.
- Other languages: Buriat, Cornish, Faroese, Greenlandic, Iñupiaq, Northern Haida, Ojibwe, Plains Cree, Russian.
Шотландский гэльский
gla :: Gàidhlig
- aspell-gd - Scottish Gaelic dictionary for aspell.
- briathrachan - This is the source code to Briathrachan, a Gaelic-English dictionary app for iOS.
- gaidhlig - NLP resources for Scottish Gaelic, mainly in support of gd2ga/ga2gd MT engines.
- gd-fcfg - Context-free feature-based grammar of Scottish Gaelic in the NLTK format.
- gdbank - Some tools and resources for natural language processing of Scottish Gaelic. https://www.tantallon.org.uk/cggblog/.
- hunspell-gd - Files for building Scottish Gaelic spell checkers.
Secwepemctsín
shs :: Secwepemctsín
- secwepemctsnem - A project to help people learn Secwepemctsín.
Сомалийский
som :: Soomaaliga
- somorph - Somali morphological and syntactic analyzers and generators built on XFST and VISL-CG Constraint Grammar. Up to date version checked in on Giellatekno's repository.
- qaamuus.net morphologically aware dictionary based on lexical resources found online, and the somali morphology.
Тигринья
tir :: ትግርኛ
- HornMorpho - morphological analysis and generation of Amharic and Oromo verbs and nouns and Tigrinya verbs.
Uralic
urj :: Uralic languages
- UralicNLP - A Python library for processing Uralic languages (Finnish, Skolt Sami, Erzya, Moksha, Komi-Zyrian and so on). The library provides an easy programmatic access to Giellatekno resources such as FST morphology and CG disambiguators. Other functionalities include UD parser, API for the Online Dictionary of Uralic Languages and interface to SemFi and SemUr semantic databases. The library is under active development and new features are added from time to time.
Зулу
zul :: zulu
- Ukwabelana An open-source morphological Zulu corpus
Лицензия
© Richard Littauer 2014-2017