Португальский NLP
Список ресурсов и инструментов, разработанный с акцентом на португальский язык.
Наборы данных
- #PraceGover - Многомодальный набор данных с португальскими подписями на основе сообщений из Instagram.
- Португальские медицинские тексты 18-го века
- AG_NEWS PT - Автоматический перевод корпуса новостных статей AG.
- Данные Alpaca PT-Br-Стэнфордский набор данных Alpaca Переведены на бразильский португальский язык с использованием модели Helsinki-NLP/Opus-MT-TC-BIG-EN-PT.
- Aspectbr - Анноированный набор данных на основе аспектов обзоров веб -потребителей.
- Assin - набор данных с семантическим сходством и аннотациями въезда. (HuggingFace)
- Ассин 2 - последовательность ассин. (HuggingFace)
- Автоматизированный набор данных эссе (AES) - эталон для автоматической оценки эссе на португальском языке (Huggingface)
- Набор данных AYA PT - Набор данных COHEHERAI AYA FILTRADO PARA PORTUGUES (PT).
- BlogSet -BR - Коллекция сообщений, собравшихся с платформы Blogspot, написанная бразильскими пользователями.
- Bluex - эталон, основанный на бразильских ведущих экзаменах университетов.
- Boolq - Tradução Automática do Boolq.
- Br-Quad-2.0-Стэнфордский набор данных для ответа на вопросы (Squad) 2.0 переведен на бразильский португальский (PT-BR) язык.
- Brands.br - португальский корпус обзоров
- Решения бразильского суда - Сбор решений 4043 EEMENTA (Свод) Судов и их метаданные из Трибунала де Юстиса де -Алагоас (TJAL), Верховный суд штата Алаго (Бразилия).
- Бразильская электронная коммерция-Бразильская публичная набор данных электронной коммерции от Olist Store.
- Бразильские заголовки заголовков - Набор данных, содержащий анализ настроений бразильских новостных агентств.
- Бразильская португальская литература - 3,7 миллиона слов корпус бразильской литературы, опубликованная между 1840-1908 годами.
- Бразильские португальские повествовательные эссе набор данных - Набор данных для автоматического оценки эссе бразильских португальских эссе.
- Бразильские португальские наборы анализа настроений.
- Суждения Бразилии TCU - Суждения Федерального суда - Бразилия (TCU).
- BRWAC - Бразильская португальская сеть как корпус.
- Brwac2wiki - набор данных для многодокументирования суммирования на португальском языке.
- B2W -Reviews01 - Обзоры продуктов.
- Canarim - крупномасштабный набор данных веб -страниц на португальском языке (Huggingface)
- Каролина - Корпус Гераль До Португас Бразилиро Современник (Huggingface).
- Накидки - параллельный корпус тезисов и диссертаций тезисы на английском и португальском языке.
- CC100 -SORTUGUESE - Создан Connou & Wenzek et al. в 2020 году. Этот набор данных является одной из 100 корпораций одноязычных данных, которые были обработаны из снимков CommonCrawl Commoncrawl в январе 2018 года из репозитория CC-Net.
- Cetenfolha - Новости из газеты Folha de S. Paulo.
- Chave - Коллекция для получения информации и ответа на вопросы.
- Cintil Corpus - лингвистически интерпретированный корпус португальского языка.
- Clinicalner - Клиническое название признание организации на португальском языке.
- ComplexIdade Текстовый Para Estágios Escolares Do Sistema Educational Brasileiro.
- CORAA - Набор данных для автоматического распознавания речи.
- Кораа Сер - распознавание эмоций от бразильской португальской неформальной спонтанной речи.
- CRAULPT_DEDUP-CRAULPT (DEDUPLICATICED) состоит из трех корпусов: BRWAC, C100-PT, OSCAR-2301.
- CSTNews - корпус с 50 скоплениями новостных текстов с их многодокументированными резюме, а также с несколькими дискурсом и семантическими аннотациями.
- C-Oral-Brasil-Этот проект посвящен изучению бразильской португальской спонтанной речи и, в более широком смысле, для составления разговорных корпораций.
- Dantestocks - Корпус фондового рынка, написанные на бразильском португальском языке и аннотированный с названными организациями в соответствии с таксономией гарема.
- Deepagé - отвечает на вопросы на португальском языке о бразильской среде.
- DNLT -BP - Наборы данных нейропсихологических языковых тестов у бразильских португальцев.
- Enem Challenge - состоит из написания эссе и объективной части, содержащей 180 вопросов с множественным выбором.
- Enem-2022 и Enem-2013-Эти проекты охватывают все вопросы с несколькими вариантами выбора из последних двух изданий Exame Nacional Do Ensino Médio (ENEM), основного стандартизированного вступительного экзамена, принятого бразильскими университетами.
- Essay-Br-Essay-Br: корпус эссе для бразильского португальского языка.
- Расширенное эссе-Br-расширенная версия эссе-BR Corpus.
- Factck.br - набор данных для изучения фальшивых новостей на португальском языке.
- FactNews - Набор данных для прогнозирования фактической настройки предложений.
- Поддельные голоса - Deepfakes на бразильском португальском языке, созданные с помощью модели XTTS.
- Fake.br - Выровненные истинные и фальшивые новости, написанные на бразильском португальском языке (Hugginface).
- Central_de_fatos - (guggingface).
- Fakenewsset - (Huggingface).
- Fakepedia -Corpus - фальшивый набор данных новостей.
- Fakerecogna - набор данных, состоящий из реальных и поддельных новостей (Huggingface).
- Fakewhatsapp.br - аннотированный корпус сообщений WhatsApp в PT -Br для автоматического обнаружения текстовой дезинформации.
- FKTC - Фальшивые новости текстовые коллекции.
- Floresta Sintá (c) Tica - Treebank для португальского.
- Harem First - Конкурс оценки для признания именных признаков на португальском языке.
- Harem Second - Конкурс оценки для признания именных объектов на португальском языке.
- HATEBR - крупномасштабный эксперт, аннотированный корпус бразильского Instagram Комментарии к ненависти и обнаружению языков на оскорблении в Интернете и в социальных сетях.
- Исторические португальские корпусы - Инструменты и ресурсы для манипулирования историческими корпусами и управлением историческими словари.
- Imdb pt - Tradução atomática do imbd.
- Inferbr - Набор данных по выводу естественного языка.
- Набор данных iudicium textum - содержит юридические документы, созданные Федеральным Верховным судом Бразилии в его интегральной композиции (документ).
- Lener -BR - набор данных для признания именного признания в бразильском юридическом тексте.
- Legalpt_dedup - Legalpt (deduplicated) собирает максимальную сумму общедоступных юридических данных на португальском языке.
- LEX2KIDS - Лексикон на португальском, наиболее слышенном детьми.
- Mac-Morpho-бразильские португальские тексты, аннотированные с тегами речи.
- Milkqa - набор данных плотных вопросов для задачи выбора ответа.
- Протоколы центрального банка Бразилии - протокол комитета по денежно -кредитной политике Центрального банка Бразилии.
- NER в бразильских португальских твитах - сообщения Twitter в PT -B -BR, аннотированные для объектов Per, LOC и Org.
- Nerde - Документы из юриспруденции CADE, аннотированные для организаций Org, per, Tempo, loc, нога (законодательство), документы (документы), доблесть.
- Новости Crawl-PT-Monolingual News Crawl, используемый для WMT.
- Новости о сайте Folha de Sãao Paulo - Новости о бразильской газете Folha de Sã Paulo.
- Новости опубликованы в Бразилии - Новости сборника Globo Group.
- Экзамены OAB - бразильская версия экзамена бара (США) (HuggingFace).
- Параллельная корпорация от Revista Pesquisa Fapesp-Португальский английский и португальский испаничный двуязычные коллекции онлайн-выпусков научных новостей бразильского журнала Revista Pesquisa Fapesp.
- Nurc-sp
- PIRá-двуязычный набор данных португальского английского языка для вопроса о ответе на океан.
- PL-Corpus-часть Ulyssesner-Br, корпуса бразильских законодательных документов для NER с качественными базовыми показателями.
- Plue - Португальский перевод набора данных Clue Claick и Scitail.
- Poetisa - Португальская обработка - к синтаксическому анализу и анализу.
- Политгии - наборы данных, связанные с проектом Politiquices.pt.
- PorsImplessent - выровненных приговоров пар, чтобы исследовать оценку читабельности предложения.
- Portilexicon -UD - лексика для бразильских португальцев в соответствии с универсальными зависимостями.
- Португальский-ненавистная списка-датазета-португальский набор данных для обнаружения ненавистников, состоящий из 5668 твитов с бинарными аннотациями (то есть «ненависть» против «без ненависти») (объятие)
- Португальские юридические приговоры - Сбор юридических приговоров от Португальского Верховного суда.
- Португальские президентские выборы - этот набор данных содержит твиты и пользователей в основном из португальского Twittersphere.
- PRACEGOVER - Многомодальный набор данных, содержащий изображения, связанные с португальскими подписями на основе сообщений из Instagram.
- Прабема для мелкозернистого мнения-португальский мелкозернистый корпус добычи мнений.
- Propbank - содержит экземпляры, аннотированные с семантическими этикетками (SRL).
- Projeto ACDC - доступ к Интернету к корпусам.
- Puntuguese - Корпус каламбуров на португальском языке с микро -выпусками (Huggingface)
- QA -Sortuguese - Адаптация из набора данных MQA Portugase Split (QA Entailment Pares).
- Quati-Этот набор данных направлен на поддержку бразильской португальской (PT-B-BR) разработки систем поиска информации (IR), предоставляя документы Passagens, первоначально созданные в PT-Br, а также запросы (темы), созданные носителями.
- Rebel -Portuguese - Наборы данных DE RELAções Partir Da Wikipedia.
- Reli - Resenha de Livros.
- Repro: контрольный набор данных для добычи мнений для бразильского португальца - эталонный набор данных для добычи мнений для бразильских португальцев. (HuggingFace)
- RHETALHO - Корпус аннотирован с RSTTOOL Даниэля Марку.
- SEMCLINBR-Многоинституциональный и многопрофильный семантически аннотированный корпус для португальских клинических задач NLP.
- Кунжут - корпус для Нер на португальском языке.
- Sigarra News Corpus - Информационная система Sigarra в Университете Порту.
- Simplex -PB - база данных лексического упрощения и эталон для португальцев.
- Simplex-PB-2.0-Улучшенная версия Simplex-PB.
- Simplex-PB-3.0-Новая версия Simplex-PB.
- Подмножество Spotify - классификация языковых вариаций на бразильском португальском языке
- Squad -PT V1.1 - Португальский перевод набора данных команды.
- Squad-PT V1.1-PT-Br-Бразильский португальский перевод набора данных Squad, переведенный в результате глубокого обучения Бразилию.
- Squad -PT V2.0 - Португальский перевод набора данных Squad 2.0.
- SST -2 PT - Автоматический перевод TreeBank Stanford Sentients.
- ТЕМАРИО - Новостные тексты и соответствующие человеческие резюме для целей суммирования.
- Текстовая сложность корпуса - Текстовая сложность корпуса для школьных стажировок в бразильской образовательной системе.
- Сказал Br - ядовитое обнаружение языка в социальных сетях для бразильских португальцев (GitHub).
- TTS -Portuguese Corpus - текст на речевой португальский.
- Tweetsentbr - твиты на бразильском португальском языке.
- Твиты для анализа настроений.
- Ud_portuguese -bosque - Универсальные зависимости (UD) Португальские деревья.
- UD_PORTUGUESE -CINTIL - Универсальные зависимости (UD) Португальские деревья.
- UD_PORTUGUESE -GSD - Универсальные зависимости (UD) Португальские деревья.
- Ud_portuguese -petrogold - универсальные зависимости (UD) Португальский дерево.
- UD_PORTUGUESE -PUD - Универсальные зависимости (UD) Португальские деревья.
- Ulyssesner -Br - Корпус бразильских законодательных документов для признания организации
- Utlcorpus - корпус онлайн -обзоров в бразильском португальском языке, аннотированный с классификацией помощи.
- Winograd Schema Challenge - Solver для португальского Challenge Winograd Schema.
- Wizardvicuna-Ptbr-Instruct-Clean-Wizard Vicuna Pt-B-B-B-B-инструкция чистого набора данных.
Многоязычные наборы данных
- Многоязычный набор данных для изучения стереотипов и негативного отношения к группам мигрантов в крупных языковых моделях
- ASKD - DATASET ELI5, адаптированный по медицинским вопросам (ASKDOCS) SubredDit.
- Английские портационные предложения-англо-португальские предложения из проекта Tatoeba.
- Eur -Lex - многоязычное корпус на всех официальных языках Европейского Союза.
- Europarl - Европейское парламент - Parallel Corpus 1996-2011.
- Europarl-St-Корпус перевода многоязычного речи, который содержит парные аудио текстовые образцы для перевода речи, построенные с использованием дебатов, проведенных в Европейском парламенте в период с 2008 по 2012 год.
- MC4 - многоязычная колоссальная, чистящая версия Common Crawl's Web Crawl Corpus. На основе общего набора данных для ползания.
- MFAQ - многоязычное корпус часто задаваемых вопросов, проведенных в результате общего ползания.
- MKQA - Многоязычные вопросы знаний и ответы (GitHub).
- MQA - Многоязычное корпус вопросов и ответов (MQA), проанализированного от общего ползания.
- MMARCO - многоязычная версия набора данных MS Marco Ranking.
- MROBUST - Многоязычная версия набора данных о рейтинге TREC 2004
- Multiconer - большой многоязычный набор данных для распознавания именованных объектов.
- UST -C - Многоязычный речевой перевод корпус.
- OpenSubtitles - Коллекция переведенных субтитров фильма.
- Оскар - открытый сверхуровный ползающий агрегированный корпус.
- Tatoeba - большая база данных предложений и переводов.
- TED2020 - содержит ползулку почти 4000 транскриптов TED и TED -X с июля 2020 года.
- TSAR-2022-Shared-Task-TSAR2022 Общая задача при лексическом упрощении.
- Wikiann - многоязычный набор данных по распознаванию объектов, состоящий из статей Википедии, аннотированных с метками LOC (местоположение), Per (человек) и орг (организация) в формате IOB2.
- Wikilingua - многоязычный набор данных абстрактной суммирования, извлеченный из Wikihow.
- Wikimatrix - Параллельные предложения в 1620 -й парнях из Википедии.
- Wikiner - изучение многоязычного признания организации из Википедии.
- Wikineural - Объединенное создание данных серебра и знаний для многоязычного NER (EMNLP 2021).
- Wikipedia - набор данных Википедии, содержащий чистящие статьи всех языков.
- Xformal - эталон для многоязычной передачи стиля формальности.
- XLSUM - 1,35 млн. Профессионально аннотированные пары статьи -иммурия от BBC.
Лексикон
- BATS -PT - Ручной перевод лексикографической части более крупного аналогического испытательного набора (BATS) на португальский
- Br.Ispell - Словарь ISPELL для бразильского португальца (GitHub).
- ConceptNet - открытый, многоязычный график знаний.
- DICSIN - Словарь синонимов и антонимов.
- Lexiconpt - R Пакет, который предоставляет лексики для португальского анализа текста.
- Лексиконы - словары имен, фамилий, аббревиатуры и их расширения, остановки и т. Д.
- LIWC - Лингвистическое расследование и количество слов (словарь)
- ON.PT - Ontologia Lexical Para O Portuguess.
- OpenWordNet -PT - открытый доступ wordnet для португальца (сайт).
- Oplexicon - лексика чувства для португальского языка.
- Палавры - Список слов бразильских португальцев.
- Папель
- PT -B -BR - СЛОВО, ГЛАГОВЫ, Спряжения, Термины Частоты.
- PT-LKB-большая португальская лексико-эмантическая база знаний
- Pulo - португальская единая лексическая онтология.
- Sentilex -PT - лексика настроения для португальского языка.
- Стоп слов - Португальская коллекция стоп -слов.
- Tep2.
- Unitex -PB - лексические ресурсы.
- VALEXPB - лексика бразильских португальских вавенций глаголов.
- Verbnet.br 1.0 - словесная лексика бразильских португальцев.
- Wikidict-DSL-PT-Wikidata двуязычные словаря DSL.
- Wordnetaffectbr - словарь слов эмоций.
- Wordnet.br - Португальский Wordnet.
Модели
- Albertina pt -br - Это кодер семьи Берт для португальского языка - американский вариант из Бразилии.
- Albertina PT -PT - это кодер семейства Берт для португальского языка - европейский вариант из Португалии.
- Alpaca-Lora-Ptbr-Llama Llama Инструктируют настройку.
- БАРТ - Барт Пре -Трейнадо Эм Португас.
- Бертимбау-База Бертимбау-это предварительно проведенная модель Берта для бразильского португальского языка, которая достигает современных выступлений по трем задачам НЛП вниз по течению: распознавание сущности, предложение текстовое сходство и распознавание текстового зала (Github).
- Biobertpt - тонкие модели BERT, обученные клиническому домену для португальского языка (GitHub).
- Кабрита - Португальская производимая инструкция Llama (GitHub).
- Debertinha - Deberta v3 xsmall, адаптированный к бразильскому португальскому языку (GitHub).
- Electra - Electra Model, обученная BRWAC.
- Gervasio -Pt -Br - Это декодер семьи GPT для португальского языка - американский вариант из Бразилии.
- Gervasio -PT -PT - это декодер семьи GPT для португальского языка - европейский вариант из Португалии.
- Glória 1.3b - модель большой языковой модели, ориентированная на португальскую европейку (Huggingface)
- GPT2 Small-Gortuguese-2 (португальский GPT-2 Small)-это современная языковая модель для португальцев на основе небольшой модели GPT-2.
- GPT-neo Small-созданная версия от GPT-neo 125m от Eletheurai на португальский язык.
- GPT2-Bio-PT-биомедицинская версия с Gportuguese-2 (GitHub).
- Nerde -Base - Bertimbau PeneTuned to NER по судебным документам.
- Роберта-Пт-Бр
- Robertacrawlpt-base-Robertacrawlpt-Base-это общая португальская модель в масках, предварительно с нуля с Clawpt Corpora
- Robertalexpt -Base - Португальская модель языка в масках, предварительно с нуля с корпорации Legalpt и Crautpt
- Sabiá - Sabiá -7b - это модель португальского языка, разработанная Maritaca AI.
- Sabiá 2 - Языковая модель, обученная португальскому тексту, особенно в бразильской области.
- T5 - модель T5 на бразильских португальских данных.
- TGF-XLM-ROBERTA-BASE-PT-BR (GitHub)
- Wav2VEC-тонко настроенный Facebook/Wav2VEC2-Large-XLSR-53 на португальском языке с использованием поезда и валидационных расщеплений Common Voice 6.1.
Многоязычные модели
- Bloom-Bigscience Большой открытой науки с открытым доступом многоязычной языковой модели.
- MBERT - Предварительная модель на топ -104 языках с самой большой Википедией с использованием объектива маскированного языкового моделирования (MLM).
- Мдеберта
- MGPT - многоязычная модель GPT. Авторегрессивная модель GPT.
- Mminilm-Mminilm-L6-V2 Reranker CeneTuned на MMARCO
- MT5 - многоязычный T5. Массивно многоязычный предварительно обученный трансформатор текста в текст.
- XLM-Roberta-XLM-Roberta Model, предварительно обученная 2,5 ТБ отфильтрованных данных CommonCrawl, содержащих 100 языков.
- Labse-Язык-агрессивный Bert Sendence Encoder (Labse)-это модель на основе BERT, обученную для встраивания предложений для 109 языков.
Слово встраивание
- FASTTEXT - многоязычные векторы слов.
- Лазер - Языковые агрессические представления предложения.
- NILC -Embeddings - Word Enterdings, обученные португальским языкам USP.
- Muse - многоязычные неконтролируемые и контролируемые внедрения.
- Векторы слов - предварительно обученные векторы слов 30+ языков.
Метрики
- Coh-Metrix-Port-адаптация инструмента анализа текста CoH-Metrix к бразильскому португальскому языку.
- Nilc -Metrix - он собирает метрики, разработанные более десяти лет в лаборатории NILC.
Таблицы лидеров
- Open PT LLM Soade - Open PT LLM Sobde Soade Almess - предоставить эталон для оценки крупных языковых моделей (LLMS) на португальском языке по различным задачам и наборам данных.
Рамки
- nlpnet
- Nltk
- полиглот
- шпажина
- Stanza nlp
- udpipe
Учреждения
- Brasileiras em pln.
- Hailab -PUCPR - новаторская исследовательская группа, стремящаяся разработать решения для здравоохранения с использованием обработки естественного языка и машинного обучения.
- Linguateca.
- Нильк.
- Nlportuguês - посвящен созданию курсов NLP на бразильском португальском языке.
- NLX-группа.
- Pln Pucrs.
Инструменты
- Apertium -por - лингвистические данные апертия для португальцев.
- Автоторж - Корректор орфографии в Python.
- BRGRAM - вычислительный грамматический фрагмент бразильского португальца в формализме LFG, реализованном в XLE.
- DICIO API - Португальский словарь API.
- DICT-PT-BR-Словарь для бразильского португальского.
- LanguageTool - стиль и грамматическая проверка для 25+ языков.
- LegalNLP - методы обработки естественного языка для бразильского юридического языка.
- Lexml Parser - анализатор юридических документов.
- LX Parser - статистический факультет избирательного округа для португальцев.
- Метафонный -Птбр - Метафонный алгоритм для португальского языка.
- MlConjug3 - библиотека Python для сопряженных глаголов на португальских и других языках.
- Morphobr - ресурсы для морфологического анализа португальского.
- Opcluster - Автоматическая извлечение и кластеризация мелкозернистых мнений.
- Phonemizer - простой текст в телефоны для преобразователя для нескольких языков.
- Porgram - вычислительная грамматика с открытым исходным кодом для португальцев в формализме HPSG.
- Pymetaphone -Br - Метафонный алгоритм пакет для португальского языка.
- Pysentimiento - многоязычный инструментарий для анализа настроений и социальных задач NLP.
- Pyspellchecker - многоязычная проверка орфографии.
- RBAMR - анализатор AMR на основе правил для португальцев.
- Вербекк - Полное сопряжение любого глагола, используя машинное обучение для французского, испанского, португальского, итальянского и румынского.
Другие списки
- Аннотированные наборы данных семантических отношений
- Лингвистические наборы данных - лингвистические наборы данных для португальцев.
- NER-Datasets для португальцев
- Нильк
- Nilc 2
- Nilc 3
- МНЕНИЯ - МАЙНАЯ МНЕНИЯ ДЛЯ Португальского.
- Португальский список наборов данных
Другие ссылки
- Opus - Opus - это растущая коллекция переведенных текстов из Интернета.
- Статистическая и нейронная машина перевод.