(Работа в процессе!)
За последние несколько лет обработка естественного языка (NLP) добилась значительных успехов благодаря успеху современных методов, основанных на глубоком обучении. С ростом популярности НЛП и наличием различных форм крупномасштабных данных, в настоящее время еще более важно понять внутреннюю работу методов и концепций НЛП из первых принципов, поскольку они находят свой путь в реальное использование и приложения, которые влияют на общество в целом. Создание интуиции и солидное понимание концепций важны для создания инновационных методов, улучшения исследований и создания безопасных технологий ИИ и НЛП, ориентированных на человека.
Мы представляем новую серию под названием «Основы НЛП», где мы стремимся рассказать о важных методах и концепциях НЛП, начиная с первых принципов. Мы представим теоретический аспект и мотивацию каждой концепции, охватываемой в серии. Затем мы получим практический опыт, используя методы начальной загрузки, отраслевые инструменты и другие библиотеки с открытым исходным кодом для реализации различных методов. По пути мы также рассмотрим лучшие практики, поделитесь важными ссылками, указываем на общие ошибки, чтобы избежать обучения и создания моделей НЛП, и обсудить, что ждет впереди.
Присоединяйтесь к нашему сообществу Slack, чтобы узнать больше об этом и других текущих проектах. Не стесняйтесь обратиться ко мне в Твиттере, чтобы пригласить на нашу группу Slack.
Глава 1: Токенизация, лемматизация, стебля и сегментация предложений - блокнот Colab, веб -версия
nlp_fundamentals . Проблемы с good first issue - это хорошие задачи, с которыми можно начать.