MyDatasciencePortfolio спонсируется следующим инструментом. Пожалуйста, помогите поддержать нас, посмотрев и зарегистрировавшись на бесплатную пробную версию ?? ✌
Введение
Изучение клиента
Средний пост блога
Системы рекомендаций фильма
Сан -Франциско изучение преступности
Кластерация синопсиса
Полезные библиотеки NLP
Будущие потенциальные проекты
Приложение
Добро пожаловать в мой удивительный портфель проектов Data Science. В моем репо вы можете найти потрясающие и практические решения для некоторых из реальных бизнес-проблем со статистическими методами и моделей машинного обучения штата. Большинство моих проектов будут продемонстрированы в записной книжке Jupyter. Notebook Jupyter - отличный способ поделиться моей работой с миром. Он поставляется с Markdown и интерактивной средой Python, и она портативна для других платформ, таких как DataBricks и Google Colaboratory.
Моя коллекция проектов охватывает различные приложения для машинного обучения в области трендов, такие как обработка естественного языка , крупномасштабное машинное обучение с Spark и рекомендательную систему . Это еще не все. Потенциальные будущие проекты включают в себя суммирование текста , прогноз цен на акции , торговую стратегию с обучением подкрепления и компьютерное зрение .
Скорость ствола является одним из важных бизнес -метрик. Компания может сравнить свой отток и темпы роста, чтобы определить, был ли общий рост или потеря. Когда уровень оттока выше, чем темпы роста, компания понесла убытки в своей клиентской базе.
Почему клиенты бьют и прекращают пользоваться услугами компании? Какова оценка оттока на следующий квартал? Возможность отвечать выше двух вопросов может дать значимое представление о том, в каком направлении в настоящее время движется компания, и как компания может улучшить свои продукты и услуги, чтобы остаться Контомерс.
Medium - это популярная платформа издательства в блоге с огромным количеством содержимого и текстовыми данными. Какие люди публикуют? Каковы скрытые темы в этих блогах? Что делает блог -пост популярным? А какова тенденция в современных технологиях? Этот проект направлен на то, чтобы ответить на вопросы с помощью визуализации, анализа, процесса естественного языка и методов машинного обучения.
В частности, я буду использовать Seaborn и Pandas для предварительного анализа. Для моделирования машинного обучения я выбираю K-средние , TSVD и LatentDirichletallocation для моделирования тематических. Я проведу это исследование с двумя разными структурами ML: Sklearn и Spark .
Sklearn - отличная библиотека машинного обучения Python для ученых данных.
Тем не менее, в возрасте больших данных большая часть анализа данных основана на распределенных вычислениях. Spark представляет собой распределенную структуру кластерного компьютера и обеспечивает интерфейс для программирования целых кластеров с неявным параллелизмом данных и устойчивостью к разломам.
Большинство продуктов, которые мы используем сегодня, основаны на рекомендательных двигателях. YouTube, Netflix, Amazon, Pinterest и длинный список других продуктов данных полагаются на рекомендательные двигатели, чтобы фильтровать миллионы содержимого и дать персонализированные рекомендации для своих пользователей.
Было бы так здорово построить систему рекомендаций самостоятельно. Я люблю смотреть фильмы, когда провожу время со своей семьей. Поэтому я решил построить для себя рекомендацию фильма. В общем, рекомендательные системы могут быть свободно разбиты на три категории: системы контента , системы совместной фильтрации и гибридные системы (которые используют комбинацию двух других).
Мой проект фокусируется на совместных системах фильтрации. Системы на основе совместной фильтрации используют действия пользователей, чтобы рекомендовать другие элементы. В общем, они могут быть либо на основе пользователя, либо на основе элементов. Обычный подход на основе элементов обычно предпочитается, чем подход на основе пользователя. Пользовательский подход часто сложнее масштабировать из-за динамического характера пользователей, тогда как элементы обычно мало меняются, поэтому на основе элементов подход часто может быть вычислен в автономном режиме.
Тем не менее, как на основе элементов, так и на основе пользователя совместная фильтрация все еще сталкивается с следующими задачами:
Чтобы преодолеть вышеупомянутые проблемы, я буду использовать факторизацию матрицы для изучения скрытых функций и взаимодействия между пользователями и элементами
Сан -Франциско возникал как один из самых дорогих городов. Все больше и больше стартапов и компаний переезжают в город и привлекают все больше и больше талантов в город. Тем не менее, инциденты по преступности, по -видимому, возрастают как средний доход его жителей. Взрывы автомобилей достигли уровня «эпидемии» в Сан-Франциско.
В этом исследовании я буду использовать Spark для анализа 15-летнего сообщенного набора данных инцидентов от SFPD и использовать методы машинного обучения для понимания шаблона преступности и распределения в SF. Наконец, я буду создавать модель прогноза временных рядов для прогнозирования уровня преступности
Сегодня мы можем собрать гораздо больше неструктурированных данных, чем когда -либо раньше. В отличие от структурированных данных, неструктурированные данные не структурированы с помощью предварительно определенных моделей данных или схемы, но имеют внутреннюю структуру. Одним из примеров неструктурированных данных являются текстовые данные, такие как резюме сюжета, синопсис фильмов.
В этом проекте я буду использовать классические методы NLP : токенизация слов , Stemming Word , удаление стоп-слова , TF-IDF и многое другое для очистки необработанных текстовых данных и извлечения функций из необработанного текста. Затем я буду использовать неконтролируемые модели обучения, такие как K-средние и Latentdirichletallocation, для кластера немеченых документов в различные группы, визуализировать результаты и определять их скрытые темы/структуры.
С помощью методов кластеризации, применяемых к неструктурированным данным, мы можем начать обнаружить внутреннюю структуру внутри данных и определять сходство между документами. С оценкой сходства между документами, мы начинаем иметь возможность запрашивать и анализировать документы из любого магазина документов.
Обработка естественного языка (NLP) - это область трендов о том, как программировать машины для обработки и анализа больших объемов данных о естественном языке, и извлекать из нее значимую информацию.
Существует много инструментов и библиотек, предназначенных для решения проблем НЛП. Наиболее часто используемыми библиотеками являются инструментарий для народа языка (NLTK) , Spacy , Sklearn NLP Toolkit , Gensim , Pattern , PolyGlot и многие другие. Мой ноутбук представит основное использование, плюсы и минусы каждой библиотеки NLP.