Портфель данных
Репозиторий, содержащий портфель проектов по науке о данных, завершенных мной для академических, самоуправления и хобби. Представлены в виде ноутбуков Юпитера и файлов r разметки (опубликованы на RPUBS).
Для более визуально приятного опыта для просмотра портфеля, посетите Sajalsharma.com.
Портфолио R находится здесь.
Примечание. Данные, используемые в проектах (доступ к каталогу данных), предназначены только для демонстрационных целей.
Инструкции по запуску ноутбуков Python локально
- Установите зависимости с использованием требований.txt.
- Запустите записные книжки, как обычно, используя сервер ноутбуков Jupyter, VSCODE и т. Д.
Содержимое
Машинное обучение
- Прогнозирование цен на жилье Бостона: модель для прогнозирования стоимости данного дома на Бостонском рынке недвижимости с использованием различных инструментов статистического анализа. Определил лучшую цену, которую клиент может продать свой дом, используя машинное обучение.
- Наблюдение за обучением: поиск доноров для благотворительности: тестирование нескольких различных контролируемых алгоритмов обучения для создания модели, которая точно предсказает, зарабатывает ли человек более 50 000 долларов, чтобы выявить вероятных доноров для вымышленной некоммерческой организации.
- Обучение без присмотра: Создание сегментов клиентов: анализ набора данных, содержащий данные о ежегодных суммах расходов различных клиентов (сообщается в денежно -кредитах) различных категорий продуктов для обнаружения внутренней структуры, моделей и знаний.
- Подкрепление обучения: обучение SmartCab для управления: создание оптимизированного агента Q-обучения, который будет ориентироваться в SmartCab через окружающую среду для цели.
- Глубокое обучение: распознавание последовательностей цифр с использованием CNNS: проектирование и реализация сверточной нейронной сети, которая учится распознавать последовательности цифр с использованием синтетических данных, генерируемых конкатенирующими изображениями из Mnist.
Инструменты: Scikit-learn, Pandas, Seaborn, Matplotlib, Pygame
Обработка естественного языка
Классификатор сообщений о стихийных бедствиях: многоуровневая классификационная модель для прогнозирования категорий сообщения о бедствии. Включает в себя трубопровод ETL для обработки данных, конвейер ML для обучения модели и веб -приложение с визуализациями, где модель можно использовать для классификации сообщений. Инструменты: nltk, scikit-learn, xgboost, колба, сюжет
Анализ трехсторонних настроений для твитов: трехсторонняя полярная (положительная, отрицательная, нейтральная) система классификации для твитов, без использования двигателя анализа настроений NLTK.
Поиск кросс -языка: система поиска информации о кросс -языке (CLIR), которая, учитывая запрос на немецком языке, ищет текстовые документы, написанные на английском языке.
Инструменты: NLTK, Scikit
Анализ данных и визуализация
- Питон
- Масштабируемая анализ ходьбы Мельбурна: анализ прохождения пригородов в Мельбурне, Виктория и его последствия.
- Набор данных Titanic - Исследовательский анализ: исследовательский анализ пассажиров на бортовых RMS Titanic с использованием панд и визуализаций Seaborn.
- Анализ фондового рынка для технологических акций: анализ технологических акций, включая изменение цены с течением времени, ежедневную прибыль и прогноз поведения акций.
- Анализ данных общего опроса в США 2016 года: очень простой анализ данных об всеобщих выборах в США 2016 года.
- 911 Вызовы - Исследовательский анализ: анализ данных набора данных 911 Calls, размещенного на Kaggle. Демонстрирует извлечение полезных функций из разных переменных.
Инструменты: Панды, фолиум, морской и матплотлиб
- Ведущий
- Система наблюдения за поведенческим фактором риска (BRFSS) 2013: Исследовательский анализ данных: исследовательский анализ набора данных BRFSS-2013, сосредоточенный на изучении взаимосвязи между образованием и привычками питания, сон и психическим здоровьем, а также курением, употреблением алкоголя и общим здоровьем человека.
- Сделанная статистика: мужчины или женщины выступают против полового воспитания? : Использование набора данных GSS (общее социальное обследование), чтобы сделать вывод, если в 2012 году были мужчины, 18 лет или старше в Соединенных Штатах, с большей вероятностью выступит против сексуального воспитания в государственных школах, чем женщины.
- Визуализация данных: коррупция и развитие человека: график разброса для взаимосвязи между «индексом человеческого развития» и «индексом восприятия коррупции» стран.
- Moneyball: анализ и замена потерянных игроков: исследование данных бейсбола за 2001 год, чтобы рассмотреть замену для ключевых игроков, потерянных в Окленде А в 2001 году. Вдохновленный книгой/фильмом: Moneyball.
Микро -проекты:
Питон
- ML с логистической регрессией: использование логистической регрессии, чтобы предсказать, нажимал ли пользователь интернета в объявление или нет.
- ML с k ближайшими соседями: использование KNN для классификации экземпляров из фальшивого набора данных в два целевых класса, выбирая наилучшее значение для K с использованием метода колена.
- ML с деревьями решений и случайными лесами: использование деревьев решений и случайных лесов, чтобы предсказать, будет ли кредитор выплатить свой кредит. Использует общедоступные данные с LendingClub.com
- Рекомендации по фильмам с использованием рекомендательных систем: микропроект для создания системы рекомендаций, которая производит рекомендации фильма на основе сходства с обзором пользователей.
Ведущий
- ML Логистическая регрессия: прогнозирование класса заработной платы человека, использующего логистическую регрессию.
- ML Деревья решений и случайные леса: использование деревьев решений и случайных лесов для классификации школ как частных или общественных.
Я также увлекаюсь всеми другими технологиями. Вы можете найти здесь общее портфолио.
Если вам понравилось то, что вы видели, хотите поболтать со мной о портфолио, возможностях работы или сотрудничестве, сберите электронное письмо по адресу [email protected].
Поддержите мою работу
Если этот проект вдохновил вас, дал вам идеи для вашего собственного портфеля или помог вам, пожалуйста, подумайте о покупке кофе ❤.