Добавьте их в портфолио: 10 проектов по дата-сайенс для начинающих

Дата-сайентисту очень полезно проводить самостоятельные исследования. Это не только отличная практика, но и способ доказать потенциальному работодателю: вы не только знаете названия библиотек, но и владеете всеми нужными навыками. Представляем подборку несложных и интересных проектов, которые подойдут для начинающих.

Добавьте их в портфолио: 10 проектов по дата-сайенс для начинающих

Елена Лиханова

Сбор данных

Подготовка датасета — один из важнейших навыков для дата-сайентиста.

Изучив бизнес-задачу, он собирает нужные данные с помощью API или агрегатора. После этого датасет очищают и переводят в формат, который можно загрузить в модель. На это уходит больше всего времени.

Эти проекты помогут продемонстрировать владение этими навыками.

Сайт с отзывами на доставку еды

Инструкция: Zomato Web Scraping with BeautifulSoup

Язык: Python

Это интересный и практический опыт. От вас требуется создать агрегатор, который соберет все отзывы со страниц сайта и поместит их в датафрейм.

Данные можно использовать для построения модели сентимент-анализа и классифицировать отзывы, отметив их как позитивные или негативные.

Сайт с онлайн-курсами

Инструкция: Build a Web Scraper with Python in 8 Minutes

Язык: Python

Хотите пройти онлайн-курс по дата-сайенс? Чтобы выбрать лучший, не нужно листать сотни отзывов. Для этого достаточно агрегировать отзывы с сайта и загрузить их в датафрейм.

Дополнительно можно подготовить визуализацию переменных, таких как цена и рейтинг.

Также попробуйте составить модель сентимент-анализа и определить общее впечатление от каждого курса.

Бонус: сбор данных по хэштегу Twitter

Потренируйтесь собирать информацию при помощи API или иного внешнего инструмента. Этот опыт обязательно пригодится. Большинство компаний, которые используют информацию от третьих лиц, часто покупают доступ к API, и дата-сайентист собирает данные с помощью внешнего интерфейса.

В качестве тренировки используйте API Twitter и создайте датафрейм с данными по определенному хэштегу.

Разведочный анализ данных

После подготовки датасета нужно провести анализ всех переменных: оценить, как они распределяются и взаимодействуют друг с другом. Также важно уметь отвечать на вопросы с помощью доступных данных.

Дата-сайентист очень часто выполняет подобные задачи — пожалуй, даже чаще, чем занимается предиктивным моделированием.

Определение факторов риска сердечных заболеваний

Датасет: The Framingham Heart Study

Инструкция: The Framingham Heart Study: Decision Trees

Язык: Python или R

В наборе данных содержатся такие предикторы, как холестерин, возраст, диабет и семейная история болезни, которые помогают прогнозировать, когда пациент может испытывать проблемы с сердцем.

С помощью Python или R можно проанализировать связи и ответить на следующие вопросы.

    Являются ли диабетики более склонными к развитию сердечных заболеваний в раннем возрасте?
    Существует ли определенная демографическая группа, у которой риск возникновения сердечных заболеваний выше, чем у других?
    Снижают ли частые упражнения риск возникновения сердечных заболеваний?
    Правда ли, что курильщики более склоны к возникновению сердечных заболеваний?

Всемирный доклад о счастье

Датасет: World Happiness Report

Инструкция: World Happiness Report EDA

Язык: Python

Составители Всемирного доклада о счастье отслеживают 6 метрик — продолжительность жизни, экономику, социальную поддержку, отсутствие коррупции, свободу и щедрость.

Вот что можно узнать, анализируя набор этих данных.

    Какая страна самая счастливая в мире?
    Какие факторы больше влияют на счастье страны?
    Уровень счастья в мире растет или падает?

Самые успешные дата-сайентисты, как правило, отличаются любопытством: они постоянно ищут связи и задают вопросы. Проекты, подобные этому, помогают улучшить аналитическое мышление и отточить необходимые навыки.

Визуализация данных

На работе дата-сайентист регулярно должен представлять свои результаты не только техническим специалистам, но и клиентам или руководству. Проще всего сделать этого с помощью визуализации.

Интерактивная панель поможет лучше продемонстрировать ваши выводы, потому что графики понятны с первого взгляда.

Многие компании указывают визуализацию данных как необходимый навык для вакансий, связанных с дата-сайенс.

Статистика Covid-19

Датасет: Covid-19 Data Repository at Johns Hopkins University

Инструкция: Building Covid-19 Dashboard with Python and Tableau

Язык: Python

Сначала нужно будет обработать набор данных при помощи Python. Для оформления результатов используйте Tableau.

Это один из самых востребованных инструментов визуализации данных, знание которого необходимо для большинства стартовых позиций в дата-сайенс.

Если в вашем портфолио будет присутствовать проект с Tableau, это поможет вам выделиться среди других кандидатов и продемонстрировать свое владение этой программой.

Рейтинг фильмов с портала IMDB

Датасет: IMDb Top Rated Movies

Инструкция: Exploring IMDb Top 250 with Tableau

Попробуйте поэкспериментировать с данными IMDB и создать интерактивную панель с помощью Tableau.

Одно из преимуществ этого инструмента — возможность загрузить работу в Tableau Public и демонстрировать ее, просто отправив ссылку. Потенциальный работодатель сможет взаимодействовать с дэшбордом, что послужит дополнительной причиной, вызывающей интерес. Это еще на шаг приблизит вас к работе мечты.

Машинное обучение

Наконец, от соискателя требуется представить проекты по машинному обучению. Лучше всего использовать контролируемый и неконтролируемый тип взаимодействия.

Сентимент-анализ отзывов на еду с Amazon

Датасет: Amazon Fine Food Reviews Dataset

Инструкция: A beginner’s guide to sentiment analysis with Python

Язык: Python

Сентимент-анализ — важный элемент машинного обучения. Бизнес часто использует его, чтобы оценить общую реакцию потребителей на продукты.

Покупатели обычно обсуждают покупки в социальных сетях или специализированных форумах. Эти данные можно собрать и проанализировать, чтобы определить, как разные люди реагируют на разные маркетинговые стратегии. Это поможет изменить позиционирование или целевую аудиторию.

Сейчас практически каждый бизнес работает в социальных сетях, поэтому такой проект обязательно должен быть в портфолио начинающего дата-сайентиста.

Прогноз продолжительности жизни

Датасет: Life Expectancy Dataset

Инструкция: Life Expectancy Regression

Язык: Python

В этом проекте вам предстоит составить прогноз продолжительности жизни человека, исходя из таких переменных, как образование, смертность среди младенцев и взрослых, а также употребление алкоголя.

Важно, чтобы в портфолио были проекты из нескольких тематик, чтобы показать опыт в разнообразных направлениях.

Анализ статистики рака груди

Датасет: Breast Cancer Dataset

Инструкция: Cluster analysis of breast cancer dataset

Язык: Python

В этом проекте вам предстоит использовать алгоритм кластеризации k-средних, чтобы определить присутствие рака молочной железы по целевым атрибутам.

Кластеризация k-средних — это неконтролируемый тип взаимодействия. Важно иметь такие проекты в портфолио, потому что в основном вам предстоит работать с неразмеченными данными.

Даже большие наборы данных, собранные компаниями, как правило, не имеют разметки. Иногда дата-сайентисту предстоит самостоятельно размечать датасет, используя инструменты неконтролируемого обучения.

Портфолио должно включать проекты, которые демонстрируют весь спектр необходимых навыков — сбор данных, их анализ, визуализацию и машинное обучение. К счастью, в открытом доступе есть масса инструкций и обучающих материалов. От начинающего эксперта по данным требуется лишь любопытство и знание Python.

Источник.

    Большие данные

    IT

    Машинное обучение

    Технологии

Источник: rb.ru

Рекомендованные статьи