Дата-сайентисту очень полезно проводить самостоятельные исследования. Это не только отличная практика, но и способ доказать потенциальному работодателю: вы не только знаете названия библиотек, но и владеете всеми нужными навыками. Представляем подборку несложных и интересных проектов, которые подойдут для начинающих.
Добавьте их в портфолио: 10 проектов по дата-сайенс для начинающих
Елена Лиханова
Сбор данных
Подготовка датасета — один из важнейших навыков для дата-сайентиста.
Изучив бизнес-задачу, он собирает нужные данные с помощью API или агрегатора. После этого датасет очищают и переводят в формат, который можно загрузить в модель. На это уходит больше всего времени.
Эти проекты помогут продемонстрировать владение этими навыками.
Сайт с отзывами на доставку еды
Инструкция: Zomato Web Scraping with BeautifulSoup
Язык: Python
Это интересный и практический опыт. От вас требуется создать агрегатор, который соберет все отзывы со страниц сайта и поместит их в датафрейм.
Данные можно использовать для построения модели сентимент-анализа и классифицировать отзывы, отметив их как позитивные или негативные.
Сайт с онлайн-курсами
Инструкция: Build a Web Scraper with Python in 8 Minutes
Язык: Python
Хотите пройти онлайн-курс по дата-сайенс? Чтобы выбрать лучший, не нужно листать сотни отзывов. Для этого достаточно агрегировать отзывы с сайта и загрузить их в датафрейм.
Дополнительно можно подготовить визуализацию переменных, таких как цена и рейтинг.
Также попробуйте составить модель сентимент-анализа и определить общее впечатление от каждого курса.
Бонус: сбор данных по хэштегу Twitter
Потренируйтесь собирать информацию при помощи API или иного внешнего инструмента. Этот опыт обязательно пригодится. Большинство компаний, которые используют информацию от третьих лиц, часто покупают доступ к API, и дата-сайентист собирает данные с помощью внешнего интерфейса.
В качестве тренировки используйте API Twitter и создайте датафрейм с данными по определенному хэштегу.
Разведочный анализ данных
После подготовки датасета нужно провести анализ всех переменных: оценить, как они распределяются и взаимодействуют друг с другом. Также важно уметь отвечать на вопросы с помощью доступных данных.
Дата-сайентист очень часто выполняет подобные задачи — пожалуй, даже чаще, чем занимается предиктивным моделированием.
Определение факторов риска сердечных заболеваний
Датасет: The Framingham Heart Study
Инструкция: The Framingham Heart Study: Decision Trees
Язык: Python или R
В наборе данных содержатся такие предикторы, как холестерин, возраст, диабет и семейная история болезни, которые помогают прогнозировать, когда пациент может испытывать проблемы с сердцем.
С помощью Python или R можно проанализировать связи и ответить на следующие вопросы.
-
Являются ли диабетики более склонными к развитию сердечных заболеваний в раннем возрасте?
Существует ли определенная демографическая группа, у которой риск возникновения сердечных заболеваний выше, чем у других?
Снижают ли частые упражнения риск возникновения сердечных заболеваний?
Правда ли, что курильщики более склоны к возникновению сердечных заболеваний?
Всемирный доклад о счастье
Датасет: World Happiness Report
Инструкция: World Happiness Report EDA
Язык: Python
Составители Всемирного доклада о счастье отслеживают 6 метрик — продолжительность жизни, экономику, социальную поддержку, отсутствие коррупции, свободу и щедрость.
Вот что можно узнать, анализируя набор этих данных.
-
Какая страна самая счастливая в мире?
Какие факторы больше влияют на счастье страны?
Уровень счастья в мире растет или падает?
Самые успешные дата-сайентисты, как правило, отличаются любопытством: они постоянно ищут связи и задают вопросы. Проекты, подобные этому, помогают улучшить аналитическое мышление и отточить необходимые навыки.
Визуализация данных
На работе дата-сайентист регулярно должен представлять свои результаты не только техническим специалистам, но и клиентам или руководству. Проще всего сделать этого с помощью визуализации.
Интерактивная панель поможет лучше продемонстрировать ваши выводы, потому что графики понятны с первого взгляда.
Многие компании указывают визуализацию данных как необходимый навык для вакансий, связанных с дата-сайенс.
Статистика Covid-19
Датасет: Covid-19 Data Repository at Johns Hopkins University
Инструкция: Building Covid-19 Dashboard with Python and Tableau
Язык: Python
Сначала нужно будет обработать набор данных при помощи Python. Для оформления результатов используйте Tableau.
Это один из самых востребованных инструментов визуализации данных, знание которого необходимо для большинства стартовых позиций в дата-сайенс.
Если в вашем портфолио будет присутствовать проект с Tableau, это поможет вам выделиться среди других кандидатов и продемонстрировать свое владение этой программой.
Рейтинг фильмов с портала IMDB
Датасет: IMDb Top Rated Movies
Инструкция: Exploring IMDb Top 250 with Tableau
Попробуйте поэкспериментировать с данными IMDB и создать интерактивную панель с помощью Tableau.
Одно из преимуществ этого инструмента — возможность загрузить работу в Tableau Public и демонстрировать ее, просто отправив ссылку. Потенциальный работодатель сможет взаимодействовать с дэшбордом, что послужит дополнительной причиной, вызывающей интерес. Это еще на шаг приблизит вас к работе мечты.
Машинное обучение
Наконец, от соискателя требуется представить проекты по машинному обучению. Лучше всего использовать контролируемый и неконтролируемый тип взаимодействия.
Сентимент-анализ отзывов на еду с Amazon
Датасет: Amazon Fine Food Reviews Dataset
Инструкция: A beginner’s guide to sentiment analysis with Python
Язык: Python
Сентимент-анализ — важный элемент машинного обучения. Бизнес часто использует его, чтобы оценить общую реакцию потребителей на продукты.
Покупатели обычно обсуждают покупки в социальных сетях или специализированных форумах. Эти данные можно собрать и проанализировать, чтобы определить, как разные люди реагируют на разные маркетинговые стратегии. Это поможет изменить позиционирование или целевую аудиторию.
Сейчас практически каждый бизнес работает в социальных сетях, поэтому такой проект обязательно должен быть в портфолио начинающего дата-сайентиста.
Прогноз продолжительности жизни
Датасет: Life Expectancy Dataset
Инструкция: Life Expectancy Regression
Язык: Python
В этом проекте вам предстоит составить прогноз продолжительности жизни человека, исходя из таких переменных, как образование, смертность среди младенцев и взрослых, а также употребление алкоголя.
Важно, чтобы в портфолио были проекты из нескольких тематик, чтобы показать опыт в разнообразных направлениях.
Анализ статистики рака груди
Датасет: Breast Cancer Dataset
Инструкция: Cluster analysis of breast cancer dataset
Язык: Python
В этом проекте вам предстоит использовать алгоритм кластеризации k-средних, чтобы определить присутствие рака молочной железы по целевым атрибутам.
Кластеризация k-средних — это неконтролируемый тип взаимодействия. Важно иметь такие проекты в портфолио, потому что в основном вам предстоит работать с неразмеченными данными.
Даже большие наборы данных, собранные компаниями, как правило, не имеют разметки. Иногда дата-сайентисту предстоит самостоятельно размечать датасет, используя инструменты неконтролируемого обучения.
Портфолио должно включать проекты, которые демонстрируют весь спектр необходимых навыков — сбор данных, их анализ, визуализацию и машинное обучение. К счастью, в открытом доступе есть масса инструкций и обучающих материалов. От начинающего эксперта по данным требуется лишь любопытство и знание Python.
Источник.
Источник: