Data science темы дипломов

Контакты

Учебный офис
График работы: с 10:00 до 18:30.

109028, г. Москва, АУК «Покровка»,
ул. Покровский бульвар, д. 11, корпус S, каб. S807

Плужникова Ирина Геннадьевна,
начальник отдела, менеджер
Телефон: +7(495)772-95-90 доб. 27330
E-mail: ipluzhnikova@hse.ru

Филонова Екатерина Олеговна, методист
Телефон: +7(495)772-95-90 доб. 27329
E-mail: efilonova@hse.ru

Примеры тем дипломных работ

  • Исследования в области оптимизации работы поисковых систем (определение дубликатов страниц в результатах поиска)
  • Реализация метода классификации картинок на картинки-сканы документов и прочие изображения
  • Создание системы автоматической классификации сайтов по городам и странам
  • Составление вероятностной модели появления комментариев к записям в блогах
  • Определение пола пользователя по запросному поведению
  • Создание промышленной версии фильтра нежелательного контента

Если вы заметили в тексте ошибку, выделите её и нажмите Ctrl+Enter.

Маркетинговое продвижение медицинских услуг с применением социальных сетей в современных экономических условиях (на примере ООО «Медицинский центр на Минской»)

1206365, Дипломная работа, Анализ данных в социологии и маркетинге // направления подготовки «Социология», 73 с., 2022 год, 70%

Учет и анализ кредиторской задолженности ООО «Сабинский лесхоз»

9101317, Дипломная работа, Бухгалтерский учет, 68 с., 2019 год, 77%

Организация системы продаж на предприятии ООО «Альбэкс»

9102623, Дипломная работа, Менеджмент, 83 с., 2020 год, 78%

Установление фактов, имеющих юридическое значение

9901033, Дипломная работа, Гражданский процесс, 52 с., 2018 год, 70%

Анализ методических подходов к оценке стоимости трансферов игроков

1105659, Дипломная работа, Спортивный менеджмент, 67 с., 2017 год, 84%

Анализ и оценка тенденций развития мирового рынка минеральных удобрений

9105789, Дипломная работа, Экономика, 113 с., 2022 год, 70%

Анализ конкурентоспособности предприятия ООО «Амадеус»

9102615, Дипломная работа, Экономика предприятия, 66 с., 2020 год, 78%

Анализ динамики вкладов физических лиц (только глава 3)

1505212, Дипломная работа, Статистика, 33 с., 2015 год, 90%

Анализ особенностей управления персоналом в таможенных органах

1102678, Дипломная работа, Таможенное дело, 87 с., 2011 год, 86%

Анализ системы кадровой безопасности организации ПАО «Газпром»

9105895, Дипломная работа, Экономическая безопасность, 100 с., 2023 год, 72%

Скорее всего мы уже написали работу на твою тему. Проверь!

Прогнозирование конечных свойств новых композиционных материалов

Выпускная квалификационная работа по курсу «Data Science»

в Образовательном Центре МГТУ им. Н.Э. Баумана по теме:

«Прогнозирование конечных свойств новых материалов (композиционных материалов)».

Целью данной работы является разработка пользовательского приложения для прогнозирования характеристики конечных свойств новых композиционных материалов.

1). В процессе исследования изучены теоретические основы и методы решения поставленной задачи:
Спрогнозировать по входным параметрам ряд конечных свойств получаемых композиционных материалов при следующих используемых признаках:

•	Соотношение матрица-наполнитель
•	Плотность, кг/м3
•	Модуль упругости, ГПа
•	Количество отвердителя, м.%
•	Содержание эпоксидных групп,%_2
•	Температура вспышки, С_2
•	Поверхностная плотность, г/м2
•	Потребление смолы, г/м2
•	Прочность при растяжении, МПа
•	Потребление смолы, г/м2
•	Угол нашивки, град
•	Шаг нашивки
•	Плотность нашивки

2). Ознакомление с элементами, составляющими композитные материалы.

3). Проведен разведочный анализ и представлена визуализация предложенных данных. Представлены гистограммы распределения каждой из переменной, диаграммы ящика с усами, попарные графики рассеяния точек. В таблице представлены для каждой колонки среднее, медианное значение, проведен анализ и исключены выбросы, проверена выборка на наличие пропусков.

4). Проведена предобработка данных (удалены шумы, нормализация и т.д.).

5). Обучено нескольких моделей для прогноза модуля упругости при растяжении и прочности при растяжении. При построении модели было 30% данных оставлено на тестирование модели, на остальных происходило обучение моделей:

  • методом опорных векторов

  • методом случайного леса

  • методом линейной регрессии

  • методом градиентного бустинга

  • методом К ближайших соседей

  • методом деревья решений

  • методом стохастического градиентного спуска

  • методом многослойного перцептрона

  • методом лассо регрессии

6). Написаны 2 нейронные сети, которые будет рекомендовать соотношение «матрица-наполнитель».

7). Разработано пользовательское приложение на Flask, выдаваемое прогноз (Выходные данные (прогнозируемы) — Соотношение «матрица — наполнитель»).

8). Оценена точность модели на тренировочном и тестовом датасете.

9). Создан репозиторий в GitHub и размещен код исследования.

10). Оформлен данный файл README

Входные и выходные данные представлены в нормализованном виде.
В ходе исследования было доказано, что взаимосвязь между переменными есть, но из-за маленького начального датасета точность прогноза не высока. Полученный результат является лишь шаблоном для создания реальной модели прогнозирования. Если получить доступ к большему объему информации, есть вероятность, что прототип приложения будет выдавать лучшие результаты. При продложении работы над проектом, на мой взгляд, есть большая вероятность реализовать новые методы и подходы.

Структура репозитория:

Datasets — папка с 2 входными файлами (X_bp.xlsx — Первый датасет, X_nup.xlsx — Второй датасет (с нашивками))

Itog — папка в 2 «чистыми» данными (без шумов и выбросов), с которыми работаем над исследованием и приложением

App — папка с файлами для корректной работы пользовательского приложения, включая само приложение

Materials basalt — папка с некоторыми материалами в pdf по базальтопластику и композитным материалам

Подробный план работы.docx — файл с последовательностью работы над ВКР

Evdokimov O.G. BKP_final.pdf — код работы, выгруженный в pdf

Итоговый проект МГТУ DS требования.docx — файл с требованиями к оформлению работы и всеми задачами

Evdokimov O.G. BKP_final_1.ipynb — начало кода

Evdokimov O.G. BKP_final_2.ipynb — продолжение кода

Evdokimov O.G. BKP_final_3.ipynb — завершение кода

Evdokimov O.G. BKP_final_1.html — первая часть кода в html

Evdokimov O.G. BKP_final_2.html — вторая часть кода в html

Evdokimov O.G. BKP_final_3.html — третья часть кода в html

Evdokimov O.G. BKP_final_1.pdf — первая часть кода в pdf

Evdokimov O.G. BKP_final_2.pdf — вторая часть кода в pdf

Evdokimov O.G. BKP_final_3.pdf — третья часть кода в pdf

BKP_Evdokimov_presentazia_final.pdf — презентация ВКР в формате pdf для защиты

BKP_Evdokimov_presentazia_final.pptx — презентация ВКР для защиты в формате pptx

Пояснительная записка Евдокимов О.Г..docx — описание работы на 39 стр в формате docx

Пояснительная записка Евдокимов О.Г..pdf — описание работы на 39 стр а формате pdf

Инструкция использования приложения:

Приложение позволяет решать задачу прогнозирования «Соотношение матрица наполнитель».
Для получения прогноза необходимо

а) • запустить app.py,

б) • совершить запуск всех ячеек,

в) • в появившейся строке ( * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)) — нажать на ссылку: http://127.0.0.1:5000/.

г) • В новом открывшемся окне (сайте) ввести 12 входных параметров и нажать «Готово».

д) • в специальном разделе появится результат в виде числа с плавающей точкой.

Автор: Евдокимов Олег Геннадьевич

Выпускная квалификационная работа по программе повышения квалификации «Data Science» в обучающем центре МГТУ им. Н. Э. Баумана
2022 г.

#UPD. В работе есть неточности. Где-то описки, где-то опечатки. Замечаю и исправляю их со временем. Возможно, в данный момент не запускается приложение, но это не точно.

1. Подготовить проект, который необходимо будет представить на защите.

2. Подготовить пояснительную записку. Объем записки 30 страниц.

Структура:

1. Аналитическая часть

1.1. Постановка задачи.

1.2. Описание используемых методов

1.3. Разведочный анализ данных

2. Практическая часть

2.1. Предобработка данных

В данном разделе приводится графики распределения для каждого признака до и после нормализации, указать максимальные и минимальные значения.

2.2. Разработка и обучение модели

В данной части приводится список моделей, которые будут использоваться для прогноза модуля упругости при растяжении и прочности при растяжении.

2.3. Тестирование модели

В данном разделе показывается ошибка каждой модели на тренировочной и тестирующей части выборки. Обосновывается выбор модели.

2.4. Написать нейронную сеть, которая будет рекомендовать соотношение матрица.

Описывается выбранная архитектура нейронной сети и ее результаты.

2.5. Разработка приложения

Описать функционал приложения и краткую инструкцию использования.

2.6. Создание удаленного репозитория и загрузка результатов работы на него.

Указывается страница слушателя, созданный репозиторий, коммиты в репозитории.

2. Задание

Тема: Прогнозирование конечных свойств новых материалов (композиционных материалов).

На входе имеются данные о начальных свойствах компонентов композиционных материалов (количество связующего, наполнителя, температурный режим отверждения и т.д.). На выходе необходимо спрогнозировать ряд конечных свойств получаемых композиционных материалов.

Датасет со свойствами композитов. Объединение делать по индексу тип объединения INNER

Требуется:

1) Изучить теоретические основы и методы решения поставленной задачи.

2) Провести разведочный анализ предложенных данных.Необходимо нарисовать гистограммы распределения каждой из переменной, диаграммы ящика с усами, попарные графики рассеяния точек. Необходимо также для каждой колонке получить среднее, медианное значение, провести анализ и исключение выбросов, проверить наличие пропусков.

3) Провести предобработку данных (удаление шумов, нормализация и т.д.).

4) Обучить нескольких моделей для прогноза модуля упругости при растяжении и прочности при растяжении. При построении модели необходимо 30% данных оставить на тестирование модели, на остальных происходит обучение моделей. При построении моделей провести поиск гиперпараметров модели с помощью поиска по сетке с перекрестной проверкой, количество блоков равно 10.

5) Написать нейронную сеть, которая будет рекомендовать соотношение матрица-наполнитель.

6) Разработать приложение с графическим интерфейсом или интерфейсом командной строки, которое будет выдавать прогноз, полученный в задании 4 или 5 (один или два прогноза, на выбор учащегося).

7) Оценить точность модели на тренировочном и тестовом датасете.

8) Создать репозиторий в GitHub / GitLab и разместить там код исследования. Оформить файл README.

1. ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА по курсу «Data Science»

Слушатель: Алексеева Анна Александровна

2. Постановка задачи:

Цель решения задачи: прогнозировать характеристики композиционного
материала на основе имеющихся данных.
Входные данные:
— общее описание свойств композиционного материала
— два датасета, которые содержат данные о количественных
характеристиках различных свойств и составляющих композитного
материала. Всего 13 характеристик.
— постановка задач для решения с помощью методов машинного обучения:
решение задачи регрессии для прогнозирования двух из 13 представленных
характеристик
разработка рекомендательной системы (задача регрессии) для прогнозирования
показателя «Соотношение матрица-наполнитель»

3. 1 Этап. Изучение и описание датасета

Выходные переменные (исключаются в
момент решения задачи из входных):
Соотношение матрица-наполнитель
Задача регрессии 1:
Плотность, кг/м3
Модуль упругости при растяжении, Гпа
Модуль упругости, Гпа
Количество отвердителя, м
Задача регрессии 2:
Содержание эпоксидных групп,%_2
Прочность при растяжении, Мпа
Температура вспышки, С_2
Поверхностная плотность, г/м2
Разработка рекомендательной системы:
Модуль упругости при растяжении, Гпа
Соотношение матрица-наполнитель
Прочность при растяжении, Мпа
Потребление смолы, г/м2
Первый шаг в обработке данных:
Объединение датасетов по индексу с
отсечением последних 17 строк второго
датасета
Входные переменные:
Угол нашивки, град
Шаг нашивки
Плотность

4. 2 Этап. Разведочный анализ данных

Использованы методы описательной статистики.
Метод describe(). Выявлена одна дискретная величина, отсутствие
пропусков в данных.
Нормальное распределение
Распределение со смещением вправо

5. 2 Этап. Разведочный анализ данных

Поиск выбросов и правило трех
сигм
Диаграмма «Ящик с усами» с наличием
выбросов в стороне больших значений
Диаграмма Ящик с усами с наличием
выбросов с двух сторон.

6. 2 Этап. Разведочный анализ данных Тепловая карта коэффициентов корреляции

7. 3. Этап. Предобработка данных

1. Расчет количества выбросов и удаление выбросов
2. Нормализация и стандартизация данных
3. Выявление внутренних невидимых факторов, которые будут влиять на
модель с помощью метода главных компонент и факторного анализа
Пример факторного анализа на 4 фактора:

8. 4 Этап. Решение задачи регрессии

Разделение выборки на обучающую и тестовую:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
Линейная регрессия:
model_LN_1 = LinearRegression()
model_LN_1.fit(X_train, y_train)
y_pred = model_LN_1.predict(X_test)

9. 4 Этап. Решение задачи регрессии

Случайный лес:
random_forest_tuning = RandomForestRegressor(random_state = 42)
param_grid = {
‘n_estimators’: [20, 40, 60],
‘max_features’: [‘auto’, ‘sqrt’, ‘log2’],
‘max_depth’ : [3,4,5,6]
}
GSCV = GridSearchCV(estimator=random_forest_tuning, param_grid=param_grid,
cv=10, verbose=0)
GSCV.fit(X_train, y_train)
GSCV.best_params_

10. 5 Этап. Оценка качества моделей для задачи регрессии

Средняя абсолютная ошибка:
σ

Data Science – популярное направление в IT, о котором сейчас говорят все. Но далеко не каждый понимает, чем же на практике занимаются дата-сайентисты. Если кратко, они обрабатывают огромные массивы данных (настолько, что не влазят в таблицу Excel) и на их основе создают алгоритмы для решения разных задач – от составления прогнозов погоды и систем рекомендаций музыкальных сервисов до разработки умных чат-ботов и проведения генетических исследований.

На квалифицированных data science-специалистов огромный спрос среди крупных компаний. Интересная работа, отсутствие рутины и высокие зарплаты заставляют задуматься о смене работы людей не только с техническим образованием, но и гуманитариев. Однако ни те, ни другие не знают, как подступиться к профессии дата-сайентиста: куда пойти учиться, как устроиться на работу и что в итоге придется делать.

Мы поговорили с тремя выпускниками SkillFactory, прошедшими курс по Data Science, и выяснили, почему они решились на перемены в жизни, совпали ли ожидания от новой профессии с реальностью и с какими сложностями им пришлось столкнуться во время работы и учебы.

Савелий – 17 лет

Почему я выбрал Data Science

Все профессии, которые я знал в детстве, мне не особо нравились, зато меня всегда привлекали компьютеры. В 6 классе я заинтересовался программированием и стал изучать языки C++ и Python. Можно сказать, что к 9 классу у меня уже были довольно глубокие знания по написанию кода.

Еще тогда я понял, что если хочу развиваться в IT-сфере, одного программирования недостаточно. В тот момент мне предложили поучаствовать в школьной олимпиаде, связанной с Data Science. Работа с массивами данных привлекла меня тем, что требует творческого подхода – для каждой задачи надо подобрать оригинальное решение. Этим Data Science отличается от разработки софта, где используют примерно одинаковые методы. Но это мое субъективное мнение.

О сложностях в учебе

По Data Science совсем мало обучающих курсов и действительно полезной информации в открытом доступе. Решение учиться на дата-сайентиста в SkillFactory пришло после того, как я прошел у них трехмесячный курс по программированию на Python. Мне понравился удаленный формат и то, как структурирована учебная программа.

Я уже умел кодить и был уверен в своих скиллах, поэтому единственное, что смущало на курсе – это раздел с высшей математикой. Она давалась мне очень тяжело, так что иногда я обращался за помощью к менторам. Их ответ мог прийти моментально или на следующий день.

Еще мне помогали другие ученики. Вообще, на курсе много командных конкурсов, потому что дата-сайентист практически никогда работает один. Темы контестов полностью связаны с Data Science. Например, было соревнование по анализу временных рядов.

Как дипломный проект помог прокачать скиллы дата-сайентиста

За почти два года, что я занимаюсь Data Science, самым сложным заданием для меня был дипломный проект в SkillFactory – «Предсказание цен на недвижимость с использованием машинного обучения». Программа, которую я сделал, брала данные по определенному объекту: местоположение, этажность, площадь квартир и количество комнат – и строила по ним прогнозы стоимости этого жилья.

Самой трудной, но и самой интересной частью проекта был непростой формат данных. Легко работать с информацией в однотипном формате. Например, когда числа аккуратно собраны в таблицу. Но если есть какие-то подписи или символы, их нужно очищать, а это очень тяжело. По сути, я столкнулся с огромным массивом неструктурированных данных.

Фрагмент презентации дипломного проекта Савелия

Дипломный проект занял очень много времени, но именно он развил навыки, которых раньше не хватало. Задание заставило применять самые изощренные решения, до которых я вряд ли бы додумался раньше.

Я стал детальнее разбираться во всех «фичах» Data Science и овладел новыми инструментами, например, hyperopt для автоматического подбора гиперпараметров или spellchecker для исправления орфографии в словах. Также я укрепил знания по материалам, которые на курсе мне были не совсем понятны.

Формат диплома был для меня в новинку, так что в основном менторы помогали с оформлением презентации. На каждом этапе работы я получал список ошибок и недочетов, которые нужно исправить. То же самое касается кода. Всегда можно было попросить о помощи, но я хотел разобраться во всем сам. По крайней мере там, где это было возможно.

О карьере

На курсе SkillFactory есть большой блок, посвященный трудоустройству. Нам рассказали о том, как правильно составить резюме, оформить портфолио и найти подходящую работу.

После окончания вуза я хочу работать в компании, которая занимается производством деталей для компьютеров, например, в Nvidia. Если не получится сразу найти работу по душе, поступлю в магистратуру за границей и буду развивать карьеру там. Мне не интересны руководящие позиции. Я просто люблю свое дело и хочу развивать свои навыки дата-сайентиста, чтобы в будущем создать что-то действительно полезное.

Сергей – 41 год

О потенциале Data Science

Я окончил факультет автоматизации в Сибирском государственном индустриальном университете. В IT-сферу пришел 14 лет назад, начинал с внедрения информационных систем для бизнеса. Последние 5 лет занимаю должность проектного менеджера.

В компании, где я работаю, используют большие данные и автоматизацию, поэтому во время разработки проектов часто сталкивался с методами машинного обучения. Я заметил, что не хватает людей со знаниями и навыками, которые позволят применить новые технологии по максимуму. В итоге захотелось немного уйти от проектного менеджмента в более функциональную область Data Science.

Я увидел потенциал этого направления: алгоритмы, созданные на основе данных, могут быстро решать самые сложные задачи бизнеса без привлечения большого количества людей. Исключаются ошибки в расчетах и прогнозах из-за запутанной коммуникации или банальной усталости.

Как я оказался на курсе SkillFactory

Я пришел к выводу, что если совмещу бэкграунд проектной работы и скиллы по Data Science, то стану востребованнее на рынке труда в будущем. Поиск подходящих курсов не был долгим: я увидел рекламу SkillFactory, изучил программу специализации Data Science, спросил у знакомого о качестве знаний, которые дает школа, и оплатил занятия.

Курс длился год. Я договорился на работе, что буду учиться по 2 часа день. В выходные занимался еще по 3–4 часа. Занятия поделены на 6 блоков: Python для анализа данных, математика, теория вероятности, статистика, машинное обучение и продуцирование решения, или science in production.

Про алгоритм, который избавил людей от рутинной работы

Через 4–5 месяцев после начала учебы я предложил решить одну задачу по работе: считалось, что ее трудно автоматизировать и нужен ручной труд с огромными временными затратами. Для реализации проекта я уже использовал знания, полученные на курсе.

Модель машинного обучения, которую я создал, помогает считать размер выплат дистрибьюторам. Для расчетов мы брали данные по продажам из торговых точек. Сложность в том, что в один магазин товар могут поставлять разные фирмы. При этом в отчетах данные по торговым точкам необходимо отнести к конкретному дистрибьютору.

Раньше филиалы дистрибьюторов вручную проставляли в автоматически сформированном отчете с торговыми точками. Теперь этот отчет проходит через алгоритм, и на выходе получается заполненная таблица. В ней уже указан номер и название филиала, на который нужно отнести продажи магазина. Сотруднику остается лишь убедиться в отсутствии неточностей, а возможные ошибки выделяются цветом.

Фрагмент презентации дипломного проекта Сергея

Люди на работе говорили, что проект получился классным и здорово им помогает. В тот момент я решил, что нужно еще больше времени посвятить учебе и ушел в административный отпуск на полгода.

О дипломном проекте и перспективах в профессии

Этот алгоритм, созданный изначально для работы, и стал моим дипломным проектом на курсе Data Science. Новые знания и проверка ментора SkillFactory помогли его улучшить. Я переписал саму программу объектно-ориентированным подходом, добавил логирование информации и запуск с ключами, как этого требуют стандарты качества в сфере Data Science. Хотелось сделать то, что не стыдно показать и заявить: «Это мой дипломный проект, и я горжусь им».

Когда я вернулся из отпуска, к новой команде присоединился уже в роли дата-сайентиста. Теперь буду заниматься моделированием и предсказанием роста продаж.

В будущем я вижу себя человеком, который сможет выполнять все работы в области больших данных и машинного обучения. Теперь у меня есть широкий кругозор в этой сфере и способность видеть задачи, которые можно решить с помощью Data Science. Главное – не переставать искать что-то новое: следить за изменениями в индустрии, пользоваться лучшими инструментами и уметь пересматривать привычные подходы к работе.

Может ли гуманитарий стать дата-сайентистом

Часто люди могут не знать себя. Бывает, что идут в гуманитарный вуз только из-за обстоятельств. Самая банальная причина – избежать службы в армии. На деле же оказывается, что человек «технарь» до мозга костей, и он прекрасно раскрывается в IT.

На потоке по Data Science, где я учился, было несколько гуманитариев. Некоторые из них дошли до конца обучения. Если есть стремление, открыты все дороги. Но, конечно, таким людям будет сложнее. Для успешной учебы им нужно самостоятельно заполнять пробелы в знаниях – математике и программировании.

Виктория – 43 года

О первом знакомстве с Data Science

Я получила образование инженера-экономиста в Норильске и там же начала работать в телекоммуникационной компании. В ней я узнала о целевом маркетинге и предсказательных моделях. Тогда я еще не занималась аналитикой, а просто изучала презентации из Москвы. Меня все это захватило, но я понимала, что для профессиональной работы с данными нужно еще поучиться, так что поступила на статистический факультет Московского университета экономики.

Когда я переехала в Санкт-Петербург в начале 10-х, аналитики были не сильно востребованы. Цифровизация была еще не настолько глобальной, как сейчас. Правда, и мои навыки были больше теоретическими, а среднему бизнесу не хватало вычислительных мощностей. Поэтому практическое применение знаниям тогда находилось редко.

С тех пор уже 7 лет я работаю в ресторанном бизнесе, где анализирую продажи и клиентскую базу. Чтобы актуализировать свои знания и закрепить их на практике, я решила освоить профессию дата-сайентиста в SkillFactory.

От аналитики на Python к Data Science

О SkillFactory я узнала благодаря рекламе в Facebook. Увидела баннер с предложением обучиться на курсе «Анализ данных на Python». У меня в голове как раз крутилась мысль, что для работы в Data Science необходимо освоить этот язык.

После обучения я провела ручной анализ данных с использованием Python. Метод помог выявить потребительские инсайты, которые сильно отличались от тех, что продвигали наши партнеры из Москвы. Например, мы были уверены, что у нас много постоянных клиентов, а на деле оказалось, что большинство посетителей приходили в ресторан лишь один раз. Руководство сильно удивилось такому открытию.

Мне стало понятно, что в SkillFactory ты получаешь по-настоящему полезные прикладные навыки, поэтому для обучения Data Science никакую другую образовательную платформу я не рассматривала.

Что такое метод кластеризации и как он помогает бизнесу

Тема моего дипломного проекта по Data Science тоже была связана с клиентской базой нашего ресторана. Она была скорее исследовательской. Я делала сегментацию посетителей методом кластеризации. Проще говоря, с помощью алгоритма я делила клиентов на несколько групп, учитывая их потребительское поведение.

Метод кластеризации нравится мне тем, что он творческий. Никогда не знаешь, как алгоритм разделит людей. Внутри одной группы клиенты чем-то похожи, а в разных группах люди отличаются: кто-то ходит в заведение определенное количество раз в месяц, одни всегда тратят примерно одинаковую сумму, другие – часто заказывают конкретное блюдо. И только когда читаешь описание поведения, понимаешь, по каким параметрам алгоритм сформировал группы.

Фрагмент презентации дипломного проекта Виктории. Цветами помечены разные сегменты аудитории

После уже можно приступать к интерпретации данных: выделить наиболее привлекательный сегмент аудитории, придумать, а затем смоделировать для него специальное предложение и спрогнозировать его эффективность. Причем это непрерывный процесс. Данные о клиенте постоянно анализируются. Зная, на что он реагирует, а на что нет, мы можем сделать наше следующее взаимодействие с ним еще более эффективным.

В том же Excel невозможно работать методом кластеризации. Все это я делаю в Python алгоритмами, которым меня научили в SkillFactory на курсе по Data Science.

О впечатлениях от курса

Я благодарна школе, что она оставляет выпускникам доступ к своим материалам после окончания курса. Бывало, что некоторые темы приходилось откладывать, чтобы сосредоточиться на практике. Когда с дедлайнами становилось свободнее, можно было посмотреть те же самые уроки с новым уровнем понимания.

Даже преподаватели говорили, что не с первого раза все может быть ясно. Но это не повод останавливаться, потому что при должных усилиях со всем получается разобраться. Еще понравилось то, что SkillFactory прислушиваются к ученикам. Например, сейчас расширили тему нейронных сетей. В нее добавили больше примеров, так что в моих планах пройти этот блок еще раз.

Какие скиллы важны для дата-сайентиста

Если говорить о hard skills, то дата-сайентисту необходимо знать математику, статистику и алгоритмы машинного обучения. Но также важно уметь доносить свои мысли до других людей простым языком – это уже из области soft skills.

Помимо работы с данными, дата-сайентист участвует в мозговых штурмах, где генерируют идеи, а затем рассматривают их эффективность для компании. Порой свои предложения нужно объяснить людям, которые не настолько технически подкованы, поэтому важно уметь говорить на одном языке с ними.

Если вы хотите освоить самую востребованную профессию 2020 года, записывайтесь на курс «Data Science с нуля» от SkillFactory.

За два года вы прокачаете скиллы дата-сайентиста до уровня middle и будете претендовать на вакансии со средней зарплатой 170 000 рублей. С первых дней обучения тьютор поможет вам определить карьерные цели и не сойти с пути в течение всей программы. В конце обучения в карьерном центре SkillFactory помогут составить резюме и начать проходить собеседования.

На пути к работе мечты остался лишь один шаг – записаться на курс «Data Science с нуля» с 40% скидкой.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *