Контакты
Учебный офис
График работы: с 10:00 до 18:30.
109028, г. Москва, АУК «Покровка»,
ул. Покровский бульвар, д. 11, корпус S, каб. S807
Плужникова Ирина Геннадьевна,
начальник отдела, менеджер
Телефон: +7(495)772-95-90 доб. 27330
E-mail: ipluzhnikova@hse.ru
Филонова Екатерина Олеговна, методист
Телефон: +7(495)772-95-90 доб. 27329
E-mail: efilonova@hse.ru
Примеры тем дипломных работ
- Исследования в области оптимизации работы поисковых систем (определение дубликатов страниц в результатах поиска)
- Реализация метода классификации картинок на картинки-сканы документов и прочие изображения
- Создание системы автоматической классификации сайтов по городам и странам
- Составление вероятностной модели появления комментариев к записям в блогах
- Определение пола пользователя по запросному поведению
- Создание промышленной версии фильтра нежелательного контента
Если вы заметили в тексте ошибку, выделите её и нажмите Ctrl+Enter.
1206365, Дипломная работа, Анализ данных в социологии и маркетинге // направления подготовки «Социология», 73 с., 2022 год, 70%
9101317, Дипломная работа, Бухгалтерский учет, 68 с., 2019 год, 77%
9102623, Дипломная работа, Менеджмент, 83 с., 2020 год, 78%
9901033, Дипломная работа, Гражданский процесс, 52 с., 2018 год, 70%
1105659, Дипломная работа, Спортивный менеджмент, 67 с., 2017 год, 84%
9105789, Дипломная работа, Экономика, 113 с., 2022 год, 70%
9102615, Дипломная работа, Экономика предприятия, 66 с., 2020 год, 78%
1505212, Дипломная работа, Статистика, 33 с., 2015 год, 90%
1102678, Дипломная работа, Таможенное дело, 87 с., 2011 год, 86%
9105895, Дипломная работа, Экономическая безопасность, 100 с., 2023 год, 72%
Скорее всего мы уже написали работу на твою тему. Проверь!
Прогнозирование конечных свойств новых композиционных материалов
Выпускная квалификационная работа по курсу «Data Science»
в Образовательном Центре МГТУ им. Н.Э. Баумана по теме:
«Прогнозирование конечных свойств новых материалов (композиционных материалов)».
Целью данной работы является разработка пользовательского приложения для прогнозирования характеристики конечных свойств новых композиционных материалов.
1). В процессе исследования изучены теоретические основы и методы решения поставленной задачи:
Спрогнозировать по входным параметрам ряд конечных свойств получаемых композиционных материалов при следующих используемых признаках:
• Соотношение матрица-наполнитель
• Плотность, кг/м3
• Модуль упругости, ГПа
• Количество отвердителя, м.%
• Содержание эпоксидных групп,%_2
• Температура вспышки, С_2
• Поверхностная плотность, г/м2
• Потребление смолы, г/м2
• Прочность при растяжении, МПа
• Потребление смолы, г/м2
• Угол нашивки, град
• Шаг нашивки
• Плотность нашивки
2). Ознакомление с элементами, составляющими композитные материалы.
3). Проведен разведочный анализ и представлена визуализация предложенных данных. Представлены гистограммы распределения каждой из переменной, диаграммы ящика с усами, попарные графики рассеяния точек. В таблице представлены для каждой колонки среднее, медианное значение, проведен анализ и исключены выбросы, проверена выборка на наличие пропусков.
4). Проведена предобработка данных (удалены шумы, нормализация и т.д.).
5). Обучено нескольких моделей для прогноза модуля упругости при растяжении и прочности при растяжении. При построении модели было 30% данных оставлено на тестирование модели, на остальных происходило обучение моделей:
-
методом опорных векторов
-
методом случайного леса
-
методом линейной регрессии
-
методом градиентного бустинга
-
методом К ближайших соседей
-
методом деревья решений
-
методом стохастического градиентного спуска
-
методом многослойного перцептрона
-
методом лассо регрессии
6). Написаны 2 нейронные сети, которые будет рекомендовать соотношение «матрица-наполнитель».
7). Разработано пользовательское приложение на Flask, выдаваемое прогноз (Выходные данные (прогнозируемы) — Соотношение «матрица — наполнитель»).
8). Оценена точность модели на тренировочном и тестовом датасете.
9). Создан репозиторий в GitHub и размещен код исследования.
10). Оформлен данный файл README
Входные и выходные данные представлены в нормализованном виде.
В ходе исследования было доказано, что взаимосвязь между переменными есть, но из-за маленького начального датасета точность прогноза не высока. Полученный результат является лишь шаблоном для создания реальной модели прогнозирования. Если получить доступ к большему объему информации, есть вероятность, что прототип приложения будет выдавать лучшие результаты. При продложении работы над проектом, на мой взгляд, есть большая вероятность реализовать новые методы и подходы.
Структура репозитория:
Datasets — папка с 2 входными файлами (X_bp.xlsx — Первый датасет, X_nup.xlsx — Второй датасет (с нашивками))
Itog — папка в 2 «чистыми» данными (без шумов и выбросов), с которыми работаем над исследованием и приложением
App — папка с файлами для корректной работы пользовательского приложения, включая само приложение
Materials basalt — папка с некоторыми материалами в pdf по базальтопластику и композитным материалам
Подробный план работы.docx — файл с последовательностью работы над ВКР
Evdokimov O.G. BKP_final.pdf — код работы, выгруженный в pdf
Итоговый проект МГТУ DS требования.docx — файл с требованиями к оформлению работы и всеми задачами
Evdokimov O.G. BKP_final_1.ipynb — начало кода
Evdokimov O.G. BKP_final_2.ipynb — продолжение кода
Evdokimov O.G. BKP_final_3.ipynb — завершение кода
Evdokimov O.G. BKP_final_1.html — первая часть кода в html
Evdokimov O.G. BKP_final_2.html — вторая часть кода в html
Evdokimov O.G. BKP_final_3.html — третья часть кода в html
Evdokimov O.G. BKP_final_1.pdf — первая часть кода в pdf
Evdokimov O.G. BKP_final_2.pdf — вторая часть кода в pdf
Evdokimov O.G. BKP_final_3.pdf — третья часть кода в pdf
BKP_Evdokimov_presentazia_final.pdf — презентация ВКР в формате pdf для защиты
BKP_Evdokimov_presentazia_final.pptx — презентация ВКР для защиты в формате pptx
Пояснительная записка Евдокимов О.Г..docx — описание работы на 39 стр в формате docx
Пояснительная записка Евдокимов О.Г..pdf — описание работы на 39 стр а формате pdf
Инструкция использования приложения:
Приложение позволяет решать задачу прогнозирования «Соотношение матрица наполнитель».
Для получения прогноза необходимо
а) • запустить app.py,
б) • совершить запуск всех ячеек,
в) • в появившейся строке ( * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)) — нажать на ссылку: http://127.0.0.1:5000/.
г) • В новом открывшемся окне (сайте) ввести 12 входных параметров и нажать «Готово».
д) • в специальном разделе появится результат в виде числа с плавающей точкой.
Автор: Евдокимов Олег Геннадьевич
Выпускная квалификационная работа по программе повышения квалификации «Data Science» в обучающем центре МГТУ им. Н. Э. Баумана
2022 г.
#UPD. В работе есть неточности. Где-то описки, где-то опечатки. Замечаю и исправляю их со временем. Возможно, в данный момент не запускается приложение, но это не точно.
1. Подготовить проект, который необходимо будет представить на защите.
2. Подготовить пояснительную записку. Объем записки 30 страниц.
Структура:
1. Аналитическая часть
1.1. Постановка задачи.
1.2. Описание используемых методов
1.3. Разведочный анализ данных
2. Практическая часть
2.1. Предобработка данных
В данном разделе приводится графики распределения для каждого признака до и после нормализации, указать максимальные и минимальные значения.
2.2. Разработка и обучение модели
В данной части приводится список моделей, которые будут использоваться для прогноза модуля упругости при растяжении и прочности при растяжении.
2.3. Тестирование модели
В данном разделе показывается ошибка каждой модели на тренировочной и тестирующей части выборки. Обосновывается выбор модели.
2.4. Написать нейронную сеть, которая будет рекомендовать соотношение матрица.
Описывается выбранная архитектура нейронной сети и ее результаты.
2.5. Разработка приложения
Описать функционал приложения и краткую инструкцию использования.
2.6. Создание удаленного репозитория и загрузка результатов работы на него.
Указывается страница слушателя, созданный репозиторий, коммиты в репозитории.
2. Задание
Тема: Прогнозирование конечных свойств новых материалов (композиционных материалов).
На входе имеются данные о начальных свойствах компонентов композиционных материалов (количество связующего, наполнителя, температурный режим отверждения и т.д.). На выходе необходимо спрогнозировать ряд конечных свойств получаемых композиционных материалов.
Датасет со свойствами композитов. Объединение делать по индексу тип объединения INNER
Требуется:
1) Изучить теоретические основы и методы решения поставленной задачи.
2) Провести разведочный анализ предложенных данных.Необходимо нарисовать гистограммы распределения каждой из переменной, диаграммы ящика с усами, попарные графики рассеяния точек. Необходимо также для каждой колонке получить среднее, медианное значение, провести анализ и исключение выбросов, проверить наличие пропусков.
3) Провести предобработку данных (удаление шумов, нормализация и т.д.).
4) Обучить нескольких моделей для прогноза модуля упругости при растяжении и прочности при растяжении. При построении модели необходимо 30% данных оставить на тестирование модели, на остальных происходит обучение моделей. При построении моделей провести поиск гиперпараметров модели с помощью поиска по сетке с перекрестной проверкой, количество блоков равно 10.
5) Написать нейронную сеть, которая будет рекомендовать соотношение матрица-наполнитель.
6) Разработать приложение с графическим интерфейсом или интерфейсом командной строки, которое будет выдавать прогноз, полученный в задании 4 или 5 (один или два прогноза, на выбор учащегося).
7) Оценить точность модели на тренировочном и тестовом датасете.
8) Создать репозиторий в GitHub / GitLab и разместить там код исследования. Оформить файл README.
1. ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА по курсу «Data Science»
Слушатель: Алексеева Анна Александровна
2. Постановка задачи:
Цель решения задачи: прогнозировать характеристики композиционного
материала на основе имеющихся данных.
Входные данные:
— общее описание свойств композиционного материала
— два датасета, которые содержат данные о количественных
характеристиках различных свойств и составляющих композитного
материала. Всего 13 характеристик.
— постановка задач для решения с помощью методов машинного обучения:
решение задачи регрессии для прогнозирования двух из 13 представленных
характеристик
разработка рекомендательной системы (задача регрессии) для прогнозирования
показателя «Соотношение матрица-наполнитель»
3. 1 Этап. Изучение и описание датасета
Выходные переменные (исключаются в
момент решения задачи из входных):
Соотношение матрица-наполнитель
Задача регрессии 1:
Плотность, кг/м3
Модуль упругости при растяжении, Гпа
Модуль упругости, Гпа
Количество отвердителя, м
Задача регрессии 2:
Содержание эпоксидных групп,%_2
Прочность при растяжении, Мпа
Температура вспышки, С_2
Поверхностная плотность, г/м2
Разработка рекомендательной системы:
Модуль упругости при растяжении, Гпа
Соотношение матрица-наполнитель
Прочность при растяжении, Мпа
Потребление смолы, г/м2
Первый шаг в обработке данных:
Объединение датасетов по индексу с
отсечением последних 17 строк второго
датасета
Входные переменные:
Угол нашивки, град
Шаг нашивки
Плотность
4. 2 Этап. Разведочный анализ данных
Использованы методы описательной статистики.
Метод describe(). Выявлена одна дискретная величина, отсутствие
пропусков в данных.
Нормальное распределение
Распределение со смещением вправо
5. 2 Этап. Разведочный анализ данных
Поиск выбросов и правило трех
сигм
Диаграмма «Ящик с усами» с наличием
выбросов в стороне больших значений
Диаграмма Ящик с усами с наличием
выбросов с двух сторон.
6. 2 Этап. Разведочный анализ данных Тепловая карта коэффициентов корреляции
7. 3. Этап. Предобработка данных
1. Расчет количества выбросов и удаление выбросов
2. Нормализация и стандартизация данных
3. Выявление внутренних невидимых факторов, которые будут влиять на
модель с помощью метода главных компонент и факторного анализа
Пример факторного анализа на 4 фактора:
8. 4 Этап. Решение задачи регрессии
Разделение выборки на обучающую и тестовую:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
Линейная регрессия:
model_LN_1 = LinearRegression()
model_LN_1.fit(X_train, y_train)
y_pred = model_LN_1.predict(X_test)
9. 4 Этап. Решение задачи регрессии
Случайный лес:
random_forest_tuning = RandomForestRegressor(random_state = 42)
param_grid = {
‘n_estimators’: [20, 40, 60],
‘max_features’: [‘auto’, ‘sqrt’, ‘log2’],
‘max_depth’ : [3,4,5,6]
}
GSCV = GridSearchCV(estimator=random_forest_tuning, param_grid=param_grid,
cv=10, verbose=0)
GSCV.fit(X_train, y_train)
GSCV.best_params_
10. 5 Этап. Оценка качества моделей для задачи регрессии
Средняя абсолютная ошибка:
σ
Data Science – популярное направление в IT, о котором сейчас говорят все. Но далеко не каждый понимает, чем же на практике занимаются дата-сайентисты. Если кратко, они обрабатывают огромные массивы данных (настолько, что не влазят в таблицу Excel) и на их основе создают алгоритмы для решения разных задач – от составления прогнозов погоды и систем рекомендаций музыкальных сервисов до разработки умных чат-ботов и проведения генетических исследований.
На квалифицированных data science-специалистов огромный спрос среди крупных компаний. Интересная работа, отсутствие рутины и высокие зарплаты заставляют задуматься о смене работы людей не только с техническим образованием, но и гуманитариев. Однако ни те, ни другие не знают, как подступиться к профессии дата-сайентиста: куда пойти учиться, как устроиться на работу и что в итоге придется делать.
Мы поговорили с тремя выпускниками SkillFactory, прошедшими курс по Data Science, и выяснили, почему они решились на перемены в жизни, совпали ли ожидания от новой профессии с реальностью и с какими сложностями им пришлось столкнуться во время работы и учебы.
Савелий – 17 лет
Почему я выбрал Data Science
Все профессии, которые я знал в детстве, мне не особо нравились, зато меня всегда привлекали компьютеры. В 6 классе я заинтересовался программированием и стал изучать языки C++ и Python. Можно сказать, что к 9 классу у меня уже были довольно глубокие знания по написанию кода.
Еще тогда я понял, что если хочу развиваться в IT-сфере, одного программирования недостаточно. В тот момент мне предложили поучаствовать в школьной олимпиаде, связанной с Data Science. Работа с массивами данных привлекла меня тем, что требует творческого подхода – для каждой задачи надо подобрать оригинальное решение. Этим Data Science отличается от разработки софта, где используют примерно одинаковые методы. Но это мое субъективное мнение.
О сложностях в учебе
По Data Science совсем мало обучающих курсов и действительно полезной информации в открытом доступе. Решение учиться на дата-сайентиста в SkillFactory пришло после того, как я прошел у них трехмесячный курс по программированию на Python. Мне понравился удаленный формат и то, как структурирована учебная программа.
Я уже умел кодить и был уверен в своих скиллах, поэтому единственное, что смущало на курсе – это раздел с высшей математикой. Она давалась мне очень тяжело, так что иногда я обращался за помощью к менторам. Их ответ мог прийти моментально или на следующий день.
Еще мне помогали другие ученики. Вообще, на курсе много командных конкурсов, потому что дата-сайентист практически никогда работает один. Темы контестов полностью связаны с Data Science. Например, было соревнование по анализу временных рядов.
Как дипломный проект помог прокачать скиллы дата-сайентиста
За почти два года, что я занимаюсь Data Science, самым сложным заданием для меня был дипломный проект в SkillFactory – «Предсказание цен на недвижимость с использованием машинного обучения». Программа, которую я сделал, брала данные по определенному объекту: местоположение, этажность, площадь квартир и количество комнат – и строила по ним прогнозы стоимости этого жилья.
Самой трудной, но и самой интересной частью проекта был непростой формат данных. Легко работать с информацией в однотипном формате. Например, когда числа аккуратно собраны в таблицу. Но если есть какие-то подписи или символы, их нужно очищать, а это очень тяжело. По сути, я столкнулся с огромным массивом неструктурированных данных.
Дипломный проект занял очень много времени, но именно он развил навыки, которых раньше не хватало. Задание заставило применять самые изощренные решения, до которых я вряд ли бы додумался раньше.
Я стал детальнее разбираться во всех «фичах» Data Science и овладел новыми инструментами, например, hyperopt для автоматического подбора гиперпараметров или spellchecker для исправления орфографии в словах. Также я укрепил знания по материалам, которые на курсе мне были не совсем понятны.
Формат диплома был для меня в новинку, так что в основном менторы помогали с оформлением презентации. На каждом этапе работы я получал список ошибок и недочетов, которые нужно исправить. То же самое касается кода. Всегда можно было попросить о помощи, но я хотел разобраться во всем сам. По крайней мере там, где это было возможно.
О карьере
На курсе SkillFactory есть большой блок, посвященный трудоустройству. Нам рассказали о том, как правильно составить резюме, оформить портфолио и найти подходящую работу.
После окончания вуза я хочу работать в компании, которая занимается производством деталей для компьютеров, например, в Nvidia. Если не получится сразу найти работу по душе, поступлю в магистратуру за границей и буду развивать карьеру там. Мне не интересны руководящие позиции. Я просто люблю свое дело и хочу развивать свои навыки дата-сайентиста, чтобы в будущем создать что-то действительно полезное.
Сергей – 41 год
О потенциале Data Science
Я окончил факультет автоматизации в Сибирском государственном индустриальном университете. В IT-сферу пришел 14 лет назад, начинал с внедрения информационных систем для бизнеса. Последние 5 лет занимаю должность проектного менеджера.
В компании, где я работаю, используют большие данные и автоматизацию, поэтому во время разработки проектов часто сталкивался с методами машинного обучения. Я заметил, что не хватает людей со знаниями и навыками, которые позволят применить новые технологии по максимуму. В итоге захотелось немного уйти от проектного менеджмента в более функциональную область Data Science.
Я увидел потенциал этого направления: алгоритмы, созданные на основе данных, могут быстро решать самые сложные задачи бизнеса без привлечения большого количества людей. Исключаются ошибки в расчетах и прогнозах из-за запутанной коммуникации или банальной усталости.
Как я оказался на курсе SkillFactory
Я пришел к выводу, что если совмещу бэкграунд проектной работы и скиллы по Data Science, то стану востребованнее на рынке труда в будущем. Поиск подходящих курсов не был долгим: я увидел рекламу SkillFactory, изучил программу специализации Data Science, спросил у знакомого о качестве знаний, которые дает школа, и оплатил занятия.
Курс длился год. Я договорился на работе, что буду учиться по 2 часа день. В выходные занимался еще по 3–4 часа. Занятия поделены на 6 блоков: Python для анализа данных, математика, теория вероятности, статистика, машинное обучение и продуцирование решения, или science in production.
Про алгоритм, который избавил людей от рутинной работы
Через 4–5 месяцев после начала учебы я предложил решить одну задачу по работе: считалось, что ее трудно автоматизировать и нужен ручной труд с огромными временными затратами. Для реализации проекта я уже использовал знания, полученные на курсе.
Модель машинного обучения, которую я создал, помогает считать размер выплат дистрибьюторам. Для расчетов мы брали данные по продажам из торговых точек. Сложность в том, что в один магазин товар могут поставлять разные фирмы. При этом в отчетах данные по торговым точкам необходимо отнести к конкретному дистрибьютору.
Раньше филиалы дистрибьюторов вручную проставляли в автоматически сформированном отчете с торговыми точками. Теперь этот отчет проходит через алгоритм, и на выходе получается заполненная таблица. В ней уже указан номер и название филиала, на который нужно отнести продажи магазина. Сотруднику остается лишь убедиться в отсутствии неточностей, а возможные ошибки выделяются цветом.
Люди на работе говорили, что проект получился классным и здорово им помогает. В тот момент я решил, что нужно еще больше времени посвятить учебе и ушел в административный отпуск на полгода.
О дипломном проекте и перспективах в профессии
Этот алгоритм, созданный изначально для работы, и стал моим дипломным проектом на курсе Data Science. Новые знания и проверка ментора SkillFactory помогли его улучшить. Я переписал саму программу объектно-ориентированным подходом, добавил логирование информации и запуск с ключами, как этого требуют стандарты качества в сфере Data Science. Хотелось сделать то, что не стыдно показать и заявить: «Это мой дипломный проект, и я горжусь им».
Когда я вернулся из отпуска, к новой команде присоединился уже в роли дата-сайентиста. Теперь буду заниматься моделированием и предсказанием роста продаж.
В будущем я вижу себя человеком, который сможет выполнять все работы в области больших данных и машинного обучения. Теперь у меня есть широкий кругозор в этой сфере и способность видеть задачи, которые можно решить с помощью Data Science. Главное – не переставать искать что-то новое: следить за изменениями в индустрии, пользоваться лучшими инструментами и уметь пересматривать привычные подходы к работе.
Может ли гуманитарий стать дата-сайентистом
Часто люди могут не знать себя. Бывает, что идут в гуманитарный вуз только из-за обстоятельств. Самая банальная причина – избежать службы в армии. На деле же оказывается, что человек «технарь» до мозга костей, и он прекрасно раскрывается в IT.
На потоке по Data Science, где я учился, было несколько гуманитариев. Некоторые из них дошли до конца обучения. Если есть стремление, открыты все дороги. Но, конечно, таким людям будет сложнее. Для успешной учебы им нужно самостоятельно заполнять пробелы в знаниях – математике и программировании.
Виктория – 43 года
О первом знакомстве с Data Science
Я получила образование инженера-экономиста в Норильске и там же начала работать в телекоммуникационной компании. В ней я узнала о целевом маркетинге и предсказательных моделях. Тогда я еще не занималась аналитикой, а просто изучала презентации из Москвы. Меня все это захватило, но я понимала, что для профессиональной работы с данными нужно еще поучиться, так что поступила на статистический факультет Московского университета экономики.
Когда я переехала в Санкт-Петербург в начале 10-х, аналитики были не сильно востребованы. Цифровизация была еще не настолько глобальной, как сейчас. Правда, и мои навыки были больше теоретическими, а среднему бизнесу не хватало вычислительных мощностей. Поэтому практическое применение знаниям тогда находилось редко.
С тех пор уже 7 лет я работаю в ресторанном бизнесе, где анализирую продажи и клиентскую базу. Чтобы актуализировать свои знания и закрепить их на практике, я решила освоить профессию дата-сайентиста в SkillFactory.
От аналитики на Python к Data Science
О SkillFactory я узнала благодаря рекламе в Facebook. Увидела баннер с предложением обучиться на курсе «Анализ данных на Python». У меня в голове как раз крутилась мысль, что для работы в Data Science необходимо освоить этот язык.
После обучения я провела ручной анализ данных с использованием Python. Метод помог выявить потребительские инсайты, которые сильно отличались от тех, что продвигали наши партнеры из Москвы. Например, мы были уверены, что у нас много постоянных клиентов, а на деле оказалось, что большинство посетителей приходили в ресторан лишь один раз. Руководство сильно удивилось такому открытию.
Мне стало понятно, что в SkillFactory ты получаешь по-настоящему полезные прикладные навыки, поэтому для обучения Data Science никакую другую образовательную платформу я не рассматривала.
Что такое метод кластеризации и как он помогает бизнесу
Тема моего дипломного проекта по Data Science тоже была связана с клиентской базой нашего ресторана. Она была скорее исследовательской. Я делала сегментацию посетителей методом кластеризации. Проще говоря, с помощью алгоритма я делила клиентов на несколько групп, учитывая их потребительское поведение.
Метод кластеризации нравится мне тем, что он творческий. Никогда не знаешь, как алгоритм разделит людей. Внутри одной группы клиенты чем-то похожи, а в разных группах люди отличаются: кто-то ходит в заведение определенное количество раз в месяц, одни всегда тратят примерно одинаковую сумму, другие – часто заказывают конкретное блюдо. И только когда читаешь описание поведения, понимаешь, по каким параметрам алгоритм сформировал группы.
После уже можно приступать к интерпретации данных: выделить наиболее привлекательный сегмент аудитории, придумать, а затем смоделировать для него специальное предложение и спрогнозировать его эффективность. Причем это непрерывный процесс. Данные о клиенте постоянно анализируются. Зная, на что он реагирует, а на что нет, мы можем сделать наше следующее взаимодействие с ним еще более эффективным.
В том же Excel невозможно работать методом кластеризации. Все это я делаю в Python алгоритмами, которым меня научили в SkillFactory на курсе по Data Science.
О впечатлениях от курса
Я благодарна школе, что она оставляет выпускникам доступ к своим материалам после окончания курса. Бывало, что некоторые темы приходилось откладывать, чтобы сосредоточиться на практике. Когда с дедлайнами становилось свободнее, можно было посмотреть те же самые уроки с новым уровнем понимания.
Даже преподаватели говорили, что не с первого раза все может быть ясно. Но это не повод останавливаться, потому что при должных усилиях со всем получается разобраться. Еще понравилось то, что SkillFactory прислушиваются к ученикам. Например, сейчас расширили тему нейронных сетей. В нее добавили больше примеров, так что в моих планах пройти этот блок еще раз.
Какие скиллы важны для дата-сайентиста
Если говорить о hard skills, то дата-сайентисту необходимо знать математику, статистику и алгоритмы машинного обучения. Но также важно уметь доносить свои мысли до других людей простым языком – это уже из области soft skills.
Помимо работы с данными, дата-сайентист участвует в мозговых штурмах, где генерируют идеи, а затем рассматривают их эффективность для компании. Порой свои предложения нужно объяснить людям, которые не настолько технически подкованы, поэтому важно уметь говорить на одном языке с ними.
Если вы хотите освоить самую востребованную профессию 2020 года, записывайтесь на курс «Data Science с нуля» от SkillFactory.
За два года вы прокачаете скиллы дата-сайентиста до уровня middle и будете претендовать на вакансии со средней зарплатой 170 000 рублей. С первых дней обучения тьютор поможет вам определить карьерные цели и не сойти с пути в течение всей программы. В конце обучения в карьерном центре SkillFactory помогут составить резюме и начать проходить собеседования.
На пути к работе мечты остался лишь один шаг – записаться на курс «Data Science с нуля» с 40% скидкой.