машинное обучение чем занимается

Специалист по машинному обучению: кто такой, чем занимается и сколько получает

Разбираемся, нужно ли творцам искусственного интеллекта знать математику и Python.

машинное обучение чем занимается

машинное обучение чем занимается

Специалист по машинному обучению (ML, machine learning) — это программист, который с помощью специальных наборов данных и алгоритмов обучает искусственный интеллект.

Посмотрим, например, как приложение «Яндекс.Навигатор» выбирает маршрут до пункта назначения. У него есть ваши GPS-координаты и карта, но при этом он знает и о пробках, авариях, дорожном ремонте. Всё это благодаря графу дорог — алгоритм быстро анализирует возможные пути и находит самый быстрый. А программисты следят, чтобы машинный интеллект не ошибался.

Но ситуация на дорогах постоянно меняется: вчера здесь был поворот, а сегодня висит «кирпич» и водители вынуждены объезжать это место. Добавлять на карту все изменения вручную, особенно в реальном времени, слишком трудозатратно и дорого, требуется много людей. Но алгоритму совсем не обязательно знать про запрет — ему достаточно увидеть, что машины стали двигаться по-другому, чтобы перенаправить всех водителей на другие маршруты.

Научить компьютер принимать такие решения — задача специалистов по ML. Без этого мы не смогли бы обработать море информации, которую люди генерируют каждый день, и сделать нашу жизнь комфортнее.

машинное обучение чем занимается

Пишет про digital и машинное обучение для корпоративных блогов. Топ-автор в категории «Искусственный интеллект» на Medium. Kaggle-эксперт.

Чем занимается специалист по машинному обучению

Задачи специалиста по МL отличаются в разных компаниях и проектах, но чаще всего он делает вот что:

Собирать данные вручную сложно: если это, например. изображения, требуются сотни тысяч фото с разных ракурсов и разными условиями освещённости. «ВКонтакте» недавно запустил новую функцию — сеть показывает фото пользователей их друзьям и спрашивает: «Это Вася Иванов?» Чтобы отметить друга на фото, требуется меньше секунды. Не поленитесь и сделайте это. Так вы поможете нейросети научиться распознавать лица, а заодно почувствуете себя специалистом по ML — хоть немножко 🙂

Алгоритмы для построения модели программируют под конкретные задачи. Иногда они довольно простые — например, алгоритм для предсказания предпочтений туристов из разных городов занимает всего 20 строчек кода.

Но бывают и очень сложные — такие как гигантская нейросеть DeepCoder. Она копирует и миксует готовые фрагменты кода, создавая на выходе новые программы. Эта технология называется программным синтезом.

Получается, что сама нейросеть, состоящая из миллионов строк кода, может заимствовать его из множества других программ. Алгоритм порождает другие алгоритмы — чем не цифровая жизнь?

Кому подойдёт профессия специалиста по ML

Стать специалистом по машинному обучению за три дня не получится. Но вы можете попробовать профессию и попытаться предсказать курс доллара с помощью машинного обучения на бесплатном марафоне «Напишите первую модель машинного обучения за 3 дня».

Какие навыки нужны специалистам по МL

Предположим, нам нужно построить автоматическую систему рекомендаций для соцсети. Что должно лежать в основе рекомендаций? Хороший вариант — посмотреть, что лайкают друзья: людей часто объединяют интересы. Но чтобы система работала ещё лучше, придётся учитывать время года или суток, события в стране и в мире. Например, «ВКонтакте» утром чаще рекомендует новости, а вечером — мемасики про котиков и другой развлекательный контент. Чтобы всё это продумать и учесть сотни различных факторов, нужно быть готовым к кропотливой и даже монотонной работе.

Как определить, хороший контент в соцсети или плохой? Можно посадить сотни модераторов и разработать сложную систему правил, а можно просто добавить кнопку эмоциональной реакции — например, лайк. Если у поста много лайков, значит, людям он нравится, следовательно, материал хороший и нейросеть будет показывать его как можно большему количеству людей. Возможно, эта система не идеальна, но она позволяет решить проблему относительно эффективно и с минимальной затратой ресурсов.

Перспективы развития профессии

Сегодня МL помогает людям практически в любой области — от выбора сериалов на Netflix до заботы о здоровье. Востребованность специалистов по ML с каждым годом растёт. Например, hh.ru отмечает, что с 2015 по 2019 год количество вакансий в сфере машинного обучения выросло в семь раз.

Больше всего таких специалистов требуется в сфере информационных технологий, разработке программного обеспечения, финансовом секторе, бизнес-среде, маркетинге и розничной торговле.

На какую зарплату могут рассчитывать Junior, Middle и Senior

Яндекс, «Тинькофф» и другие компании нуждаются в крутых профессионалах в области ML. По наличию опыта такие специалисты делятся на три группы: Junior, Middle и Senior.

Junior (младший)

Нужно уметь работать с библиотеками для обработки данных — Pandas, NumPy, Matplotlib, и понимать системы управления базами данных — MySQL/PostgreSQL.

В регионах такой специалист может рассчитывать на зарплату от 40 тысяч рублей. В Москве джуны получают значительно больше — от 80 тысяч.

Middle (средний)

Уверенный специалист с опытом от 2 до 5 лет. Он способен перевести задачи бизнеса на язык математики, реализовать с нуля и оценить производительность модели машинного обучения, проанализировать и проверить данные — соответствуют ли они заданным критериям.

Среди требований к мидлу — навыки работы с современными аналитическими пакетами на R/Python и промышленными хранилищами данных (Teradata, DB2), а также понимание BigData. Приветствуется владение статистическими инструментами — SPSS, MATLAB, SAS Data Miner.

В регионах средняя зарплата — 60–80 тысяч, в Москве — не меньше 100 тысяч рублей.

Senior (старший)

Опытный специалист. Работодатели ожидают, что у сеньора за плечами 5–7 лет работы над проектами в сфере data mining, data analysis, машинного обучения или математического моделирования. В списке компетенций: уверенный Python, SQL/CQL, глубокое понимание архитектуры нейросетей, знание Spark Streaming (используется с Apache Spark), Cassandra (система управления базами данных), фреймворков TensorFlow, CV, PyTorch или других — в зависимости от стека компании.

Иногда выделяют ML Team Lead (тимлид, лидер команды). Тимлидами становятся сеньоры, возглавляющие подразделения Machine Learning. Здесь важны лидерские качества, тайм-менеджмент и умение работать в команде.

Сеньоры и тимлиды в регионах зарабатывают 100–120 тысяч, в Москве — от 200 и до 400–500 тысяч. Это хороший стимул освоить профессию. А учитывая, что потребность в машинном обучении с годами будет только расти, зарплаты опытных специалистов по ML точно не станут ниже.

Где учиться

Изучать машинное обучение можно в университете, на курсах или самостоятельно.

Университет даёт студентам хорошую базу, особенно в математике и статистике. Вы получите диплом государственного образца — это может быть плюсом при трудоустройстве. Но поступить на специальность Data Science обычно непросто и дорого. Например, двухлетняя магистратура по наукам о данных в «Высшей школе экономики» обойдётся в 1 155 000 рублей.

Курсы позволяют получить структурированную информацию в сжатые сроки. Такой вариант образования гораздо дешевле университетской программы. Кроме того, на курсах готовят выпускников к практической деятельности, дают поработать над реальными проектами. Стоимость стартует от 50 тысяч рублей и доходит до 150 тысяч.

Самостоятельное обучение подходит тем, у кого уже есть технический бэкграунд. В интернете много бесплатных книг и курсов, и некоторые из них весьма хороши. Но есть сложность: придётся самостоятельно планировать обучение и развитие, получать знания и навыки, которые понадобятся на работе. Без старшего товарища ориентироваться в океане информации и проверять рецепты из интернета непросто.

Вывод

Специалисты по машинному обучению работают над сложными, увлекательными проектами, которые хорошо оплачиваются. Созданные ими решения делают нашу жизнь проще, интереснее и безопаснее. Так что если вам хочется быть на переднем крае технологий и заниматься самыми современными проектами, без которых немыслимо не только будущее, а уже и настоящее, — возможно, это идеальная карьера для вас.

Самому освоить профессию специалиста по машинному обучению трудно. Но можно записаться на курс «Профессия Data Scientist: машинное обучение», где опытные специалисты по ML собрали сбалансированную программу, учли типичные ошибки новичков и делятся лучшими практиками. За год с небольшим вы научитесь разбираться в программировании и моделях МL и поработаете с реальными проектами в машинном обучении.

Граф дорог — цифровая карта, которая передаёт маршруты движения транспорта и содержит информацию о том, куда можно и нельзя поворачивать.

Обучающая выборка — специальный массив данных, в котором все объекты заранее разбиты на классы и категории. Помогает алгоритму получить первоначальное представление о каких-то явлениях и в будущем самому классифицировать их, основываясь на изученных критериях.

Источник

Машинное обучение — это легко

Для кого эта статья?

Каждый, кому будет интересно затем покопаться в истории за поиском новых фактов, или каждый, кто хотя бы раз задавался вопросом «как же все таки это, машинное обучение, работает», найдёт здесь ответ на интересующий его вопрос. Вероятнее всего, опытный читатель не найдёт здесь для себя ничего интересного, так как программная часть оставляет желать лучшего несколько упрощена для освоения начинающими, однако осведомиться о происхождении машинного обучения и его развитии в целом не помешает никому.

машинное обучение чем занимается

В цифрах

С каждым годом растёт потребность в изучении больших данных как для компаний, так и для активных энтузиастов. В таких крупных компаниях, как Яндекс или Google, всё чаще используются такие инструменты для изучения данных, как язык программирования R, или библиотеки для Python (в этой статье я привожу примеры, написанные под Python 3). Согласно Закону Мура (а на картинке — и он сам), количество транзисторов на интегральной схеме удваивается каждые 24 месяца. Это значит, что с каждым годом производительность наших компьютеров растёт, а значит и ранее недоступные границы познания снова «смещаются вправо» — открывается простор для изучения больших данных, с чем и связано в первую очередь создание «науки о больших данных», изучение которого в основном стало возможным благодаря применению ранее описанных алгоритмов машинного обучения, проверить которые стало возможным лишь спустя полвека. Кто знает, может быть уже через несколько лет мы сможем в абсолютной точности описывать различные формы движения жидкости, например.

Анализ данных — это просто?

Да. А так же интересно. Наряду с особенной важностью для всего человечества изучать большие данные стоит относительная простота в самостоятельном их изучении и применении полученного «ответа» (от энтузиаста к энтузиастам). Для решения задачи классификации сегодня имеется огромное количество ресурсов; опуская большинство из них, можно воспользоваться средствами библиотеки Scikit-learn (SKlearn). Создаём свою первую обучаемую машину:

Вот мы и создали простейшую машину, способную предсказывать (или классифицировать) значения аргументов по их признакам.

— Если все так просто, почему до сих пор не каждый предсказывает, например, цены на валюту?

С этими словами можно было бы закончить статью, однако делать я этого, конечно же, не буду (буду конечно, но позже) существуют определенные нюансы выполнения корректности прогнозов для поставленных задач. Далеко не каждая задача решается вот так легко (о чем подробнее можно прочитать здесь)

Ближе к делу

— Получается, зарабатывать на этом деле я не сразу смогу?

Итак, сегодня нам потребуются:

Дальнейшее использование требует от читателя некоторых знаний о синтаксисе Python и его возможностях (в конце статьи будут представлены ссылки на полезные ресурсы, среди них и «основы Python 3»).

Как обычно, импортируем необходимые для работы библиотеки:

— Ладно, с Numpy всё понятно. Но зачем нам Pandas, да и еще read_csv?

Иногда бывает удобно «визуализировать» имеющиеся данные, тогда с ними становится проще работать. Тем более, большинство датасетов с популярного сервиса Kaggle собрано пользователями в формате CSV.

— Помнится, ты использовал слово «датасет». Так что же это такое?

Датасет — выборка данных, обычно в формате «множество из множеств признаков» → «некоторые значения» (которыми могут быть, например, цены на жильё, или порядковый номер множества некоторых классов), где X — множество признаков, а y — те самые некоторые значения. Определять, например, правильные индексы для множества классов — задача классификации, а искать целевые значения (такие как цена, или расстояния до объектов) — задача ранжирования. Подробнее о видах машинного обучения можно прочесть в статьях и публикациях, ссылки на которые, как и обещал, будут в конце статьи.

Знакомимся с данными

Предложенный датасет можно скачать здесь. Ссылка на исходные данные и описание признаков будет в конце статьи. По представленным параметрам нам предлагается определять, к какому сорту относится то или иное вино. Теперь мы можем разобраться, что же там происходит:

Работая в Jupyter notebook, получаем такой ответ:

машинное обучение чем занимается

Это значит, что теперь нам доступны данные для анализа. В первом столбце значения Grade показывают, к какому сорту относится вино, а остальные столбцы — признаки, по которым их можно различать. Попробуйте ввести вместо data.head() просто data — теперь для просмотра вам доступна не только «верхняя часть» датасета.

Простая реализация задачи на классификацию

Переходим к основной части статьи — решаем задачу классификации. Всё по порядку:

Создаем массивы, где X — признаки (с 1 по 13 колонки), y — классы (0ая колонка). Затем, чтобы собрать тестовую и обучающую выборку из исходных данных, воспользуемся удобной функцией кросс-валидации train_test_split, реализованной в scikit-learn. С готовыми выборками работаем дальше — импортируем RandomForestClassifier из ensemble в sklearn. Этот класс содержит в себе все необходимые для обучения и тестирования машины методы и функции. Присваиваем переменной clf (classifier) класс RandomForestClassifier, затем вызовом функции fit() обучаем машину из класса clf, где X_train — признаки категорий y_train. Теперь можно использовать встроенную в класс метрику score, чтобы определить точность предсказанных для X_test категорий по истинным значениям этих категорий y_test. При использовании данной метрики выводится значение точности от 0 до 1, где 1 100% Готово!

— Неплохая точность. Всегда ли так получается?

Для решения задач на классификацию важным фактором является выбор наилучших параметров для обучающей выборки категорий. Чем больше, тем лучше. Но не всегда (об этом также можно прочитать подробнее в интернете, однако, скорее всего, я напишу об этом ещё одну статью, рассчитанную на начинающих).

— Слишком легко. Больше мяса!

Для наглядного просмотра результата обучения на данном датасете можно привести такой пример: оставив только два параметра, чтобы задать их в двумерном пространстве, построим график обученной выборки (получится примерно такой график, он зависит от обучения):

машинное обучение чем занимается

Да, с уменьшением количества признаков, падает и точность распознавания. И график получился не особенно-то красивым, но это и не решающее в простом анализе: вполне наглядно видно, как машина выделила обучающую выборку (точки) и сравнила её с предсказанными (заливка) значениями.

Предлагаю читателю самостоятельно узнать почему и как он работает.

Последнее слово

Надеюсь, данная статья помогла хоть чуть-чуть освоиться Вам в разработке простого машинного обучения на Python. Этих знаний будет достаточно, чтобы продолжить интенсивный курс по дальнейшему изучению BigData+Machine Learning. Главное, переходить от простого к углубленному постепенно. А вот полезные ресурсы и статьи, как и обещал:

Материалы, вдохновившие автора на создание данной статьи

Более углубленное изучение использования машинного обучения с Python стало возможным, и более простым благодаря преподавателям с Яндекса — этот курс обладает всеми необходимыми средствами объяснения, как же работает вся система, рассказывается подробнее о видах машинного обучения итд.
Файл сегодняшнего датасета был взят отсюда и несколько модифицирован.

Где брать данные, или «хранилище датасетов» — здесь собрано огромное количество данных от самых разных источников. Очень полезно тренироваться на реальных данных.

Буду признателен за поддержку по улучшению данной статьи, а так же готов к любому виду конструктивной критики.

Источник

Зачем изучать машинное обучение и кем потом работать

машинное обучение чем занимается

машинное обучение чем занимается

машинное обучение чем занимается

Факультет Big Data в Geek University объединяет разные сферы знаний, необходимые современному дата-сайентисту. Чтобы предоставить ученикам более гибкие возможности обучения, мы решили открыть «Машинное обучение» в виде отдельной, новой специальности. В этом посте на важные вопросы об этой специальности ответят наши преподаватели — практикующие эксперты.

Где применяют машинное обучение

машинное обучение чем занимается

Отвечает Сергей Ширкин – куратор специальности, декан факультетов искусственного интеллекта и аналитики Big Data в GeekUniversity, приглашённый преподаватель ВШЭ. С помощью машинного обучения строил финансовые модели в компании Equifax, автоматизировал процессы в Сбербанке и Росбанке. Применял ИИ для прогнозирования просмотров рекламы в Dentsu Aegis Network Russia.

Машинное обучение (Machine Learning, ML) позволяет автоматизировать умственный и физический труд человека. Поэтому ML используют поисковые системы, банки и страховые компании, ритейл, сотовые операторы, промышленные предприятия, рекламные и маркетинговые агентства.

Модель машинного обучения может делать прогнозы и распознавать образы точнее и быстрее, чем живой эксперт. Например, банки с помощью ML-моделей считают вероятность добросовестной выплаты по кредиту для каждого конкретного заёмщика. Причём, если эксперт анализирует одного клиента несколько минут, модель делает прогноз по миллионам клиентов за считаные секунды.

Искусственный интеллект, машинное обучение – в чём разница?

Машинное обучение – это большой подраздел науки об искусственном интеллекте — Data Science. Machine Learning наиболее часто применяется для практических целей. В целом внутри Data Science много направлений, и некоторые из них — например, обучение с подкреплением – ещё развиваются. По сравнению с ними машинное обучение – хорошо развитая область, востребованная бизнесом и наукой.

В чём специфика кода для машинного обучения

Чтобы писать хороший код для целей ML, обязательно понимать, как работают модели машинного обучения. Для этого нужно хорошо знать математику и алгоритмы анализа данных. А также уметь понимать данные: их специфику, возможные проблемы, способы обработки и очистки. Без этого даже готовые реализации из библиотек не получится использовать грамотно.

Чем конкретно занимается ML-специалист

машинное обучение чем занимается

Отвечает Никита Варганов, преподаватель GeekBrains, Senior Data Scientist, руководитель направления по исследованию данных в Сбербанке, Kaggle competitions master.

ML-специалист решает бизнес-задачи клиента с применением алгоритмов машинного обучения. При этом он может брать существующие алгоритмы или разрабатывать новые. Но важно понимать, что в Data Science построение модели – это 10-20% времени проекта. Остальное время уходит на согласование задач, поиск и подготовку данных, составление и приоритизацию гипотез, анализ, внедрение и презентацию полученного решения. Надо быть к этому готовым.

Важно помнить, что оптимизация процессов – не самоцель. В конце концов ML-специалисты помогают бизнесу больше зарабатывать и выводить на рынок новые продукты.

Какие навыки нужны в машинном обучении

Для начала карьеры достаточно уметь использовать алгоритмы, связанные с задачами вашей команды. Если же вы хотите расти и создавать новые алгоритмы, понадобятся хорошие фундаментальные знания математики, готовность творить и экспериментировать без гарантии результата.

В то же время дорасти до позиции Senior в машинном обучении будет проще людям, которые хорошо умеют разговаривать с бизнесом, понимать его проблемы, переходить с технического языка на уровень бизнес-специалиста.

машинное обучение чем занимается

Статистика требуемых скилов на позиции, связанные с машинным обучением. Данные 2018 года, но основные общие и ряд компетенций, специфических для определённых сфер, здесь перечислены.

Каких кандидатов берут на работу

Как руководитель направления в Сбербанке, на должности Junior Data Scientist я хотел бы видеть кандидата, который владеет базовыми понятиями машинного обучения и математической статистики, умеет писать SQL-запросы, готов постоянно развивать свои навыки в machine learning и учиться у более опытных коллег.

Очень ценю, если кандидат уже решал задачи за рамками стандартных курсов по ML и анализу данных. Например, может показать свой pet-проект или свои результаты на соревнованиях по анализу данных (Kaggle Competitions).

Участие в соревнованиях учит решать реалистичные задачи в команде и оформлять своё решение на GitHub. Кстати, владение системами контроля версий — тоже плюс. По моим оценкам их используют лишь 30% специалистов в data science.

Сотрудник уровня Middle сам ведёт проект, но иногда нуждается в консультациях. Он приносит компании деньги и участвует в решении бизнес-проблем заказчика. А также помогает джунам с типовыми задачами.

Senior – это специалист «полного цикла». Он распознаёт проблему заказчика, продумывает её решение и выдаёт необходимый результат. Поэтому Senior DS должен уметь общаться с заказчиком на языке бизнеса и доносить до него свою позицию. Кроме того, он зачастую выступает ментором для джунов и мидлов, проводит код-ревью, распределяет задачи и контролирует их выполнение.

В целом ситуация на рынке труда, на мой взгляд, сейчас в пользу кандидата: спрос на специалистов по машинному обучению пока превышает предложение, особенно на уровнях Middle и Senior.

Где работают и сколько получают специалисты по ML

Рассказывает Сергей Ширкин, куратор специальности.

Специалисты по машинному обучению нужны и крупным компаниям (включая IТ, операторов связи, интернет-магазины, ритейл, банки), и SMB-сегменту со стартапами.

Ориентировочный диапазон зарплат:

Вакансии могут называться по-разному: Data Scientist, аналитик данных, ML-инженер, разработчик аналитических моделей и т.д.

Лайфхак: для поиска вакансий используйте не только описание должности, но и названия библиотек и технологий машинного обучения. Например, много релевантных вакансий можно найти по ключевому слову pandas – это название библиотеки Python для работы с данными.

Как обучают специальности в GeekBrains

машинное обучение чем занимается

Рассказывает Александр Скударнов – методист образовательных программ GeekBrains.

Основная цель курса – помочь вам освоить машинное обучение как инструмент для бизнеса. Программа рассчитана на подготовленных слушателей – она подойдёт вам, если:

К началу занятий на курсах машинного обучения вам понадобятся знание основ Python и SQL, прочные знания школьной математики и готовность их углублять.

Если это не ваши варианты, но вы хотите развиваться в Data Science – вам лучше выбрать факультет искусственного интеллекта или аналитики Big Data, где учат с нуля.

Преимущества курсов

Наши преподаватели — это специалисты из топовых компаний, которые сами проводят собеседования и знают, что нужно для трудоустройства. Мы готовим не исследователя data science, а человека, который сможет приносить пользу бизнесу. Поэтому в программе только то, что нужно для успешного старта карьеры: умение писать чистый код, понимать статистические методы анализа данных и алгоритмы машинного обучения. Остальное выпускник сможет добрать на первом рабочем месте.

Для получения практического опыта мы предусмотрели курсовые проекты, а также соревнования на площадке Kaggle. По окончании нашей программы студенты смогут успешно участвовать в соревнованиях Kaggle по машинному обучению, что тоже очень важно для резюме.

Этапы обучения и курсовые проекты

Рассказывает Сергей Ширкин, куратор специальности.

Мы обучаем специальности в три этапа:

Как курсовые проекты помогут найти работу

В ходе курсовых проектов вы научитесь делать разведочный анализ данных (EDA) – разберётесь, как устроены данные в конкретном примере, как их визуализировать. И конечно, что делать с ними дальше, какие модели машинного обучения применять. Эти навыки пригодятся любому аналитику.

Курсовой проект по прогнозированию стоимости недвижимости можно будет показать на собеседовании в агентствах недвижимости, таких как ЦИАН или ДомКлик.

Проект по кредитному скорингу — оценке кредитоспособности заёмщика — понравится банкам и микрофинансовым организациям.

Прогнозирование оттока клиентов будет актуально для интернет-магазинов, операторов связи, компаний развлекательной сферы, в том числе онлайн-кинотеатров и игровых сервисов. Им важно оценивать риски отказа от их услуг в режиме реального времени.

Особенно сложными и важными будут проекты на курсе «Алгоритмы анализа данных». При их выполнении нельзя будет пользоваться готовыми моделями Machine Learning. Вы должны будете практически с нуля написать на Python свою модель для выбранных задач.

В итоге вы научитесь строить модели разного типа — от деревьев решений, линейной и логистической регрессии до случайного леса и градиентного бустинга. Это умение пригодится при трудоустройстве ML-инженером, в ситуации, когда нужно написать свою библиотеку для машинного обучения, либо для научной работы в этом направлении.

Освоить востребованную профессию в Data Science можно всего за полтора года на курсах GeekBrains. После учёбы вы сможете работать по специальностям Data Scientist, Data Analyst, Machine Learning, Engineer Computer Vision-специалист или NLP-специалист.

Освоить востребованную профессию в Аналитике больших данных можно всего за полтора года на курсах GeekBrains.

машинное обучение чем занимается

Факультет Big Data в Geek University объединяет разные сферы знаний, необходимые современному дата-сайентисту. Чтобы предоставить ученикам более гибкие возможности обучения, мы решили открыть «Машинное обучение» в виде отдельной, новой специальности. В этом посте на важные вопросы об этой специальности ответят наши преподаватели — практикующие эксперты.

Где применяют машинное обучение

машинное обучение чем занимается

Отвечает Сергей Ширкин – куратор специальности, декан факультетов искусственного интеллекта и аналитики Big Data в GeekUniversity, приглашённый преподаватель ВШЭ. С помощью машинного обучения строил финансовые модели в компании Equifax, автоматизировал процессы в Сбербанке и Росбанке. Применял ИИ для прогнозирования просмотров рекламы в Dentsu Aegis Network Russia.

Машинное обучение (Machine Learning, ML) позволяет автоматизировать умственный и физический труд человека. Поэтому ML используют поисковые системы, банки и страховые компании, ритейл, сотовые операторы, промышленные предприятия, рекламные и маркетинговые агентства.

Модель машинного обучения может делать прогнозы и распознавать образы точнее и быстрее, чем живой эксперт. Например, банки с помощью ML-моделей считают вероятность добросовестной выплаты по кредиту для каждого конкретного заёмщика. Причём, если эксперт анализирует одного клиента несколько минут, модель делает прогноз по миллионам клиентов за считаные секунды.

Искусственный интеллект, машинное обучение – в чём разница?

Машинное обучение – это большой подраздел науки об искусственном интеллекте — Data Science. Machine Learning наиболее часто применяется для практических целей. В целом внутри Data Science много направлений, и некоторые из них — например, обучение с подкреплением – ещё развиваются. По сравнению с ними машинное обучение – хорошо развитая область, востребованная бизнесом и наукой.

В чём специфика кода для машинного обучения

Чтобы писать хороший код для целей ML, обязательно понимать, как работают модели машинного обучения. Для этого нужно хорошо знать математику и алгоритмы анализа данных. А также уметь понимать данные: их специфику, возможные проблемы, способы обработки и очистки. Без этого даже готовые реализации из библиотек не получится использовать грамотно.

Чем конкретно занимается ML-специалист

машинное обучение чем занимается

Отвечает Никита Варганов, преподаватель GeekBrains, Senior Data Scientist, руководитель направления по исследованию данных в Сбербанке, Kaggle competitions master.

ML-специалист решает бизнес-задачи клиента с применением алгоритмов машинного обучения. При этом он может брать существующие алгоритмы или разрабатывать новые. Но важно понимать, что в Data Science построение модели – это 10-20% времени проекта. Остальное время уходит на согласование задач, поиск и подготовку данных, составление и приоритизацию гипотез, анализ, внедрение и презентацию полученного решения. Надо быть к этому готовым.

Важно помнить, что оптимизация процессов – не самоцель. В конце концов ML-специалисты помогают бизнесу больше зарабатывать и выводить на рынок новые продукты.

Какие навыки нужны в машинном обучении

Для начала карьеры достаточно уметь использовать алгоритмы, связанные с задачами вашей команды. Если же вы хотите расти и создавать новые алгоритмы, понадобятся хорошие фундаментальные знания математики, готовность творить и экспериментировать без гарантии результата.

В то же время дорасти до позиции Senior в машинном обучении будет проще людям, которые хорошо умеют разговаривать с бизнесом, понимать его проблемы, переходить с технического языка на уровень бизнес-специалиста.

машинное обучение чем занимается

Статистика требуемых скилов на позиции, связанные с машинным обучением. Данные 2018 года, но основные общие и ряд компетенций, специфических для определённых сфер, здесь перечислены.

Каких кандидатов берут на работу

Как руководитель направления в Сбербанке, на должности Junior Data Scientist я хотел бы видеть кандидата, который владеет базовыми понятиями машинного обучения и математической статистики, умеет писать SQL-запросы, готов постоянно развивать свои навыки в machine learning и учиться у более опытных коллег.

Очень ценю, если кандидат уже решал задачи за рамками стандартных курсов по ML и анализу данных. Например, может показать свой pet-проект или свои результаты на соревнованиях по анализу данных (Kaggle Competitions).

Участие в соревнованиях учит решать реалистичные задачи в команде и оформлять своё решение на GitHub. Кстати, владение системами контроля версий — тоже плюс. По моим оценкам их используют лишь 30% специалистов в data science.

Сотрудник уровня Middle сам ведёт проект, но иногда нуждается в консультациях. Он приносит компании деньги и участвует в решении бизнес-проблем заказчика. А также помогает джунам с типовыми задачами.

Senior – это специалист «полного цикла». Он распознаёт проблему заказчика, продумывает её решение и выдаёт необходимый результат. Поэтому Senior DS должен уметь общаться с заказчиком на языке бизнеса и доносить до него свою позицию. Кроме того, он зачастую выступает ментором для джунов и мидлов, проводит код-ревью, распределяет задачи и контролирует их выполнение.

В целом ситуация на рынке труда, на мой взгляд, сейчас в пользу кандидата: спрос на специалистов по машинному обучению пока превышает предложение, особенно на уровнях Middle и Senior.

Где работают и сколько получают специалисты по ML

Рассказывает Сергей Ширкин, куратор специальности.

Специалисты по машинному обучению нужны и крупным компаниям (включая IТ, операторов связи, интернет-магазины, ритейл, банки), и SMB-сегменту со стартапами.

Ориентировочный диапазон зарплат:

Вакансии могут называться по-разному: Data Scientist, аналитик данных, ML-инженер, разработчик аналитических моделей и т.д.

Лайфхак: для поиска вакансий используйте не только описание должности, но и названия библиотек и технологий машинного обучения. Например, много релевантных вакансий можно найти по ключевому слову pandas – это название библиотеки Python для работы с данными.

Как обучают специальности в GeekBrains

машинное обучение чем занимается

Рассказывает Александр Скударнов – методист образовательных программ GeekBrains.

Основная цель курса – помочь вам освоить машинное обучение как инструмент для бизнеса. Программа рассчитана на подготовленных слушателей – она подойдёт вам, если:

К началу занятий на курсах машинного обучения вам понадобятся знание основ Python и SQL, прочные знания школьной математики и готовность их углублять.

Если это не ваши варианты, но вы хотите развиваться в Data Science – вам лучше выбрать факультет искусственного интеллекта или аналитики Big Data, где учат с нуля.

Преимущества курсов

Наши преподаватели — это специалисты из топовых компаний, которые сами проводят собеседования и знают, что нужно для трудоустройства. Мы готовим не исследователя data science, а человека, который сможет приносить пользу бизнесу. Поэтому в программе только то, что нужно для успешного старта карьеры: умение писать чистый код, понимать статистические методы анализа данных и алгоритмы машинного обучения. Остальное выпускник сможет добрать на первом рабочем месте.

Для получения практического опыта мы предусмотрели курсовые проекты, а также соревнования на площадке Kaggle. По окончании нашей программы студенты смогут успешно участвовать в соревнованиях Kaggle по машинному обучению, что тоже очень важно для резюме.

Этапы обучения и курсовые проекты

Рассказывает Сергей Ширкин, куратор специальности.

Мы обучаем специальности в три этапа:

Как курсовые проекты помогут найти работу

В ходе курсовых проектов вы научитесь делать разведочный анализ данных (EDA) – разберётесь, как устроены данные в конкретном примере, как их визуализировать. И конечно, что делать с ними дальше, какие модели машинного обучения применять. Эти навыки пригодятся любому аналитику.

Курсовой проект по прогнозированию стоимости недвижимости можно будет показать на собеседовании в агентствах недвижимости, таких как ЦИАН или ДомКлик.

Проект по кредитному скорингу — оценке кредитоспособности заёмщика — понравится банкам и микрофинансовым организациям.

Прогнозирование оттока клиентов будет актуально для интернет-магазинов, операторов связи, компаний развлекательной сферы, в том числе онлайн-кинотеатров и игровых сервисов. Им важно оценивать риски отказа от их услуг в режиме реального времени.

Особенно сложными и важными будут проекты на курсе «Алгоритмы анализа данных». При их выполнении нельзя будет пользоваться готовыми моделями Machine Learning. Вы должны будете практически с нуля написать на Python свою модель для выбранных задач.

В итоге вы научитесь строить модели разного типа — от деревьев решений, линейной и логистической регрессии до случайного леса и градиентного бустинга. Это умение пригодится при трудоустройстве ML-инженером, в ситуации, когда нужно написать свою библиотеку для машинного обучения, либо для научной работы в этом направлении.

Освоить востребованную профессию в Data Science можно всего за полтора года на курсах GeekBrains. После учёбы вы сможете работать по специальностям Data Scientist, Data Analyst, Machine Learning, Engineer Computer Vision-специалист или NLP-специалист.

Освоить востребованную профессию в Аналитике больших данных можно всего за полтора года на курсах GeekBrains.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *