Почему дата-сайентиста невозможно заменить программой

Kate

Administrator
Команда форума
По мере роста популярности науки о данных и её определения как профессии возникла идея, что Data Science автоматизируема, потому что автоматизируется множество процессов: сравнение моделей, визуализация, очистка данных; но на других, ключевых этапах дата-сайентисты — самые ценные специалисты. К старту флагманского курса о Data Science делимся переводом статьи Senior Data Scientist в Favor Delivery о том, почему дата-сайентиста нельзя заменить машиной.


Человек ставит проблемы​

Изучая науку о данных, люди сосредотачиваются на программировании, разработке моделей, но главенствующая причина, почему руководить процессом должен человек заключается в том, как наука о данных должна работать в бизнесе и в продукте.

Важный шаг формирования бизнеса — постановка проблемы. Автоматизация не обнаружит проблему, не определит её чётко. Она может облегчить поиск решения, но, чтобы видеть дыры, чувствовать, что исправить, нужно понимать бизнес и подходить к делу творчески.

Поэтому проблемы должен ставить человек:
  • Автоматизация не понимает проблем, она не знает, что человеку [на этапе развития бизнеса] не рекомендуются продукты, исходя из его истории; автоматизация упустит проблему, решение которой — система рекомендаций.
  • Автоматизация не расставит приоритеты, она не умеет самостоятельно оценивать труд, время, деньги, затронутые приложения и многое другое.
  • Автоматизация не встречается с менеджерами по продуктам и не понимает болевые точки бизнеса.
Причины необходимости автоматизации трудно придумать.

Дата-сайентист исследует данные​

Автоматизированное машинное обучение (AutoML) не начнёт с постановки проблемы и не знает, какие источники данных искать; оно объединяет данные, даёт конечный набор, но не обнаружит исходные данные до их подготовки.

Сравним AutoML и человека:
  • AutoML нужны данные, их собирает дата-сайентист.
  • Дата-сайентист изучает ресурсы, источники и платформы, чтобы найти информацию и создать модель.
  • AutoML будет сложно отправлять электронные письма компаниям и вообще знать, что искать: информацию о трафике, о потребителях или что-то иное.

Дата-сайентист создаёт признаки​

Инженерия признаков (feature engineering) автоматизируется, однако этот термин взаимозаменяют и путают с feature creation — созданием признаков. Для целей статьи будем работать с термином feature creation. Воспользоваться преимуществами AutoML можно, но, чтобы понять, какие признаки создавать, нужно понимать бизнес, продукт и потребителей.

Ключевые моменты:
  • Дата-сайентисты знают, что два признака можно объединить, умножить или разделить: clicks и user представляются как clicks per user.
  • Специалисты понимают, что признаки нужно группировать, когда это имеет смысл.
Возможно, AutoML попытается создать признак clicks per house: в него заложено, что делить признаки один на другой важно, но также AutoML может создать бессмысленный признак из-за непонимания бизнеса и отрасли.

В сравнении с признаком выше специалист в Data Science создал бы такой признак, как clicks per user grouped by zipcode, и он будет работать, а не просто лежать в модели; зная, что этот признак наиболее важен, вы создадите направленную на определённые характеристики маркетинговую кампанию.

Дата-сайентист понимает индустрию​

Этот пример повторяет другие: Data Science нужен человек, который понимает бизнес:

  • В автоматическом режиме достаточно сложно узнать, какие типы моделей Data Science следует задействовать в зависимости от отрасли.
  • Отрасли сильно отличаются друг от друга: алгоритм рекомендаций в здравоохранении может оказаться не столь полезным, как внутри киносервиса.

Дата-сайентист внедряет модель в продукт или в бизнес​

Примеры выше сосредоточены вокруг первых этапов проекта Data Science, но последний посвящён завершающей стадии. Предположим, у вас есть лучшая автоматизированная платформа выбора модели с потрясающей точностью… но что она будет делать? Чтобы ответить на этот вопрос, необходим специалист в Data Science.

  • Автоматизация может зайти очень далеко, поэтому специалист знает, куда поместить результаты — в приложение, на сайт и т. д.
  • Дата-сайентисты должны знать, с какой частотой обучать модель, показывать результаты или делать прогнозы — во многих случаях это обсуждается, когда изучаются данные и определяются задачи.
  • Специалисты понимают, как эффективнее обобщить сложные результаты для заинтересованных сторон. Даже если результаты хорошо обобщены AutoML, отвечая на вопросы клиентов, заинтересованных сторон и руководства человек, например специалист в Data Science, окажется полезнее.

Итоги​

Большинство ситуаций касались начала работы над проектом Data Science, и одна рассказывала о последних этапах. Это означает, что работа в середине процесса автоматизируется, а платформы автоматизации невероятно полезны, но именно вы нужны, чтобы начать работу и закончить её. Я считаю, что должности в области науки о данных не будут сокращаться; напротив, со временем они будут обновляться.

Если вам интересно решать проблемы бизнеса, вдумываться в решения, стремиться к пониманию и понимать, то вы можете обратить внимание на наш флагманский курс о Data Science, его итогом станут 13 проектов, которые полностью подготовят вас к началу карьеры в науке о данных.

Источник статьи: https://habr.com/ru/company/skillfactory/blog/567932/
 
Сверху