Data Scientist — универсальный специалист по данным Big Data

Профессия Data Scientist — специалист по обработке, анализу и хранению больших массивов данных Big Data— в современном мире считается одной из самых перспективных, актуальных и высокооплачиваемых.

data scientist универсальный специалист по данным Big Data

Востребованность этих специалистов растет из года в год большими темпами. К 2018 году по данным McKinsey Global Institute спрос на Data Scientist составит около 200 тысяч человек в одной только стране — США. Кроме того, при существующей тенденции роста Big Data во всех отраслях возрастает необходимость обучения менеджеров основным навыкам работы с массивами больших данных. Поэтому так стремительно и широко финансируются факультеты при самых престижных вузах по подготовке специалистов по данным. В России также растет спрос на Data Scientist.

Профессия Data Scientist была официально зарегистрирована как межотраслевая дисциплина в начале 2010 г. Необходимость возникновения такой профессии обусловлена тем, что ультрабольшие массивы данных оказываются слишком велики для того, чтобы обрабатывать их стандартными средствами математической статистики. Каждый день через сервера компаний всего мира проходит тысячи петабайт (1015 байт = 1024 терабайт) информации. Например, архивные данные в хранилище, созданном на основе Apache Hadoop и Hive, такой крупной компании как Airbnb, составляют несколько петабайт данных. Кроме таких объёмов данных, проблему усложняет их разнородность и высокая скорость обновления.

Обычные специалисты по статистике, системный аналитик или бизнес-аналитик по отдельности не могут решить задачи с такими объёмами данных. Для этого нужен человек с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях.

Особенности профессии Data Scientist:

  • умение извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени;
  • устанавливать скрытые закономерности в массивах данных;
  • статистически анализировать их для принятия грамотных бизнес-решений.

Рабочим местом такого специалиста является не 1 компьютер и даже не 1 сервер, а кластер серверов.

На данный момент специалистов такого уровня катастрофически не хватает. Спрос на Data Scientist удовлетворен всего на 30%. А государственные образовательные учреждения и частные вузы не справляются с этой задачей. Несколько технических вузов имеют в своём арсенале магистерскую программу подготовки «специалистов по науке о данных и менеджменту».

Но одного обучения недостаточно: чтобы стать специалистом высокого класса обязателен опыт работы, где придётся столкнуться с реальными задачами по Big Data. Это уникальная сфера деятельности для человека с нестандартным мышлением. Data Scientist — это учёный, постоянно генерирующий новые идеи, большинство из которых может и не сработать. Но это не должно его останавливать. Как настоящий учёный он должен искать и находить способы, которые решат проблему. Учёный не имеет права сказать: «НЕТ!» проблеме. Простые специалисты, как правило, не получив решения проблемы с помощью стандартных инструментов анализа и статистики, перестают заниматься ею и переключаются на другие вопросы.

При приёме на работу Data Scientist в первую очередь оценивают его умение погружаться в проблему и стремиться решить её любым способом. Для этого кандидату на должность предлагают тест, вырванный из контекста. Настоящий ученый без лишних уточняющих вопросов полностью погрузится в задание, рассматривая его с разных сторон, под разными углами, создавая различные вероятностные модели со случайными величинами, пытаясь выявить закономерность. В этом и проявляются нестандартность мышления и настойчивость в поисках способа и инструментов решения проблемы.

Получить профессию Data Scientist можно в следующих учебных заведениях:

  • в МГУ им. Ломоносова, Факультет вычислительной математики и кибернетики;
  • по специальной образовательной программе Mail.Ru Group «Техносфера», с обучением методам интеллектуального анализа большого объема данных, программированию на С++, многопоточному программированию и технологии построения систем информационного поиска;
  • в МФТИ, Кафедра анализа данных;
  • на Факультете бизнес-информатики в НИУ ВШЭ, где готовят системных аналитиков, проектировщиков и внедренцев сложных информационных систем, организаторов управления корпоративными информационными системами;
  • в Школе анализа данных Яндекс также есть свои программы подготовки;
  • в Университетах Иннополиса, Данди, Южной Калифорнии, Окленда, Вашингтона по программам обучения «Магистратуры по направлению Big Data»;
  • в Бизнес-школе Имперского колледжа Лондона: «Магистратура по науке о данных и менеджменту».

Профессию Data Scientist в России можно получить и совершенствовать по специальным программам дополнительного образования, организуемым компаниями, которые занимаются исследованиями в этой сфере.

Приобрести реальный опыт работы позволяет онлайн-ресурс «Kaggle», созданный в апреле 2010 г. Это система для сбора данных, их обработки и интеллектуального моделирования, с помощью которой можно осуществлять прогнозирование ситуаций и решение задач в разных сферах — банковских и финансовых структурах, маркетинге, страховании, научных исследованиях. Система «Kaggle» структурирует бизнес-задачи в упорядоченный набор данных, с которым проще составить прогноз. В рамках этого ресурса возможно применение различных инструментов статистической обработки и математического анализа информации.

На виртуальной площадке «Kaggle» встречаются заказчики со своей информацией и специалисты, владеющие принципами построения сложных алгоритмов и научного моделирования — 46 тысяч человек со всего мира.

Ресурс «Kaggle» работает следующим образом:

  • заказчиком открывается новая компания с вводными данными;
  • ресурс предлагает конкретных консультантов;
  • проводятся поиски лучшего варианта модели;
  • производится оценка точности прогноза;
  • по результатам оценки прогноза определяется победитель;
  • заказчик оплачивает гонорар победителю.

Проекты «Kaggle» бывают двух видов: публичные и закрытые. В публичных исходный код открыт и в них могут свободно участвовать любые консультанты. В закрытых проектах принимают участие только специалисты, определённые заказчиком.

Ресурс «Kaggle» имеет бесплатные и платные сервисы, в зависимости от сложности задач. Для заказчиков сервис платный, для учёных — бесплатный. Кроме того, бесплатно могут им пользоваться университеты и колледжи на контрактной основе. Как правило, команда специалистов — ученых и аналитиков — собирается из людей-единомышленников, которые до этого сотрудничали друг с другом.

Стать профессионалом Data Scientist — это высокое карьерное достижение. Такой специалист в любой компании становится ключевой фигурой.

 

Комментарии

войти, используя

Здесь пока никто ничего не написал. Будьте первыми!

Похожие статьи

Data Scientist

Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных) Data Scientist - специалист по обработке, анализу и хранению больших массивов данных, так называемых «Big Data».

Gamedev (разработчик игр)

Gamedev (разработчик игр) Разработчик игр или gamedev — специалист, занимающийся созданием программного кода, визуализацией и концепцией игры, а также выбором средств для реализации поставленных задач.

Верстальщик HTML (HTML-верстальщик)

Верстальщик HTML (HTML-верстальщик) HTML-верстальщик – это специалист, выполняющий вёрстку web-страниц. Другими словами, он создаёт HTML-шаблон для web-сайта с использованием знаний HTML-кода и всех особенностей стиля и графического оформления.

Системный инженер

Системный инженер Системный инженер — специалист, настраивающий и обслуживающий внутренние компьютерные сети, офисную технику и ПК, также он обучает сотрудников и помогает им использовать ПО.