Мир цифровых профессий поражает своим величием и многообразием. Человеку неискушенному легко в нем запутаться. Однако и тем, кто видит в терминологии «очень много знакомых букв» зачастую непонятны нюансы, скрывающиеся за разницей в одну-две буквы в названии профессии или направления деятельности.
Вы сможете понять все, что угодно, если пройдете наши программы «Когнитивистика» и «Лучшие техники самообразования». А мы сегодня поговорим про аналитику данных, Data Science и разницу между Data Analyst и Data Scientist. Начнем с определения терминов.
Что такое Data Science и кто такой Data Scientist?
Data Science – это наука о данных. Именно так переводится это выражение с английского языка. Наука о данных занимается анализом, обработкой и представлением различных данных в цифровой форме и охватывает все этапы работы с данными.
Можно сказать, что Data Science – это не просто раздел информатики, а междисциплинарная область на стыке математики, статистики, системного анализа, машинного обучения и искусственного интеллекта.
Развитие науки о данных принято отсчитывать с 1966 года, когда был учрежден Комитет по данным для науки и техники CODATA. С тех пор и по сей день эта структура занимается сбором, критической оценкой, хранением и поиском важных данных для различных отраслей науки и техники данных [CODATA, 2023].
Data Science предполагает работу с так называемыми Big Data – большими данными или большими объемами данных. Под Big Data обычно подразумеваются огромные массивы неструктурированной информации, в которой не просматриваются явные взаимосвязи.
Тем не менее, анализ, проведенный методами Data Science, позволяет выявить множество неочевидных закономерностей и спрогнозировать дальнейшее развитие событий, что может помочь принять правильное решение в бизнесе, продажах, продвижении товаров и услуг, дипломатии, международных отношениях, криминалистике, поиске преступников, раскрытии преступлений и т.д.
Это в двух словах о том, что такое Data Science. Тогда кто же такой Data Scientist? Data Scientist – это специалист по работе с данными. Сегодня это очень популярное направление среди желающих сделать карьеру в IT-сфере. Data Science обучение с нуля предлагают практически все серьезные IT-школы и ведущие игроки рынка цифровых технологий.
Для свободно владеющих английским доступны бесплатные Data Science курсы от Google, IBM и других гигантов IT-индустрии [Ю. Николаенко, 2022]. На русском языке предложений меньше, но найти достойные варианты можно. В частности, предлагает обучение Data Science «Яндекс.Практикум» – образовательная платформа, которая специализируется на обучении IT-профессиям [Яндекс.Практикум, 2023].
Обратите внимание, что все уважающие себя образовательные организации обязательно публикуют программу обучения Data Scientist. В разных структурах программы обучения, естественно, различаются, однако неизменным и обязательным для всех будущих специалистов по работе с данными является язык программирования Python – Data Science и работа с данными, можно сказать, строятся на его основе.
По заверениям «Яндекс.Практикум», в Data Science вакансии стартуют от 60 000 рублей в месяц для Junior, что соответствует уровню начинающих, и от 120 000 рублей в месяц для Middle. А для Middle+ на сайтах трудоустройства можно найти намного более щедрые предложения с зарплатой от 170 000 рублей «чистыми» за работу на «удаленке» [HeadHunter, 2023]. Давайте рассмотрим чуть подробнее, где и для чего используют Data Science и чем занимается Data Scientist.
Использование Data Science в разных сферах:
- В интернет-маркетинге и контекстной рекламе для формирования онлайн-рекомендаций для пользователей (товары, услуги, новости, онлайн-сервисы).
- В здравоохранении для прогнозирования заболеваний и формирования рекомендаций по поддержанию здоровья.
- В логистике для разработки и оптимизации международных и внутренних маршрутов.
- В банковской сфере для оценки заемщика и риска несвоевременного возврата кредита.
- В промышленной сфере для предварительной оценки износа оборудования и планирования ремонтов и технического обслуживания.
- В сфере недвижимости для поиска наиболее подходящих покупателю объектов.
- В государственном секторе экономики для прогнозирования ситуации на рынке труда, движения ресурсов и капиталов, потребностей в инвестициях.
- В правоохранительной сфере для предотвращения и раскрытия преступлений и поиска преступников.
- В спорте для выбора перспективных игроков и победных стратегий.
Это вкратце о том, что такое Data Science и кто такой Data Scientist. Мы еще вернемся к этому вопросу в контексте заявленной темы, а сейчас продолжим разбираться с терминологией.
Что такое «Аналитика данных» и кто такой Data Analyst?
Под аналитикой данных подразумевается процесс обнаружения значимых сведений и закономерностей, их интерпретация, выявление скрытых закономерностей и возможностей практического применения полученных выводов.
Аналитика данных помогает выявлять ту информацию и те данные, которые без специального исследования прошли бы мимо внимания человека. Можно сказать, что аналитика данных преобразует необработанные данные в практические выводы.
Для анализа нужно сначала собрать данные по определенным параметрам, продумать принципы сортировки, очистить от нерелевантных данных, и только потом перейти к анализу, выводам и визуализации для того, чтобы представить полученный результат в наглядном виде.
Качественно сделанная аналитика данных обеспечивает бизнесу наглядность и более глубокое понимание всего, что связано с его работой, процессами, сервисом, взаимодействии с клиентами. Это, в свою очередь, помогает вовремя продумать и принять меры, способствующие росту продаж, снижению издержек бизнеса и скорейшей адаптации к изменениям на рынке.
И, кстати, увидеть грядущие изменения раньше, чем это получится у конкурентов – одна из задач аналитики данных. Какие еще задачи решает аналитик? Давайте посмотрим!
Задачи аналитики данных в разных сферах:
- Проектирование и обслуживание баз данных, в том числе исправление ошибок кодирования в данных.
- Добыча данных из различных источников и трансфер данных в формат для дальнейшей машинной обработки.
- Использование инструментов статистики для интерпретации блоков данных, выявленных тенденций и закономерностей.
- Сотрудничество с разработчиками, инженерами и руководителями с целью выявления дополнительных источников данных, возможностей для улучшения аналитики и выработки более эффективных рекомендаций по решению практических задач.
- Разработка документации для всех этапов анализа данных с тем, чтобы при необходимости можно было провести повторный анализ по тем же параметрам.
Существуют различные виды аналитики данных, и в бизнесе всю аналитику можно условно разделить на 4 основных направления [Э. Рой, 2021].
Виды аналитики данных:
- Дескриптивная аналитика – описание всего, что происходило на протяжении заданного отрезка времени или какого-либо процесса (например, эксплуатации автомобиля).
- Диагностическая аналитика – для определения причин того, что произошло ранее или происходит сейчас (например, поломки автомобиля).
- Прогнозная или предиктивная аналитика – для прогнозирования вариантов развития событий (например, вероятности дальнейших поломок тех или иных узлов и агрегатов автомобиля).
- Предписывающая аналитика – выводы из результатов дескриптивной, диагностической и прогнозной аналитикой с набором рекомендаций относительно оптимальной модели дальнейших действий.
Это о том, что такое аналитика данных. Тогда кто же такой аналитик данных или Data Analyst? Как вы, наверное, уже поняли, Data Analyst – это специалист, который занимается аналитикой данных. Это еще одно набирающее популярность направление приложения усилий для желающих работать в IT.
Свободно владеющим английским и желающим освоить специальность «Аналитика данных» обучение доступно бесплатно. Свои бесплатные программы предлагают Harvard, Stanford и многие другие университеты и компании [М. Васильева, 2022].
На русском языке можно учиться на уже знакомой нам платформе Яндекс: «Аналитик данных» – профессия, которую, как гласит предложение от «Яндекс.Практикум», можно освоить за полгода и стартовать с зарплаты 60 000 рублей в месяц [Яндекс.Практикум, 2023].
Сайты по поиску работы традиционно более щедры в своих предложениях и предлагают вакансии аналитика данных с зарплатой от 140 000 рублей до вычета налогов [HeadHunter, 2023]. Правда, для должности «Аналитик данных» вакансии столь же традиционно не содержат сведений относительно требуемого уровня – Junior, Middle или Senior, поэтому ориентироваться придется исключительно по описанию будущих должностных обязанностей:
Обратите внимание, что Data Analyst должен знать Python, как и Data Scientist.
Итак, мы с вами в общих чертах разобрались, что такое «Аналитика данных» и кто такой аналитик данных. И самые проницательные читатели увидели, что в описании профессий достаточно много общего, и это не только язык программирования Python. Давайте разберемся с этим более подробно!
Какая разница между аналитиком данных и специалистом Data Science?
Вопрос о различиях возникает регулярно, в том числе у тех, кто обмысливает свой возможный путь в IT-индустрию. По причине востребованности данной темы эксперты IT-отрасли столь же регулярно предпринимают попытки разъяснить разницу.
Для достижения максимальной объективности изучим несколько тематических обзоров, потому что разные эксперты делают разные акценты, когда говорят о различиях, но практически единогласно признают наличие общих моментов и то, что в небольших компаниях эти обязанности могут быть совмещены в рамках одной вакансии.
Начнем с мнения экспертов уже неоднократно упомянутой нами платформы «Яндекс.Практикум» [Е. Кузнецов и др., 2022]. Тем более что на этой платформе ведется обучение и по одному, и по другому направлению. Так, эксперты из «Яндекса» склонны считать, что аналитика данных и Data Science – это разные этапы единого процесса, и склонны рассматривать аналитику данных как отрасль Data Science:
Разница заключается в том, что аналитика данных сфокусирована на интерпретации результатов, тогда как Data Science занята преимущественно поиском корреляций между блоками данных. Так, Data Scientist значительную часть усилий тратит на так называемую «очистку данных».
Это очень ответственный момент, когда, с одной стороны, нужно учесть максимальное количество действующих факторов и не упустить из вида ни одной детали, а с другой стороны, важно не перегрузить будущий анализ избытком однотипных или вовсе нерелевантных данных. Иначе есть риск скатиться в исследования на уровне «влияние лунного света на рост телеграфных столбов».
Это довольно старый мем, со временем обросший подробностями леденящей душу истории о казахских исследователях, выкравших 90 телеграфных столбов с целью засеять ими часть пустыни Каракум, а затем наблюдать за их ростом без постороннего вмешательства в процесс ремонтных бригад, местных администраций и иже с ними [G. Cat, 2012]. Мы вспомнили об этом исключительно для того чтобы проиллюстрировать важность качественного отбора данных для анализа, чем и занимается Data Scientist.
И второй момент – это степень полезности полученных выводов. Даже если допустить, что телеграфные столбы «растут» на 2-3 миллиметра в столетие, как утверждают некоторые горячие головы от науки, вряд ли эта информация принесет пользу промышленности или энергетике. Тем более что такое исследование учитывает только интенсивность лунного света и не берет в расчет процессы, идущие внутри грунта, на котором установлены столбы.
Data Scientist обычно занимается намного более прозаичными вещами. К примеру, пытается высчитать оптимальный размер вложений в производство новой продукции с тем, чтобы скорее «отбить» затраты и начать получать прибыль.
Главное отличие между профессиями по мнению экспертов «Яндекс.Практикум» заключается в том, что аналитик не имеет навыков машинного обучения, поэтому работает в большей степени «по старинке». Например, запрашивает у маркетологов сведения по прошлым рассылкам для клиентов и сегментирует аудиторию по возрастному, гендерному и прочим признакам, сопоставляет эти признаки с последующими запросами и покупками клиентов и пытается выявить взаимное влияние параметров и прочие закономерности, в том числе не всегда очевидные.
Посмотрим теперь, как видят эти различия эксперты портала, посвященного теме профессиональной ориентации [ПрофГид, 2023]. Ввиду специфики портала анализ опирается на разницу в профессиональных обязанностях Data Analyst и Data Scientist:
- Работа аналитика в значительной степени состоит в визуализации результатов отбора и обработки данных и формулировке выводов на их основе. Data Scientist в придачу к этому должен уметь создать модель машинного обучения, которую задействуют для дальнейшего анализа.
- Как правило, аналитик обрабатывает меньший объем данных, чем специалист по Data Science, которому приходится иметь дело с Big Data.
- Итогом работы аналитика являются практические рекомендации для принятия решения «здесь и сейчас». Итогом работы Data Scientist является модель машинного обучения, способная выдавать прогнозы на перспективу и сформировать оптимальную стратегию развития.
- У задач Data Analyst более короткий «жизненный цикл» и в быстро меняющихся обстоятельствах аналитик может готовить аналитические отчеты каждые несколько дней, в то время Data Scientist занят длительным процессом машинного обучения и каждый проект идет от полугода и дольше.
- Для работы Data Analyst и Data Scientist требуется несколько отличный набор навыков, где общее только аналитическое мышление, логика, хорошее знание математических методов и статистики.
Отметим, в данном случае эксперты профориентационного ресурса считают, что владение технологиями машинного обучения и знание языка программирования Python нужно только специалисту по Data Science, в то время как мы уже видели реальные описания вакансий, где для аналитика данных выдвигается требование владения языком Python.
Впрочем, можно считать, что это еще один аргумент в копилку тех, кто полагает границы между обязанностями аналитика и Data Scientist слишком размытыми, а иногда и вовсе условными. Тем более что, как мы выяснили ранее, в небольших компаниях эти обязанности может совмещать один человек, а эксперты «Яндекс.Практикум» считают аналитику данных разделом Data Science.
Итак, мы ознакомились с тем, как видят разницу между направлениями деятельности образовательные структуры и профориентационные ресурсы. А что же думают по этому поводу специалисты, которые уже работают с данными?
Наиболее наглядно прикладной аспект разницы описан в статье Would You Rather be a Data Analyst or Data Scientist? («Вы бы предпочли быть аналитиком данных или специалистом по данным?») автором, который успел поработать и аналитиком, и Data Scientist [M. Przybyla, 2020]. В частности, автор утверждает, что и на позиции Data Scientist, и на позиции аналитика ему пригодились знания Python, SQL и Tableau.
Для справки: Tableau – это программное обеспечение для интерактивной визуализации данных и бизнес-аналитики.
Тем, кто пока не хочет глубоко вникать в технические нюансы профессий, но хотел бы получить представление об этих сферах деятельности на отечественном рынке, можно рекомендовать подборку интервью со специалистами Data Science и аналитиками, работающими в российских компаниях [А. Бзегежев, 2020].
Если коротко, с точки зрения практиков знания Data Scientist – это в придачу, а не вместо знаний Data Analyst, равно как и Data Analyst вполне может пользоваться теми же инструментами исследования, которыми пользуется специалист по Data Science.
Помимо этого, аналитику может пригодиться знание языка программирования R для статистической обработки данных и работы с графикой. А в качестве альтернативы Tableau можно воспользоваться Power BI.
Для справки: Power BI – это комплексное программное обеспечение бизнес-анализа от компании Microsoft, объединяющее несколько программных продуктов и web-сервисов.
Кроме того, наши специалисты считают важным разбираться в той отрасли, в которой планируется работать с данными: промышленность, строительство, транспорт, ритейл, туризм, HoReCa, медицина, право, политика и т.д. Это вкратце о том, как видят наполнение терминов и разницу между профессиями специалисты-практики.
Можно найти и другое определение разницы между рассматриваемыми профессиями, для которого нужно ввести понятие Data Mining Specialist [Bi Consult, 2021]. Это можно представить в виде формулы:
Data Scientist = Data Analyst + Data Mining Specialist
Для справки: Data Mining Specialist – это специалист по интеллектуальной обработке данных. Как правило, его задача – создание предиктивной модели для прогнозирования вариантов развития событий и поиска наилучшего решения на основе ранее сделанных прогнозов.
Если говорить о каких-то рекомендациях для людей, рассматривающих будущую карьеру в IT-индустрии и пока не определившихся с выбором, можно сказать, что начать лучше с освоения профессии аналитика данных, потому что это чуть проще, чем Data Science.
Особенно это касается людей, не имеющих математического или высшего технического образования и, следовательно, не знакомых с математическим анализом, статистикой и прочими дисциплинами, изучаемыми в этих вузах.
К слову, в приведенной выше подборке есть интервью с человеком, который закончил педагогический университет и смог освоить профессию аналитика данных настолько хорошо, что теперь работает в государственной страховой компании.
Итак, мы с вами разобрались в общих чертах, что такое аналитика данных и Data Science и какая разница между Data Analyst и Data Scientist. Вы сможете разобраться практически в любой новой для себя сфере, если пройдете наши программы «Когнитивистика» и «Лучшие техники самообразования».
Мы желаем, чтобы ваша работа приносила вам моральное удовлетворение и достойное финансовое вознаграждение. Мы ждем вас на наших курсах и программах и предлагаем ответить на вопрос по теме статьи: