Лучшие вопросы
Таймлайн
Чат
Перспективы
Наука о данных
Из Википедии, свободной энциклопедии
Remove ads
Remove ads
Наука о данных (англ. data science; иногда даталогия — datalogy[1]) — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных.
Рассматривается как академическая дисциплина[2], а с начала 2010-х годов, во многом благодаря популяризации концепции «больших данных»[3], — и как практическая межотраслевая сфера деятельности, притом специализация исследователя данных (англ. data scientist — «учёного по данным») с начала 2010-х годов считается одной из самых привлекательных, высокооплачиваемых и перспективных профессий[4][5].
Remove ads
История
Суммиров вкратце
Перспектива
Началом формирования выделенной дисциплины считается 1966 год, когда был учреждён Комитет по данным для науки и техники (CODATA)[6], а первое введение термина data science относится к книге Петера Наура 1974 года, в которой он явно определил науку о данных как дисциплину, изучающую жизненный цикл цифровых данных — от появления до преобразования для представления в других областях знаний[7] (существует мнение, что Наур употреблял термин «data science» ещё в конце 1960-х[8]).
Однако, только в 1990-е годы термин, обозначающий дисциплину, получил широкое употребление[9][6] и только в начале 2000-х стал общепризнанным прежде всего благодаря статье статистика Bell Labs Уильяма Кливленда[англ.] (по состоянию на 2012 год — профессор статистики в Университете Пердью), в которой он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы[10][11].
В 2002 году Комитетом по данным для науки и техники начат выпуск журнала CODATA Data Science Journal, содержащего в названии наименование дисциплины, а в январе 2003 года вышел первый номер The Journal of Data Science Колумбийского университета.
Очередной взлёт широкого интереса к науке о данных относится к появлению парадигмы «больших данных», которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. С 2011 года O’Reilly проводит серию крупных конференций по науке о данных — Strata[12], корпорация EMC начиная с 2011 года проводит ежегодной саммит по науке о данных[13]. McKinsey в 2011 году спрогнозировал спрос в США на 440—490 тыс. новых специалистов с «глубокими аналитическими навыками по работе с большими данными» к 2018 году и дефицит в 50 % — 60 % в таких специалистах при сохранении образовательных трендов[14], в связи с этим прогнозом во многом был подогрет интерес к созданию учебных программ[15].
В 2012 году профессия data scientist неоднократно отмечается как одна из самых привлекательных (англ. sexy) и перспективных в современном мире, утверждается, что такие специалисты будут играть ключевую роль в организациях, за счёт возможностей получения конкурентных преимуществ благодаря анализу, быстрой обработке и извлечению закономерностей в данных, прежде всего, в технологических отраслях[16][5].
С 2013 учебного года Университет Данди, Оклендский университет, Университет Южной Калифорнии запустили магистерские программы по науке о данных, а бизнес-школа Имперского колледжа Лондона — программу подготовки «магистров наук по науке о данных и менеджменту» (англ. MSc Data Science & Management)[17]. В том же году Вашингтонский университет, Университет Калифорнии в Беркли и Нью-Йоркский университет получили грант в размере $37,8 млн на развитие науки о данных, в рамках которого в течение пяти лет должны будут, в том числе, выстроить учебные программы и создать возможности для академической карьеры в данной области[18].
Remove ads
Содержание
Суммиров вкратце
Перспектива
Основная практическая цель профессиональной деятельности в науке о данных — обнаружение закономерностей в данных[19], извлечение знаний из данных в обобщённой форме[20]. Для объяснения навыков, необходимых для деятельности в этой области, часто используется диаграмма Венна[21], на которой навыки, требуемые специалисту, отражены на пересечении сфер общепредметного опыта (англ. substantive expertise), практического опыта в информационных технологиях (hacking skills) и знания математической статистики[22].
В качестве эпистемологической особенности дисциплины указывается приоритет практической применимости результатов, то есть, успешности предсказаний, перед их причинностью, тогда как в традиционных исследовательских областях существенно объяснение природы явления[23]. В сравнении с классической статистикой, на методах которой во многом основывается наука о данных, в ней подразумевается исследование сверхбольших разнородных массивов цифровой информации и неразрывная связь с информационными технологиями, обеспечивающими их обработку[24]. В сравнении с деятельностью в области проектирования и работы с базами данных, где предполагается предварительное проектирование модели данных, отражающей взаимосвязи предметной области и последующее исследование загруженных данных относительно простыми (арифметическими) методами, в науке о данных предполагается опора на аппарат математической статистики, искусственного интеллекта, машинного обучения, зачастую без предварительной загрузки данных в модели. В сравнении с профессией аналитика, основная цель деятельности которого в описании явлений на основе накопленных данных относительно простыми пользовательскими средствами (вроде электронных таблиц или средств класса Business Intelligence), профиль специалиста по науке о данных в меньшей степени требует концентрации на содержании предметных областей, но требует более глубоких знаний в математической статистике, машинном обучении, программировании, и в целом более высокого образовательного уровня (магистры, кандидаты наук, Ph.D в сравнении с бакалаврами и специалистами)[25].
Remove ads
Академические программы
Суммиров вкратце
Перспектива
В курсе введения в науку о данных Вашингтонского университета, опубликованном в системе Coursera, выделены следующие разделы[26]:
- модели данных: отношения, «ключ — значение», деревья, графы, изображения, тексты;
- реляционная алгебра и параллельное выполнение запросов;
- NoSQL-системы и хранилища «ключ-значение»;
- компромиссы между SQL-, NoSQL- и NewSQL-системами;
- проектирование алгоритмов для Hadoop (и для MapReduce в общем случае);
- базовый статистический анализ: семплирование, регрессии;
- введение в data mining: кластеризация, ассоциативные правила, деревья решений;
- приложения: социальные сети, биоинформатика, анализ текста.
Блок науки о данных программы магистерской программы по «науке о данных и менеджменту» Имперского колледжа Лондона включает подготовительный курс «продвинутой статистики» (англ. advanced statistics). Непосредственно в курс по науке о данных входят следующие дисциплины:
- машинное обучение;
- системы управления базами данных;
- инженерия программного обеспечения;
- анализ данных (англ. intelligent data) и вероятностный вывод (англ. probabilistic inference), в описании дисциплины даются ссылки на байесовский вывод и алгоритмические методы моделирования, классификации и дискриминантного анализа данных на его основе;
- вероятностные модели и продвинутая статистика.
После курсов по науке о данных и основам менеджмента в программе предусмотрен прикладной курс, разбитый на два потока, в финансово-технологический поток включены управление рисками, управление активами и производные финансовые инструменты, а в консалтинговый — обработка больших массивов данных (англ. large datasets), сетевой анализ, эконометрический анализ, приложения в сфере услуг и консалтинге, энергетике, здравоохранении, политике.[17]
Программа Университета Данди делает упор на «большие данные», прежде всего, в противовес «табличной обработке», и фокусируется на интеллектуальном анализе данных, моделировании баз данных и хранилищ, статистике, в рамках программы изучаются языки SQL, MDX, R, Erlang, Java, инструменты Hadoop и NoSQL[27].
Remove ads
Примечания
Литература
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads