Лекцыі

Словарный запас: Big Data (Видео)

20.02.2018
«Беларусский Журнал», Летучий университет, Blog-Tv Trixter

«Беларусский Журнал», Летучий университет и Blog-Tv Trixter в рамках совместного проекта под названием «Словарный запас» продолжают знакомить с «новыми словами» и тем, что за ними стоит.

Вместе с ведущими беларусскими интеллектуалами, учеными, экспертами и практиками в различных отраслях делается попытка формировать тезаурус современного человека, разбираясь с техническими, социальными, культурными инновациями, которые приходят в нашу жизнь и меняют ее.

Тема, с которой начали — «блокчейн». Сейчас предлагается больше узнать про то, что называют «большими данными» (Big Data), которые развиваются не менее стремительно.

The Economist утверждает, что сегодня главный источник энергии — это уже не нефть, а именно данные. Попробуем разбираться в этой теме — вместе с социологом, методолог, координатором программы «Летучий университет» Татьяной Водолажской и IT-специалистам, основателем беларусского сообщества аналитиков данных DataTalks Сергеем Кадомским.

Что такое Big Data?

Татьяна Водолажская: В узком смысле, это особая область знаний, которая связана с методами и подходами в обработке больших массивов данных. Фактически, это система управления огромными массивами данных. Но если посмотреть на это шире, то Big Data — это фактически новая реальность, или новая эпоха, которая заставляет нас переосмыслять вопросы общественной безопасности, социальных отношений, права, этики, новые модели бизнеса.

Сергей Кадомский: На самом деле, это довольно просто. Представьте себе вашу медицинскую карточку. Она у вас есть с рождения, и разные врачи записывают туда диагнозы, которые вам ставят, информацию о ваших обращениях, туда же вклеиваются результаты различных анализов, флюорографии и т.д., и т.п. Эта информация известна тем врачам, которые вас обследуют. Но вы понимаете, что информация там ограниченная — это то, о чем вы явно побеспокоились. Вам врач сказал, что нужно пойти и сдать анализ крови, вы его сдали, результаты вклеены в карточку.

А вот большие данные — это про то, что все данные о вашем здоровье собираются все время, каждую секунду. Причем это не только анализ крови или еще чего-то, но и скорость вашего сердцебиения, дыхания и т.д. И в принципе эта информация никак не привязана к тому, думаете ли вы о том, что ее нужно сохранять. И представьте, что врач может заглянуть в историю вашей жизни и посмотреть, что с вами происходило, например, неделю назад. Очевидно, что с помощью этих данных можно гораздо более эффективно ставить диагноз.

Так вот, большие данные — это принципиально новый способ работы с информацией. Сам термин стал популярен около пяти лет назад, фактически он означает возможность собирать, сохранять, анализировать гораздо большие объемы разнообразных данных, чем это было возможно раньше.

Каковы главные характеристики Big Data и меняет ли эпоха «больших данных» сами данные, наши представления о них?

Татьяна Водолажская: Большие данные традиционно характеризуются тремя вещами. Первая характеристика — это объем. Данных очень «много». Вторая характеристика, очень важная — это скорость. Скорость появления новых данных и скорость их обработки и анализа. И третья характеристика — это разнообразие данных.

Сергей Кадомский: Мне нравится распространенное описание Big Data через три английские буквы “V”: “Velocity”, “Variety” и “Volume”, т.е. «скорость», «разнообразие» и «объем». Причем я «объем» ставлю на последнее место, хотя мы и говорим о термине «большие данные». «Скорость» для меня важнее. В первую очередь потому, что наша жизнь ускоряется, и решения сейчас нужно принимать очень быстро.

Я бы дополнил эти характеристики еще двумя: «насыщенные данные» и «чистые данные». Что я подразумеваю под «насыщенными»: очень полезно объединять различные объемы данных. Из того примера, который я приводил про медицинскую карточку — если у вас есть данные о состоянии вашего тела, неплохо было бы их объединить с данными о том, где вы находились, что вы делали, что вы переживали, потому что таким образом можно провести гораздо более комплексный анализ.

А «чистота» данных — это тоже очень важный вопрос. Чем больше становится чего-либо, тем сложнее контролировать, что же происходит внутри. Уже сегодня компании часто страдают от низкого качества данных, в них бывают ошибки из-за того, что алгоритмы, которые в них используются, очень сложны для анализа. Эти ошибки могут привести к негативным результатам, иногда даже трагическим.

Татьяна Водолажская: Если говорить о том, как эпоха Big Data изменяет сами данные, то первое, что нужно отметить, что они стали более разнообразными, т.е. мы стали иметь возможность работать с разными данными: совмещать их, коррелировать, складывать модели, взаимодействовать с ними. И второе — это то, что вообще мир данных стал интересен и важен для куда более широкого круга людей. Если раньше это была фактически академическая дисциплина, то сегодня это часть реальности каждого человека.

Откуда в мире вдруг взялось столько данных, из каких источников собираются «большие данные»?

Сергей Кадомский: Данных действительно очень много. По статистике, объем цифровой информации сейчас удваивается каждые полтора года. А источники очень просты. Практически у каждого человека на земле есть телефон, многие начали носить, к примеру, фитнес-браслет. Это и информация с фотоаппаратов — я недавно прочитал о том, что в 2017 году в мире сделан 1,2 млрд. фотоснимков, основная масса — на телефоны. Это тоже информация, тоже данные, которые пополняют чей-то огромный массив.

Много данных собирают различные индустрии: медицина, добыча ископаемых, транспорт — все, что угодно. Мы все производим данные. Новая парадигма состоит в том, что мы имеем возможность их сохранять, не задумываясь о том, что мы будем анализировать, а что нет.

Татьяна Водолажская: Надо понимать, что, во-первых, все старые данные, которые собирались раньше, но в узком масштабе, теперь «живут» по-другому. Например, медицинские данные, все, что касается разнообразных анкет и форм, которые заполняются и хранятся в разных учреждениях. Раньше эти данные использовались для контроля и регулирования.

Как только мы перешли в цифровую эпоху, все «старые данные» стали собираться быстрее, и стало возможно их аккумулировать. В результате у нас появились большие массивы данных, из которых можно получать качественно иную информацию — уже не просто для контроля, сколько раз человек прошел флюорографию, а для анализа тенденций, которые есть в стране и мире.

Многие бытовые приборы, элементы нашего бытового окружения сегодня оснащены устройствами для сбора данных: сенсорами, измерителями. Мы заходим в любое учреждение, мы садимся в современную машину, а она оснащена сенсорами, которые получают данные, принимают решения и помогают нам жить.

Какие принципиально новые возможности несут Big Data и кто ими пользуется в современном мире?

Сергей Кадомский: Возможностей много, и это глобальные возможности. В первую очередь ими пользуются те, кому это выгодно с коммерческой точки зрения: финансовые компании, банки, те, кто торгует на биржах. Это компании, которые занимаются продажами, там, где внедрение новых технологий приводит к значительному и достаточно быстрому росту дохода компании.

Использование данных стало популярно в последнее время в медицине. Есть такой довольно экстремальный пример: существует ряд суперкомпьютеров в США, которые используются для постановки диагнозов. И ни для кого уже не секрет, что эти диагнозы ставятся с гораздо большей точностью, чем ставят их врачи, эксперты либо даже консилиумы.

Из интересных примеров: недавно искусственный интеллект, который был натренирован не только на играх профессионалов в го (это такая китайская игра), но и на играх с самим собой, переиграл лучшего игрока в го в мире. Когда в 1997 году компьютер Deep Blue переиграл Гарри Каспарова, это было значительным шагом с точки зрения развития искусственного интеллекта. Многие скептики долго сомневались в том, что компьютер может переиграть человека в го, потому что это принципиально другая игра, она не поддается каким-либо просчетам. Но это произошло, и произошло на десять лет раньше, чем прогнозировалось.

Большие данные приходят и в другие индустрии. Есть ряд беларусских стартапов, которые на базе больших данных помогают, например, производственникам следить за качеством работы оборудования. Они просто считывают с очень высокой частотой звуки, которые издают станки, и обнаруживают дефекты до того, как станок вышел из строя, остановилась линия или инженеры что-то заподозрили.

Вообще, если мы говорим про современные компании, стартапы, сферу IT, то вообще сложно представить компанию, которая не основывается на больших данных. Потому что если мы говорим о создании какой-то пользы, то обязательно есть те, кто пользуется нашим продуктом, а значит, и информация об этих пользователях. Использовать эту информацию, персонифицировать предложения, знать о том, чего хотят ваши пользователи (не общим скопом, а персонально) — это очень важно для любого бизнеса.

Что меняется с распространением Big Data в разных областях: социальных отношениях, образовании, науке?

Татьяна Водолажская: Если говорить о том, как и что привносят большие данные в нашу жизнь, я бы отметила четыре важных изменения. Первое связано с областью права. На сегодня вопрос приватности при сборе и использовании данных — это, пожалуй, первый вопрос, который возникает. И на сегодняшний день он не разрешен и требует установления новых отношений. Сегодня любой заход в интернет или прохождение по улице мимо камер слежения — это момент, когда мы «отдаем» свои данные и свою приватность. Что с этим делать — совершенно непонятно. Правил регулирования в этой сфере существует не так много, и это требует новых решений.

Второй важный момент — это то, что большие данные дают мощный толчок для развития эпохи потребления, которая превращается в эпоху «человекопотребления». Ведь одна из важнейших областей, где используются большие данные — это бизнес: построение моделей, прогнозирование, предложение новых товаров. И мы видим, с какой скоростью увеличивается это предложение и насколько больше мы втягиваемся в новое потребление, построенного именно на анализе больших данных.

Еще одна важная область — это то, что большие данные меняют наше представление о мире. Ведь, фактически, что делает анализ больших данных? Из хаоса, большого количества наших собственных телодвижений, действий, покупок, взглядов и т.д. мы можем сложить картину поведения человека, поведения больших масс людей. Это очень сильно углубляет наш взгляд, дает новые знания о вещах, до того скрытых, которые можно выявить через взаимодействия разных видов данных.

И последний момент, который важно отметить — это будущие изменения в области власти. Потому что владение данными, владение информацией, использование информации — это новая область осуществления власти.

Чем нам это грозит? И какие вызовы Big Data несут для человека, для общества, для государства, для человечества как такового?

Сергей Кадомский: Риски у больших данных есть, и они значительно выше, чем мы, обыватели, можем себе представить. Есть очень интересный ученый, Евгений Морозов, он — беларус, хотя уже много лет живет в США, сейчас он, насколько мне известно, приглашенный ученый в Стэндфордском университете. Он изучает влияние технологий на политическую и общественную жизнь. Так вот, он говорит о том, что современные технологии, связанные с большими данными, конечно, облегчают жизнь, но, с другой стороны, отдаляют общество от возможности принимать решения, передавая бразды правления компаниям из Кремниевой долины. Просто представьте себе, что таксист, который стал пользоваться сервисами навигации, начинает забывать свой город.

Ну и, конечно, большие данные в первую очередь используются коммерческими компаниями, а их обществу гораздо сложнее контролировать, чем государство. К примеру, таких монстров, как Google, практически невозможно контролировать. А они знают о вас очень много: они знают, что вы ищете, когда вы заболели или когда готовитесь к свадьбе, они читают вашу почту и знают все, что вы пишете своим друзьям, видят календарь. И вот только сейчас в Европе вводится законопроект, который начнет действовать в мае 2018 года и позволит пользователям контролировать свои персональные данные. Я думаю, что европейцы не просто так задумались об этом.

Татьяна Водолажская: Несмотря на весь оптимизм и веру в новый потенциал, который несут с собой большие данные, они несут с собой и много вопросов, проблем, которые необходимо решать. Первое и достаточно очевидное — это как раз то, что это фантастический уровень прозрачности, новой прозрачности. И это вопрос не только правового регулирования, но и вообще новой этики, новых человеческих отношений: что мы готовы открывать друг другу, что не готовы, как нам друг с другом взаимодействовать.

Еще один важный момент — иллюзия знания. Адепты больших данных твердят, что «данные говорят сами за себя». Мы получаем новые модели, мы получаем новые знания и забываем, что это знание не само по себе появилось, не является прямым отражением реальности. Это знание, которое кем-то собрано, проанализировано, в нем изначально заложена какая-то картина мира. Очень часто мы про это забываем, и нам кажется, что это такое естественное знание. И эта иллюзия уменьшает нашу способность управления своим миром и своими решениями.

Еще одна проблема, которая возникает в связи с большими данными — это то, что техническое, технологическое развитие, развитие возможностей анализа данных идет значительно более быстрыми темпами, чем наша способность к интерпретации. Большую роль здесь играют развивающиеся возможности визуализации, когда мы схватываем какую-то новую картину, которую дают большие данные, но нам не хватает времени, способности, компетенций разобраться и проинтерпретировать то, что мы видим, то, что мы получаем. И это запаздывание человеческой функции интерпретации, понимания, обсуждения представляет собой также некоторую опасность тому, чтобы быть хозяевами собственных решений и собственного взгляда на жизнь.

И это связано с вызовом человеческим компетенциям и функциональной грамотности. Грубо говоря, что должен уметь обычный человек — не специалист, а обычный человек, — живя в мире больших данных? Фактически, он должен уметь понимать, где и как происходит сбор данных, где он их «отдает». Он должен понимать, как происходит анализ данных, он должен видеть в предлагаемых ему решениях, как это происходило. На сегодняшний день, думаю, большинство человечества не готово к такому миру, и это ставит новые задачи, для образования в первую очередь.

Если немного пофантазировать, то какое будущее у BigData? Каким будет мир в эпоху победивших больших данных?

Сергей Кадомский: Я думаю, что в эпоху больших данных люди будут гораздо здоровее, потому что проникновение их в медицину уже беспрецедентное, мы начнем узнавать о своих болезнях как можно раньше и имеем возможность их лечить намного эффективнее. Компьютеры, с использованием больших данных и искусственного интеллекта, во многом заменят какую-то рутинную, не интересную для человека работу, поэтому у нас будет больше возможностей заниматься творчеством, созиданием.

Вопрос — способно ли будет человечество воспользоваться этим шансом. Есть хорошая поговорка о том, что 60 лет назад мы запускали людей на Луну, а сейчас запускаем «птиц в свиней». Это шутка про Angry Birds, но она довольно печальная. Возможно, вы не ожидали это услышать от меня, учитывая, что я работаю в компании, которая создает компьютерные игры, но человечеству есть чем заниматься и для чего применять науку, кроме развлечений и прожигания времени.

Но, в целом, я очень позитивно смотрю на технологические изменения, которые приходят в наш мир последние лет двадцать. С моей точки зрения, мы живем в очень интересное время, оно действительно ускорилось, но я считаю, что движется оно куда-то в светлое будущее. Нужно только уметь контролировать процесс и задумываться, не слишком ли много решений мы отдаем компьютеру.


Іншыя публікацыі