Артур Хачуян. Человек под колпаком Big Data: можно ли защитить личную информацию?
- О лекции
- Видео
- Текст
20 февраля в Особняке не Волхонке состоялась пятая и заключительная лекция цикла «Экономика наступившего будущего» в рамках проекта открытых лекций Фонда Егора Гайдара «Экономический факультет». Гендиректор SocialDataHub Артур Хачуян рассказал о том, что сегодня происходит в мире Big Data, кому доступна наша личная информация из социальных сетей и появление каких новых профессий повлечет за собой дальнейшая интеграция Big Data в деятельность самых разных компаний.
Область Big Data, или больших данных, сегодня окружена множеством домыслов и страхов. Если компании пользуются информацией в наших поиковых запросах и личной переписке для таргетирования рекламы, то значит, они уже знают о нас практически все. Технологии анализа Big Data позволяют интегрировать информацию из соцсетей, блогов, форумов и медиа. К этому можно добавить информацию о платежах по банковской карте и перемещениях на вызванном через смартфон такси. Связывая гигантские хаотичные массивы данных друг с другом, госорганы могут находить преступников, корпорации – следить за своими сотрудниками, родители – контролировать детей, а журналисты – проводить расследования. Big Data-аналитика стала перспективной отраслью бизнеса. Что дальше – эпоха тотальной слежки всех за всеми? Или люди научатся скрывать свои действия в интернете?
Цикл лекций «Экономика наступившего будущего» посвящен разговору о самых захватывающих технологических и экономических трендах - криптовалюты, блокчейн, искуственный интеллект и большие данные. Как они меняют нашу жизнь уже сейчас и чего ждать от них в будущем? Являются ли они приметами экономики наступившего будущего или же временным «пузырем» настоящего? На эти вопросы отвечают лучшие специалисты в области финансов и новейших технологий. модератор цикла - экономический обозреватель Борис Грозовский. Лекции проходят при поддержке сайта «Коммерсант», «Новой газеты» и интернет-ресурса The Question.
Борис Грозовский: Добрый вечер, дорогие друзья! Меня зовут Борис Грозовский. Сегодня у нас заключительная лекция в цикле «Экономика наступившего будущего», который организован Фондом Егора Гайдара при поддержке трех замечательных медиа. Это — «Коммерсант», который ведет трансляцию всех лекций этого цикла и публикует стенограммы, TheQuestion, где лекторы отвечают на вопросы по теме лекции за несколько дней до ее начала, и «Новая газета».
Сегодняшняя лекция посвящена бигдейту и тому, что и как можно узнать о нас через социальные сети, как мы становимся видимыми и что с этим делать. В качестве небольшого предисловия я бы сказал, что мир, действительно, стал прозрачным и очень сложно приходится тем «плохим парням», которые желают что-то скрыть — будь то оффшорные транзакции, распутное поведение или что-то еще. При определенных навыках соцсети позволяют достаточно быстро, буквально за 15-20 минут, выяснить о нас очень многое — семейное положение, сексуальные пристрастия, политические взгляды, круг знакомств, — даже если мы не являемся такими уж активными пользователями, которые выставляют всю свою жизнь на показ. Отчасти с этим связаны и понятны постоянно возникающие страхи некоторых политологов, что будь на то желание, организовать мероприятие типа сталинского террора 20-30-х годов в эпоху соцсетей было бы очень просто. Собственно, наши связи в социальных сетях друг с другом — это и есть те отношения, которые, в терминологии того времени, формировали какие-нибудь троцкистско-бухаринские группы людей, сочувствующих неправильным взглядам. Наше знакомство с иностранцами легко перетолковывается как работа на какую-нибудь из разведок. И так далее.
Чувствительность к утечкам такого рода информации становится огромной. При этом надо, конечно, понимать, что она касается не только людей, которые сами активно в социальных сетях присутствуют. Олег Дерипаска — один их богатейших людей России — насколько я помню, аккаунтов в соцсетях не имеет, тем не менее мы знаем о нем больше, чем он хотел бы, чтобы мы о нем знали. А тоже один из богатейших людей России Михаил Прохоров, о котором его помощники говорят, что он даже компьютером не пользуется, демонстрирует пример большей осторожности. Когда он оказался в центре соответствующего скандала, из Куршавеля никаких описаний и роликов не утекало. И страшно даже представить, что случиться в случае утечки не открытой, а закрытой информации, например, той информации о нас, которой владеют корпорации вроде Uber, Сбербанка и так далее. Если представить, что из Uber утекли логи маршрутов со всеми их параметрами, то можно выяснить, кто, куда, к кому ездил. Банк, через который мы проводим большую часть своих операций, тоже знает о нас вещи, которые мы даже не представляем, что он может знать. Например, сегодня Сбербанк сделал мне напоминание о том, не забыл ли я перевести деньги сыну, с которым живу отдельно. Я не забыл, но я совершенно не предполагал, что Сбербанк про меня это знает.
Сегодняшний лектор Артур Хачуян, основатель Social Data Hub, как раз из тех аналитиков, которые знают про нас все и которые помогают другим людям узнавать о нас многое. В частности, по-моему, полгода назад на бизнеспортале IncRussia в очерке о Social Data Hub было описано, как Артур и его коллеги достаточно быстро помогли компании, которая производит подгузники, понять, что интересует беременных женщин и, соответственно, как проводить рекламную кампанию для этой социальной группы. С другой стороны, Артур помогает и защищать личную информацию. Как спрятаться, как остаться невидимым для окружающих и в то же время сохранять возможность за ними за всеми наблюдать, расскажет Артур Хачуян. Артур, пожалуйста!
Артур Хачуян: Спасибо за вступление. Я называю себя профессиональным датавором. Потому что сейчас главный страх всех людей в том, что некие злые корпорации или некое злое государство используют его данные и наживаются на этом. Но хорошая новость в том, что нет единой супермегакорпорации, которая владела бы всей информацией. Да, Uber знает о ваших перемещениях, Сбербанк знает, сколько денег вы тратите на картошку. Но до сих пор нет никого, кто знал бы и то, и то. Мой подход — узнавать такие всевозможные сведения из открытых источников. Поэтому сегодня я расскажу о том, что можно узнать о человеке из открытых источников, с парочкой интересных примеров. А потом мы плавно перейдем к истории о том, как защититься от того, чтобы все эти злые государственные или корпоративные алгоритмы не узнавали ваши секреты и не использовали их в своих целях.
Первое, с чего я начну, это то, что я называю открытыми данными. Потому что терминов очень много. Для меня открытые данные — это все, до чего можно дотянуться без пароля: соцсети, блоги, форумы, приложения для знакомств и так далее. Большие данные в моем личном понимании — это более миллиарда строк, либо более петабайта. Потому что сейчас термин «бигдейт» настолько на слуху, что очень сложно понять, что есть что. Поэтому если я говорю «большие данные», я имею в виду именно вот это. Начнем мы с того, как люди представляют большие данные. Большинство представляют их как большое-большое количество чего-то. Но на самом деле все технологии бигдейта основаны на разносторонних данных, и из этих маленьких кусочков собранных данных создается гигантская картина.
В данном случае это — склеенная пятерочка из фотографий в Инстаграме. Кстати, задний план на фотографиях в соцсетях большинство людей никогда не проверяют. А это 60-70% всех инсайтов, которые можно получить на человека — есть ли ремонт в квартире, а это уровень дохода, что видно из окна, всевозможные достопримечательности для определения геолокации. Потом из этого множества маленьких фотографий умный алгоритм может собрать полную картину того, что находится вокруг человека. Так что будете фотографироваться для соцсетей, проверяйте задний план. И никогда не фотографируйте документы. Это сейчас бич. Фотографии паспортов в 2017 году было процентов на 17 больше, чем в прошлом. Причем большинство людей, которые это делают, это мамы или папы маленьких детей, которые только что отправились за границу. Типа: «Смотрите, наш ребеночек получил загранпаспорт».
Все представляют анализ бигдейта как нечто магическое, но на самом деле у этого процесса есть четкая структура: сбор, обогащение и анализ. У меня есть немного статистики, которую я уже миллион раз показывал. В нашей стране живет некое количество людей, и на всех них есть данные в открытых источниках. Это не обязательно социальные сети. Потому что в социальных сетях у нас 120-130 миллионов активных пользователей. Про кого-то известны только фамилия и имя, а про кого-то мы или другие злые товарищи знаем все, вплоть до любовницы, машины, квартиры, дохода. Часть этого знания основана на социальных сетях, часть — на открытых источниках типа Федеральной службы судебных приставов. Судебное производство — гигантский кладезь очень неструктурированных знаний, потому что большинство судов выкладывают в открытый доступ описания дел, где в тексте написано: сюда подставить фамилию судьи, или сюда подставить имя прокурора. Но на самом деле там есть и паспорта, и номера паспортов, и имена, фамилии. Перелопатив массив этой информации, можно сделать интересные выводы.
Помимо соцсетей есть так называемый тор — та часть теневого защищенного интернета, пользователи которого считают, что они недосягаемы ни для злого государства, ни для злых корпораций. Но на самом деле, по крайней мере в крупных городах типа Москвы, тор и прочий теневой веб давно уже не очень теневой. Потому что есть всевозможные злые провайдеры, которые отслеживают трафик, и пакеты Яровой позволяют на основании доступа и анализа верхнего уровня трафика понять, как минимум, где человек находится. Поэтому — пункт два: если вы делаете что-то плохое, то сидите не просто в торе, а каком-нибудь кафе, из которого желательно вы собираетесь минут через 30 уйти.
Второй момент, о котором всегда говорят, когда речь идет об анализе открытых источников, это то, что соцсети — нечто поверхностное, некие виртуальные персонажи, а не реальные люди. По крайней мере мы всегда так говорим, когда приходит Роскомнадзор и заявляет: вы нарушаете закон о персональных данных. А мы говорим: не факт, что вот этот Артур настоящий. К чему я веду? В электронных источниках есть огромное количество того, что называется «фейки». Это дублированные персонажи, люди, которые удаляют свои аккаунты, потому что они хотят сделать что-то плохое или что-то хорошее — неважно, но им кажется, за ним следят. Они создают таких виртуальных персонажей, копии себя. Но проблема номер один здесь заключается в том, что в этот момент человек думает, что он полностью скрылся от всевидящего ока. На самом деле это не так. И если определенное количество времени следить за определенными пользователями, за тем контентом, который они лайкают, потребляют, смотрят, за тем, какие сайты они посещают, то можно составить представление о человеке, и в тот момент, когда он решит удалить свой настоящий аккаунт и создать искусственный, его можно с большой точностью идентифицировать.
Пример. Есть некий Акбар Джалилов — питерский террорист, который взорвал метро. Не знаю, правда это или неправда — неважно. В один прекрасный момент он решил удалить свой основной аккаунт и создал в социальной сети второй, дублирующий. Там была другая фамилия, другие инициалы, но контент, который он потреблял, и люди в друзьях остались точно те же. Поэтому идентифицировать его большого труда не составило. А если посмотреть на всю его сеть, его друзей, друзей друзей, то среди всевозможных правых и ультраправых есть очень популярный паттерн поведения. Когда человек ведет определенную активность в интернете, неважно — плохую или хорошую, в один прекрасный момент к нему приходят и говорят: ты себя неправильно ведешь в интернете, за тобой следят, тебе нужно удалить свой аккаунт. Он удаляет свой аккаунт, создает второй, дублирующий, но при этом продолжает вести себя как прежде. Паттерн поведения этого человека не меняется. Поэтому шаг номер три: если вы вдруг решите скрываться от кого-то, первое, что вам нужно делать, это удалить информацию о себе. Отправить во всевозможные ВКонтакте, Фейсбук и нам заявление на удаление себя из индекса. Потому что история — это 80-85% всей информации, которая есть о вас. То есть вы можете еще вроде как ничего плохого не сделать, но информация уже есть.
Какие еще есть источники, на основании которых элементарно собрать информацию о вас? Это может быть человек, может быть алгоритм, который будет таргетировать на вас рекламу. Самые популярные источники, понятно, соцсети, блоги, форумы и мои любимые невоспетые герои — cian, avito, avto.ru. На них огромное количество населения, которое вроде бы ничего о себе не пишет, но когда женщина продает коляску, она ее продает либо рядом с домом, либо рядом со своей работой, с которой удобно эту коляску забирать. На основании этого объявления элементарными методами, просто немного понаблюдав, можно выяснить, где этот человек работает, либо где он живет.
Лидером моего интереса в 2016-2017 году был Tinder. Кто не знает, это такое приложение для знакомств. Листаешь влево-вправо мальчиков и девочек, ставишь лайки. Но суть в том, что в этих всевозможных приложениях для знакомств показывается расстояние до человека. Кто более или менее знаком с математикой, знает, что есть нехитрые методы, позволяющие из нескольких разных точек, зная расстояние до человека, определить его местоположение. Понятно, что всевозможные сервисы и социальные сети реальное местоположение никогда не показывают. Они защищают пользователя и указывают плюс-минус пару метров. Где конкретно этот человек находится, понять нельзя. Но средний москвич обновляет свой Tinder около 18 раз в день. Обновляя эту информацию, можно понять, как человек перемещался, где находился.
Однажды мы делали исследование — какое количество аккаунтов в Tinder находится на территории госучреждений. Лидер — министерство обороны. Там около 30 аккаунтов. А недавно был очень крутой кейс с приложением Strava — это фитнес-трекер. Вы бежите, а он записывает ваш трек. Они сделали крутую вещь — гигантскую тепловую карту всего мира, где чаще всего пользуются этим приложением. И все такие: «Классно! Инфографика! Дата-журналистика!» Но никто, мне кажется, в первый день даже не сообразил, что подсвечено большинство военных баз. Военные бегают, сливают в трекер информацию, и потом на основании этого делается огромное количество расследований. А буквально за два-три месяца до этого Минобороны выпускало серию плакатов на тему: «Солдат, если тебе нечем заняться и ты сидишь в соцсетях, не пали свою геолокацию!» Это на самом деле смешно, но это очень популярная история, потому что геолокация — первое в списке того, что можно узнать о человеке, потому что если судить по тому же закону о персональных данных, вроде как ваш домашний адрес — это ваша персональная информация, и ее никто знать не должен. Например, в соцсетях она в закрытом доступе. Но если взять все ваши публикации, посмотреть где вы находились, для большинства — реально для 99% — пользователей 80% геоточек — это два кластера: дом и работа. При этом то, что ближе к центру города, — это работа, то, что дальше, — дом. Понятно, что есть исключения, но эти исключения на уровне статистической погрешности.
Я лично, когда заказываю еду домой, всегда заказываю ее в соседний дом. Потому что в торе и в теневом вебе есть большое количество ресурсов, где всякие крутые хакеры меряются тем, как круто они взломали что-то, выливая семплы каких-то баз данных. Например, приложения для доставки еды или перевозчиков. Их, конечно, можно аккуратненько собирать и там искать секретную информацию о пользователях, но на самом деле так кто-то может и до вашего места жительства добраться. Но это из области небольшой конспирологии.
Что можно узнать? Есть краткий перечень того, что можно узнать из открытых источников. Есть куча всевозможных исследований, где рассказывается, что за 30 лайков можно узнать все о человеке. И это, действительно, так. Есть какие-то сложно детектируемые слои населения, например, студенты. Студента среди серой массы определить сложно. А вот, например, домохозяйки, мои любимые мамы с детьми — одна из самых активных аудиторий. Потому что беременная женщина, у которой есть аккаунт в социальной сети, хотя бы раз делала публикацию. Нет практически ни одной, которая не сделала бы хотя бы один пост типа: «Привет, ребята! Я на третьем месяце». Или: «Ура, мы рожаем!» И это используется всеми подряд. Если тут есть мамы, которым внезапно приходили подарки от каких-нибудь брендов детского питания, знайте, это не случайно. У вас наверняка есть потенциал для привлечения аудитории и несколько алгоритмов.
Еще есть скрытый набор дополнительных параметров. Мои любимые: лайки эротического контента. Вроде как порнография — штука не очень лицеприятная, но на самом деле открывающая огромное количество идей для анализа. Я приведу парочку примеров. Крупнейший порнотрекер в нашей стране — ВКонтакте. Не знаю уж, почему. Но вы можете ради интереса провести эксперимент: если вы смотрите обычные ролики в ВК, вам реклама будет показываться каждый 8-10-й видеоролик, а если вы смотрите порнографию, то каждый 2-4-й. Кто-то может сказать, что они делают на этом деньги, но это неважно. ВКонтакте каждый восьмой пользователь лайкает эротический контент. Не знаю, почему. Уже четвертый год задаюсь этим вопросом. Кто-то говорит, что они так просто сохраняют в сохраненное, кто-то — что они случайно что-то нажимают. Но факт есть факт. Если вы соберете большое количество эротического контента и проанализируете его, то это будет в среднем каждый 8-й пользователь.
Но, допустим, приходите вы в банк. В банках есть очень крутая зависимость: если мужчина женат и лайкает молодых девушек, значит, он с вероятностью 85% заинтересуется кредитной картой. Нельзя сказать, в чем тут логика — молодая любовница или что-то другое, и очень много банкиров пыталось это объяснить, но реально топ-15 банков эта штуку отрабатывает практически всегда. С этим ничего не сделаешь. А если это страховая компания, то примерно такая же вероятность, что брак распадется и потом будут какие-то санкции. Поэтому эту часть взрослые исследователи обычно не трогают, как-то не очень приятно. Но я отношусь к категории исследователей, которым неважно, какие метрики о человеке используют, главное — чтобы был результат.
Когда, например, кто-то программирует скрипт, который показывает вам в интернет-магазине товары «еще», он тоже пользуется открытыми данными. В каких-то магазинах это происходит от балды, в более продвинутых — «из той же товарной категории», где-то на каждый товар есть сопутствующий. Но на самом деле, если говорить о среднестатистическом магазине женской верхней одежды, то самый элементарный и самый эффективный скрипт будет: 1) погода. У женщин цвет одежды, стиль и фасон зависят от погоды. Если вы — владелец интернет-магазина, можете провести у себя внутри исследование и сопоставить атмосферное давление и количества солнца с тем, какой цвет выбирается; 2) человек заходит в интернет-магазин, авторизуется, как-то себя идентифицирует, и умная машина просматривает быстренько все публикации этого человека, и, как правило, по цветовой гамме можно предложить ему что-то новое.
Есть еще один пример — из серии, как не надо делать и почему у нас люди очень боятся, что за ними следят. Есть у меня друзья, которые держат очень крупную сеть магазинов интимных товаров. Как-то мы с ними проводили эксперимент: они ставили счетчик, предлагали человеку авторизоваться через социальную сеть, в данном случае ВКонтакте, и через 10 секунд после авторизации интернет-магазин полностью подстраивался под интересы пользователя. Вот прямо — эта категория товаров, потому что вы лайкали такое-то видео и состоите в такой-то группе. Знаете, насколько увеличилась вовлеченность? Ни на сколько. Люди закрывали окно и сразу же убегали с этого сайта. И это на самом деле очень плохо, потому что такие истории культивируют страх того, что за всеми следят. А потом они приходят домой, смотрят видео и пишут мне в Фейсбук: «Вы — сволочи, следите за всеми. Да как так?» Но на самом деле 99% тех метрик, которых мы можем узнать о человеке, основаны на том, что человек сам о себе рассказывает. Когда он приходит, например, к работодателю, а ему работодатель отказывает, почему это происходит? Потому что три с половиной месяца назад он написал «ненавижу свою работу, в жопу всех» и так далее. Но человек, конечно, винит тех, кто собрал эти данные, проанализировал и посчитал метрику. По факту же, если вы хотите сменить работу, просто не пишите такого в соцсети.
А еще в соцсетях есть такая штука — сториз и всевозможные типа удаляемые материалы. То есть ты снял видео, оно повисело и через 2-3 часа или через день удалилось. Не верьте! Они тоже все сохраняются. По крайней мере мы сохраняем сториз, и это реально 2-3% из всех государственных запросов — террористы, экстремисты и так далее. Потому что люди, когда снимают быстроудаляемое видео, городят там какую-то чушь, показывают военную базу или еще что-то. Соответственно, это все можно распознать, понять, кто и где, и проанализировать. Возвращаясь к истории питерского террориста. Сам он нам не очень важен, но важно, что у него среди друзей есть некая категория товарищей. Например, был такой Иван. Ивану сказали: «Ты слишком большой экстремист. За тобой скоро придут». Он решил свой аккаунт удалить и создавать новый. Но продолжает общаться с теми же людьми. Не обязательно он будет с ними друзьями. Но в один прекрасный момент он поставит лайк под комментарием или еще что-то — и все, умный алгоритм сразу же сопоставит этих двух товарищей. Для этого не нужны банковские данные этих людей, не нужно взламывать Uber или знать об их перемещениях. Достаточно одной связи. Это все, что касается первой истории о том, что некоторые люди не очень доверяют открытым источникам, потому что там, якобы, есть фейки.
Раньше люди считали, что если тебя нету в соцсетях, то о тебе нет информации. На самом деле это не так. Соцсети — это такой безумно крутой механизм, в котором есть все. Неважно, кто вы — 95-летняя бабуля с дачи, которая сажает георгины, или еще кто-то. И вот пример — условный человек в один прекрасный момент получает повестку в армию, решает удалить себя из всех открытых источников и просто исчезнуть. Он удаляет соцсети, переезжает в другой город и продолжает вести активную жизнь. Но он забывает, что его друзья тоже ведут некую социальную жизнь, делают с ним фотографии, выкладывают в интернет и что по фотографиям, выложенным другими людьми, этот человек очень легко идентифицируется. Для этого даже не надо обладать какими-то гениальными системами распознавания лиц — сейчас уже Фейсбук присылает тебе запрос: «Не хотите ли добавить этого человека в друзья?» Эти механизмы всем известны. Если человек уехал в другой город, но посещает мероприятия, у этих мероприятий есть аккаунты в соцсетях, и там по грифам клубов можно понять, где это находится, это вообще не составляет труда. Так что, если у человека нет аккаунта в соцсетях, это не значит, что его самого там тоже нет.
Это примерный объем аудитории среднестатистического пользователя российской соцсети. В него входят сам пользователь, его друзья, друзья друзей, друзья друзей друзей. О чем говорит эта картинка? Сейчас соцсети придумали идиотские механизмы умной ленты, которая якобы должна сделать нашу жизнь лучше и мы должны видеть интересный контент. Хотя на самом деле это все сделано для увеличения просмотров какой-то рекламы, как мне кажется. Но суть в том, что это увеличило объем аудитории, которой вы можете коснуться. С одной стороны, некий условный блогер Саша может дотянуться до какой-то новой аудитории, а с другой — загребущие ручонки тех, кто анализирует вашу информацию, могут рано или поздно дотянуться до вас. То есть вы есть, вы этот контент распространяете, внезапно он до кого-то дойдет, и этот человек доберется до вас.
Понятно, что у всех алгоритмов есть хорошее применение. Один раз мы делали алгоритм для поиска хозяев животным из приюта по наличию у них квартиры, автомобиля, близости к приюту, предыдущих животных и лояльному отношению к определенным политическим фигурам. Не знаю, как это влияло на животных, но приют так попросил. Но, само собой, у этого есть и плохие применения. Слово «антитерроризм» всегда всех напрягает, потому что у нас, к сожалению, государство иногда прикрывает им какие-то свои действия. Но тем не менее. Если уж говорить про какую-то государственную историю, то есть данные о 100 тысячах самых крупных государственных закупок в нашей стране, которые используют налоговые и все прочие органы для отслеживания плохих активностей. Небольшое отступление — у неких товарищей была такая работа с налоговой. Налоговая передавала информацию об индивидуальных предпринимателях, у которых есть карточки, привязанные к счету компании. А товарищи анализировали открытые источники этих предпринимателей и понимали, кто машину купил, кто какой-то дорогой товар, и сопоставляли траты с реальной активностью в соцсетях. Много людей погорело. Так вот, в центре галактики данных о госзакупках есть те, кого налоговая называет счастливчиками. Это такие ИП-шники, который внезапно выиграли какой-то тендер на миллиард, а до этого 10 лет ничего не делали и после 10 лет ничего не делали. Собственно, они первые кандидаты, к кому кто-то придет и будет общаться. А еще об этом человеке известно ФИО, город, возраст, а они известны обо всех участниках торгов, его можно найти в онлайн-источниках, понять, где он живет, на какой яхте ездит, куда к бабушке ездит отдыхать и так далее. Поэтому: если вы обираетесь совершать экономическое преступление, не фотографируйтесь и не выкладывайте в соцсети.
К сожалению, есть момент, что наше государство не очень использует всевозможные улики, привязанные к открытым источникам. Очень сложно с юридической точки зрения доказать в суде. Но это и неважно. Важно понять, где человек находится, для того, чтобы отправить к нему приставов судебных. Поэтому что касается прогнозов в этой области, я думаю, что через 3-5 лет у нас поменяется часть законодательства, связанная с использованием всех этих цифровых следов именно как улик в судах. Потому что мы давно уже занимались такой очень неприятной историей, как педофилы. Они есть. Их много. Люди об этом не говорят, но тем не менее. Мы давным-давно разрабатывали ботов, которые общаются с ними в сети, узнают какую-то информацию для того, чтобы как-то провзаимодействовать с этими людьми и подтвердить их незаконопослушность. Но проблема в том, что с точки зрения нашего законодательства именно в этой узкой проблеме никакие цифровые следы не могут привести к тому, что к человеку придет его тюремный срок. Даже если он выкладывал фото и видео. Нужно, чтобы участковый пришел и схватил за руку. А это очень сложно. Но это не значит, что можно оставлять цифровые следы и ничего не будет. Это я все к тому, что до любого человека можно добраться. Неважно, кто он — крупное юридическое лицо, физлицо или бабуля, которая сидит где-то на грядках. До бабули, конечно, дотянуться нельзя, у нее наверняка даже аккаунта в Одноклассниках нет. Но наверняка когда-нибудь к ней приедет внук и сфотографируется с ней, потому что в 2017 году около 20% фотографий — со своими бабушками. Это был реальный тренд 2017 года. Соответственно, эту связь между ними можно сразу установить. А бабушка — это желтые страницы. Можно понять, где она живет, куда ребенок съездил и так далее. Из этого можно вычленить огромное количество информации.
Как выглядят обычные пользователи для некого алгоритма. В любом срезе обязательно есть какой-то кусочек непонятных товарищей-ботов, которые дружат друг с другом. Они очищают медиа-пространство. Но есть и всевозможные грустные истории, связанные с социальным терроризмом. В частности, в последние 2-3 года очень популярный его вид — молодежь выкладывает свои обнаженные фотографии куда-то, а по ним их деанонимизируют. Я не родитель, просто разбираюсь в теме, и в 2017-2018 год у молодежи панацея — выкладывать свою обнаженку в анонимные паблики. Но вы как люди умные должны понимать, что ничего ни в какие анонимные паблики выкладывать нельзя, потому что все это идентифицируется. Зачастую, кстати, опять-таки по заднему плану на фотографиях. Потому что обычно людям лень делать специальную фотографию для этой группы. Они берут какую-то обычную и обрезают, а все остальное на ней остается. До социального терроризма, конечно, далеко, но у меня лично много таких историй, когда, например, мне ЖКХ не отвечает на звонок, я нахожу главного инженера, его жену, детей в соцсетях и начинаю писать. Закон не запрещает это делать, потому что они госслужащие и ты пытался с ним прокоммуницировать. Но это не очень этично — звонить директору в школу детей и говорить, что их папа свет не включает в подъезде. Но мы к этому идем.
Все спрашивают, что будет через пять лет — все будут за всеми следить? Да, так и будет. Но не все за всеми будут следить, как это обычно представляют. На самом деле мы просто придем в состояние тотальной прозрачности, где все будут обо всех знать. Кто занимается околопсихологическими вещами, знает, что есть очень много зарубежных исследований на тему, насколько людям становится сложно врать в современном цифровом мире. Есть очень крутое исследование, к сожалению, не назову автора, в котором изучается феномен людей с определенным психологическим заболеванием, когда постоянно врут. Так вот, за последние пять лет количество таких людей резко уменьшилось. Потому что очень сложно всем врать, когда есть соцсети и все можно подтвердить. С другой стороны, в соцсетях увеличивается количество людей, которые ставят, например, «левые» геометки. И они это делают не потому, что скрываются от кого-то и изменяют свои алгоритмы, а потому, что «я сегодня в Москве, а завтра в Дубаи». Но это к тому, что если вы таким образом решите скрываться от вездесущих алгоритмов, вам это не поможет, потому что вы просто окажетесь статистической погрешностью. Как я уже говорил, практически у всех пользователей 80% точек — это дом, работа, дом, работа и редкие путешествия. Основная проблема всех людей, которые пытаются от кого-то скрыться, — это модель их поведения. То, как они потребляют контент, как они коммуницируют.
У меня также есть несколько наблюдений на тему того, насколько одинаково потребление контента внутри ВКонтакте и Фейсбука. Конкретный инфоповод — открытие парка Зарядье. Вот модель поведения ВКонтакте — много-много точек, они все сгруппированы в маленькие группки, каждая группка — это отдельный инфоповод, большого количества связей между ними нет. Потому что в ВКонтакте определенная модель потребления — контент пролетает мимо людей, и они читают только заголовки. «А, Олег Тинькофф...» — и уже не важно что. А в Фейсбуке тот же инфоповод среди тех же людей выглядит по-другому — это гигантская куча связанных друг с другом людей, мимо которых не просто пролетел инфоповод, а они месяц это все поднимали, обсуждали, писали гневные комменты, исходили желчью. А есть группа представителей госорганов, разных пресс-служб и так далее, которые просто у себя вешали новость: «Парк Зарядье открылся». И все. И никаких гневных комментариев не получали. Разница моделей поведения между соцсетями и между разными слоям населения где-то большая, а где-то и нет.
Сейчас гигантская проблема больших данных в том, что собирать данные умеют уже все. Эти давно никого не удивишь. Но до сих пор никто не умеет из этого делать правильные выводы. Люди остановились в той точке, где они считают, что чем больше данных, тем точнее будет твой прогноз. Это зачастую так. Но проблема в том, что если ты берешь огромную аудиторию, огромный объем данных, то он просто представляет собой непонятную серую жижу. Очень простой пример. Приходят люди и говорят: «Нас интересуют интересы наших пользователей». У нас есть банк А и банк Б, возьмите и сравните, чем отличаются интересы этих пользователей. Ничем. На любой группе больше 100 тысяч человек большинство параметров одинаковые. Вот что с этим ни делай, но топ групп, на которые люди подписаны, и источники, из которых они потребляют контент, практически одинаковы. Поэтому все уходит в микротаргетинг, микровзаимодействие с конкретными людьми, идентификацию каждого конкретного человека. Поэтому, собственно, нам всем и нужно скрываться — вы гуглите покупку штор, а потом еще неделю в Инстаграме или Фейсбуке получаете идиотскую рекламу, которая не понимает, что вы уже купили, все произошло. Сфотографируйтесь со шторами.
Кстати, по поводу слежки все всегда рассказывают одну байку: «Я ехал в машине, разговаривал по телефону, навигатор что-то услышал и начал давать рекламу». Может, это, конечно, нам не повезло, но мы проводили такой эксперимент несколько раз. Не сработало. И мне кажется, правильно, потому что если бы Яндекс-навигатор в реальном времени анализировал у каждого пользователя его аудио, то дата-центр Яндекса был бы размером, наверное, с этот зал, а экономическая эффективность была бы совсем маленькая. Поэтому можете спокойно разговаривать. Проводили мы и другие эксперименты. Делали чистый аккаунт в соцсети, никак не связанный с реальностью, и начинали что-то писать людям. Например, я лично проводил такой эксперимент, писал своему другу: «Давай слетаем в Сыктывкар!» Я даже на карте этот город не покажу, но суть в том, что через пару дней мы начали получать рекламу билетов туда. Аккаунт чистый, ни с кем не взаимодействовал. Поэтому соцсети это тоже видят.
Думаю, ни для кого не секрет, что здесь есть обратная сторона — все всегда считают, что и государство тоже смотрит всю переписку в соцсетях. Вы, конечно, можете мне не верить, но это реально очень сложно. Какому-нибудь рядовому московскому оперуполномоченному получить доступ к личным сообщениям — вообще непосильная задача. Потому что это суды, на разрешение уйдет от 7 месяцев до полутора лет. А сами понимаете, за это время мало-мальски грамотный убийца забудет вообще все детали, где он там что в соцсетях писал. Для суда же важно доказать, что вы считаете, что он именно в соцсетях устроил сговор или написал, где труп закопал. В общем, не стоит, наверное, таких вещей бояться, но лучше и не писать. Мало ли что. Было очень много независимых исследований, что ВКонтакте не удаляет никакую информацию, как и другие соцсети, но и в паранойю впадать не стоит.
Вы наверняка слушали историю про тот же Tinder, когда одна пользовательница написала туда письмо-запрос и попросила выдать всю информацию, которую хранит о ней приложение. И якобы, как пишут все СМИ, она получила 800 страниц информации о себе. И все такие: «О господи! Приложение для знакомств хранит о тебе 800 страниц информации!» Но на самом деле только один, наверное, журналист из тысячи попросил у нее этот документ посмотреть, а там была просто личная переписка. То есть не количество сексуальных партнеров, не то, с кем она ходила на свидание, в какой одежде, что заказывала, что ела. Ничего такого нет, просто переписка. А из этого сделали историю, что приложение для знакомств вдоль и поперек тебя изучает. Кстати, после этого, если изучать статистику активности Tinder, она очень сильно обвалилась. Потому что люди решили, что нельзя пользоваться приложением, которое столько о тебе узнает.
Тем не менее, главный посыл тут в том, что скрыться от камер наблюдения вряд ли получится, но всегда получится обмануть алгоритм. Потому что какой бы крутой он ни был, какие бы ни были нейросеть, машинное обучение и все эти умные слова, которые любит говорить Герман Греф — неважно, любой алгоритм основан на взгляде на большинство. Поэтому если вы в один прекрасный момент пойдете домой не прямо, а как-нибудь обойдете, вы нарушите статистику. Приведу пример, который наверняка всем понравится. Есть такие товарищи, которые продают наркотики. Некая компания одно время разрабатывала алгоритм, который покупал наркотики у разных людей и смог их деанонимизировать с помощью тора. С кем-то он общался, кто-то случайно указывал ник, который где-то засветился пять лет назад на какой-то почте и связывал их между собой. Задача же была определить, где живут эти люди и куда они ездят делать закладки с наркотиками. Реально у 95% тех, кто этим занимается, одна и та же модель поведения — ехать по диагонали. То есть они считают, что если они живут на Войковской, но поедут с этой Войковской куда-то диагонально, то их вообще невозможно будет отследить. Сделать из этого выводы можно разные. На этом у меня все.