Цифровое пространство данных
В настоящее время среднестатистический пользователь интернета создает около 1,5 гигабайт (GB) данных в день. Автомобиль или самолет, подключенные к Глобальной сети, генерируют 4–5 GB информации ежедневно. Современному медицинскому центру, оснащенному передовыми смарт-технологиями, требуется не менее 3 тысяч GB цифрового пространства в день. А какая-нибудь «умная» фабрика будет потреблять ежесуточно уже до 1 млн GB сведений.
Очевидно, что доступ к данным должен быть структурирован и оптимизирован таким образом, чтобы можно было создавать новые инновационные сценарии использования информации для оказания госуслуг, развития транспорта, образования, сельского хозяйства и других отраслей в соответствии с современными экономическими трендами.
Информационная Вселенная
В настоящее время, по оценке экспертов корпорации Intel, в мире используются миллиарды устройств и сотни миллиардов датчиков, которые подключены к интернету. Новые цифровые данные генерируются в геометрической прогрессии. К 2025 году их общий объем, согласно прогнозу ведущего поставщика информации и консультационных услуг International Data Corporation, может достичь 175 зеттабайт (ZB). Для сравнения –2 года назад эта цифра варьировалась в пределах 33 ZB. То есть за 7 лет (с 2018 года) произойдет рост данных более чем в 5 раз. Для лучшего понимания поистине вселенского масштаба этих показателей уточним, что 1 ZB равняется 1 триллиону GB.
– 175 ZB – это цифра, которая способна просто свести с ума. Когда создают политику конфиденциальности данных для публичных и приватных организаций, то, конечно же, нужно учитывать природу, формат и контекст того, как эти данные будут использоваться. Это необходимо для того, чтобы найти правильный способ, как получать доступ к данным и как их защищать, – отмечает глобальный директор по политике конфиденциальности компании Intel Рикардо Мазуччи – спикер сессии «Пространство доверия. Как обеспечить доступ и обмен данными» Международной технологической конференции Startup Village 2020*, которая в этом году впервые прошла в онлайн-формате.
По его словам, любая комплексная политика конфиденциальности для публичных и частных секторов должна учитывать три аспекта: доступ к данным, их отправка и защита.
Конечно же, по мнению эксперта, здесь невозможно обойтись без упоминания той драматичной ситуации, сложившейся в мире, которая связана с пандемией COVID-19. Она как раз и показала, насколько важно обеспечивать надежный и безопасный доступ к данным, например медицинских учреждений.
В долгосрочной перспективе один из основных выводов заключается в необходимости улучшения доступа к данным. Причем делать это необходимо так, чтобы цифровые инфраструктуры были еще более защищенными. В этой связи в скором времени должны появиться новые бизнес-модели и новые инструменты.
Если рассматривать аспект управления данными, то можно выделить две тенденции. Одна заключается в том, что каждая отдельная страна все больше стремится локализовать свои эксклюзивные данные, и для этого разрабатываются различные национальные политики безопасности, делая при этом упор на экономическую безопасность. Собственно, это сегодня наблюдается в Китае, Вьетнаме и других странах.
С другой стороны, все представители мировой цифровой индустрии прекрасно понимают, что база цифровых данных должна быть общедоступной. В этом, собственно, и заключается ее основная функциональная ценность.
– Когда личные и неличные данные станут перемещаться между разными секторами экономики, – подчеркивает Рикардо Мазуччи, – мы сможем принимать более взвешенные решения, основанные на инсайдах от этих данных.
Сведения особой важности
Зарубежные страны целенаправленно и достаточно оперативно разрабатывают новые национальные регуляции и директивы в области защиты частных данных. Так, например, в Европе – это Общий регламент по защите данных (General Data Protection Regulation, GDPR), значительно повысивший степень защиты персональных данных в Евросоюзе (ЕС) и за его пределами. Он вступил в действие в мае 2018 года и имеет прямое действие во всех 27 странах ЕС. Важный нюанс GDPR – экстерриториальный принцип действия правил обработки персональных данных.
С 1 января 2020 года вступил в силу Акт Калифорнии о защите неприкосновенности частной жизни потребителей 2018 года (California Consumer Privacy Act). По мнению экспертов, он примечателен тем, что стал одним из наиболее современных законов о персональных данных и принят в американском штате, который принадлежит к мировым лидерам в развитии новых технологий. Более того, его уже окрестили самым жестким из всех, что действуют в США в настоящее время. В Соединенных Штатах уже прозвучали призывы к тому, чтобы и другие штаты последовали примеру Калифорнии в деле защиты прав потребителей. В соответствии с новым законом американские пользователи получили широкие права на то, чтобы знать, какую персональную информацию собирают интернет-компании, почему накапливаются именно эти данные, как они используются интернет-компаниями и т.д. Потребители также получили право требовать от компаний удаления информации или запрета ее продажи третьим сторонам или рекламодателям. Кроме того, закон сильно ограничивает компании в передаче или продаже данных несовершеннолетних интернет-пользователей.
В Китае пока нет специального закона по обращению с персональными данными. Но «страна наращивает усилия по укреплению правил на фоне увеличения числа нарушений данных, – пишет пекинский репортер Вэй Шэн в своей статье «Законодатели призывают правильно обрабатывать персональные данные, собранные во время пандемии». – Всекитайское собрание народных представителей ранее заявило, что разрабатывает так называемый закон «О защите персональных данных».
В этой связи, как отмечает Вэй Шэн, член Китайской народной политической консультативной конференции Лиан Юмин предложил рассмотреть вопрос о включении конфиденциальной информации о гражданах в категорию «данных особой категории» и защищать ее в рамках права граждан на неприкосновенность их частной жизни. При этом Лиан считает, что проект национального закона «О защите персональных данных» должен основываться на положениях Общего регламента по защите данных (GDPR) ЕС и потенциально привести деятельность технологических компаний в соответствие с жесткими правилами защиты персональных данных.
Время новых решений
Сегодня в мире активно развиваются искусственный интеллект, беспилотный транспорт и многие другие передовые технологии, которые используют большие массивы данных. По этой причине, как заявил Рикардо Мазуччи, нужны новые законодательства и правовые нормы, регламентирующие оборот этих данных:
– По моему мнению, такие законы позволят выйти на наиболее гибкий и адаптивный путь, для того чтобы регулировать работу не только современных технологий, но и тех технологий, которые появятся в будущем. Кроме того, общий регламент защиты данных позволяет компаниям фокусироваться на рисках и работать с теми нормами, которые им необходимы в целях сохранения целостности информации. Помимо этого оценка качества конфиденциальности может быть внедрена в процесс разработки продукта или услуги. Это называется проектируемой конфиденциальностью.
В настоящее время во всем мире компании активно мотивируются к тому, чтобы они пользовались технологиями, позволяющими предотвратить утерю данных. Такие супертехнологии обеспечивают конфиденциальность данных благодаря шифрованию и анонимизации. При этом они минимизируют риск потери данных. Как отмечает Рикардо Мазуччи, это очень важные технологии, которые сегодня представляют большой интерес для разработок Intel и его партнеров.
Одной из таких технологий, безусловно, является безопасная (защищенная) среда исполнения. Ее суть заключается в том, что разработчики могут разделить приложение, например, на анклавы – зоны работы, защищенные на аппаратном уровне, что позволяет работать даже на платформах с нарушенной целостностью. По этой причине федеративное обучение (методика заключения модели в защищенную среду и ее обучение без перемещения данных куда-либо) позволяет работать с информацией, принадлежащей разным организациям и лицам. Таким образом, непосредственно в сам момент обучения используются агрегированные данные. По словам Рикардо Мазуччи, «такой формат дает возможность улучшить модель обучения и поделиться ею со всеми остальными, при этом не делясь первичными данными».
Защищенное многостороннее вычисление – это технология, которая позволяет анализировать частные данные, принадлежащие различным организациям, при этом не предоставляя пути к исходным данным. В теории это позволяет не нарушать целостности датасета (набора данных). Тем не менее на практике все еще можно выделить отдельные единицы информации в датасете. Но в таком случае возможно использовать дифференциальную конфиденциальность: набор систем и рекомендаций, которые помогают обеспечить безопасность и конфиденциальность данных частных лиц. По сути, ее можно назвать новой моделью кибербезопасности, которая, по утверждению ее сторонников, способна защитить личные данные намного лучше, чем традиционные методы.
В традиционных «сценариях» цифровая информация хранится в файлах и базах данных. При их анализе пользователи обычно оперируют необработанными данными. Но вот это может стать причиной потенциального нарушения конфиденциальности личности. А благодаря дифференциальной конфиденциальности эту проблему можно решить: надо добавить в данные «шум» или случайность, чтобы пользователи не могли определить отдельные точки данных.
Остается лишь добавить, что математика, на которой основана дифференциальная конфиденциальность, была разработана десятилетие назад. В последние годы этот метод принят Apple и Google.
Еще одна технология, которая позволяет алгоритмам машинного обучения работать с данными, – гомоморфное шифрование. Оно позволяет делать произвольные вычисления на зашифрованных данных без их расшифровки, что не открывает доступа к частным данным.
– Конечно же, эти технологии не являются панацеей, – отмечает Рикардо Мазуччи. – Они пока не могут защитить нас от всех рисков, которые связаны с обработкой данных. Но технологии способны минимизировать доступ к информации, тем самым помогая решать вопросы коммерческого использования данных. Некоторые из этих технологий более развиты по сравнению с другими. Например, безопасная среда исполнения или федеративное обучение. Другие технологии еще находятся в зачаточном состоянии. Но все равно очень важно на них фокусироваться, с ними работать, для того чтобы и они вносили свой вклад в сохранение данных.
Главный принцип – открытость
Рикардо Мазуччи убежден, что «правительства стран и представители индустрии могут улучшить нынешнюю ситуацию по обработке и обмену данными». По его мнению, этого можно достичь за счет предоставления доступа к структурированным датасетам, таким, например, как открытые данные правительств. Возможно также мотивировать общественный и частный секторы обмениваться данными и надежными датасетами, которые смогут использовать разработчики, чтобы сравнивать с ними произведенные продукты и алгоритмы и таким образом понимать их качество.
– Было бы правильно разработать международные стандарты, которые позволят продвигать идею ответственного обмена данными, когда мы говорим о таких технологиях, как, в частности, искусственный интеллект, – подчеркивает топ-менеджер Intel. – Вне всякого сомнения, мы также можем работать над разнообразием данных в датасетах. Это позволит избежать ошибок и повысит способность организаций передавать данные по всему миру, получая в итоге более надежные датасеты. Правительства по всему миру, я считаю, должны поддерживать передачу таких потоков данных через границы. Более того, правительства и частный сектор должны делать все необходимое, для того чтобы минимизировать риски, связанные с конфиденциальностью и безопасностью, а также принимать соответствующие законодательные акты, которые будут предиктивными и понятными. Их действия должны быть ответственными и подотчетными.
Нужно прибегнуть к большей гибкости в доступе и обмену информацией, используя новые технологии в сфере ИТ-инфраструктуры, анонимизацию и шифрование. По мнению Рикардо Мазуччи, конфиденциальность должна закладываться уже на этапе разработки продуктов или услуг, то есть – проектируемая конфиденциальность, о чем уже говорили выше:
– Такие технологии, как машинное обучение, надо активно использовать, поскольку они не только обеспечивают конфиденциальность, но и позволяют получить доступ к новым технологиям.
При этом, как считает представитель корпорации Intel, «государства и частный сектор национальных экономик должны использовать методы самостоятельной оценки, чтобы понимать, насколько надежна создаваемая ими экосистема, а также формировать веру в доступ к данным и обмен данными».
* В ТЕМУ:
• «Startup Village – погружение в цифровой «мир»;
• «Мировая онлайн-выставка стартапов»;
• «Советы от Skolkovo Legal. Рекомендуем прислушаться»;
• «Startup Village. Приглашение в будущее».