Масса вопросов к массивам данных
В рамках недавно состоявшейся II Международной образовательной конференции Distant & Digital участники пленарной сессии «Базы данных vs данные без баз. Быстроменяющиеся массивы данных» обсудили особенности регулирования данных, ограничение их оборота нормами, действующими в законодательстве, а также роль данных в развитии современных технологий.
В дискуссии приняли участие председатель Комитета Российского союза промышленников и предпринимателей (РСПП) по интеллектуальной собственности и креативным индустриям, президент Ассоциации IPChain Андрей Кричевский, председатель правления фонда «Сколково» Игорь Дроздов, директор юридического департамента и комплаенса в HeadHunter Юрий Донников, а также заместитель директора Института права цифровой среды Михаил Якушев.
Модератор пленарной сессии, председатель правления Ассоциации IPChain, исполнительный директор Научно-образовательного центра интеллектуальной собственности и цифровой экономики Digital IP Максим Прокш предложил спикерам ответить на ряд вопросов в процессе полемики. В частности, чем различаются такие понятия, как «информация» и «данные», есть ли законодательное определение данных и оборота данных? Нужны ли вообще правовые ограничения в регулировании данных? Как действует на регулирование данных, скажем, законодательство об интеллектуальной собственности и персональных данных?
Квазиучебник для искусственного интеллекта
– Если говорить об интеллектуальной собственности, то я хотел бы напомнить, что информация и данные, употребляю их как синонимы, всегда были неохраняемой сферой. Они являются фактологией, благодаря которой формируются знания человека, его опыт, – отмечает председатель правления фонда «Сколково» Игорь Дроздов.
По словам спикера, свободный доступ к информации и данным составляет основу для развития творческой деятельности человека и создания им новых творческих продуктов. При этом сегодня приходится учитывать тот факт, что многие иностранные юрисдикции разработали собственный порядок использования данных: сначала Великобритания в 2014 году издала специальный статут на эту тему, затем подобное сделала Германия, а в 2019 году Евросоюз принял директиву об авторских и смежных правах на едином цифровом рынке, установившую исключения из авторских прав для интеллектуального анализа текста и данных. Эти и другие инициативы поставили на повестку дня еще один вопрос: а настолько ли свободными являются данные?
– Я исходил бы все-таки из тезиса, что сами по себе данные должны быть свободными, – говорит Игорь Дроздов. – Базы данных можно использовать в целях обучения искусственного интеллекта. Но, конечно же, когда имеется в виду их некоммерческое использование: тестирование моделей, выполнение исследовательских задач и так далее. Однако данные данным рознь. В этой связи надо четко определиться, что мы понимаем под данными? Если речь идет о так называемой разметке данных, когда мы делаем их машинопонимаемыми, то в таких случаях размеченные данные как результат обработки, на мой взгляд, представляют собой результат творческого труда. В равной степени я провел бы здесь аналогию с учебником, у которого есть автор. И вот это по сути квазиучебник, но только для искусственного интеллекта. Поэтому такие данные, вне всякого сомнения, должны охраняться, как любой другой объект авторского права.
Измерять в штуках – необъективно
По мнению директора юридического департамента и комплаенса в HeadHunter Юрия Донникова, наивысшая ценность баз данных – их содержание, а структуру в принципе можно использовать любую в зависимости от самих предоставленных данных, так как одни и те же данные можно формировать в разные структуры.
Эксперт также обратил внимание на правовые режимы охраны баз данных: авторский – защищает структуру; режим сложного объекта регулирует вопрос о создателе базы данных и других правообладателях, результаты интеллектуальной деятельности которых входят в состав базы данных; режим смежного права изготовителя определяет защиту содержания базы данных через понесенные затраты на ее создание.
– Если говорим про отечественное законодательство, то оно предоставляет два ключевых и, по сути, единственных инструмента защиты содержания – это защита через прямой запрет на извлечение из базы данных всего содержания или существенной части и прямой запрет на неоднократное извлечение или использование материалов, составляющих несущественную часть базы данных с оговоркой, что такие действия необоснованным образом ущемляют законные права и интересы изготовителя, – отметил Юрий Донников. – Наши суды, как правило, пытаются оценить, а сколько, собственно, материалов в штуках было извлечено второй стороной, с которой спорит заявитель? По этому поводу в российском законе написано просто – некая существенная часть. И каждый раз эта «существенность» определяется через количество.
По мнению Юрия Евгеньевича, такой подход не позволяет полностью оценить объем извлеченного материала, и по-хорошему надо рассматривать не только количество единиц извлеченного материала, но и понимать, насколько они однородны. Базу данных могут составлять разные материалы, имеющие различные объем и значимость. Например, один элемент может весить условно 1 Кб, а другой – 10 Мб. По этой причине мерить их в штуках – совершенно неправильно. Это – во-первых.
Во-вторых, это может быть база данных, состоящая из малого числа элементов, но при ее создании на формирование одного элемента затратили, например, несколько тысяч рублей или даже больше. И вот как объективно оценить масштаб извлечения из базы данных без учета, собственно, финансовых расходов, затраченных на ее создание? Ведь, может статься, что в одном случае 10 единиц извлеченного материала – это очень мало, буквально мелочь в денежном выражении, а в другом случае 11–12 единиц – это уже более высокая по затратам категория.
При этом, по словам эксперта, необходимо также измерять не только в абсолютных показателях, но и в относительных. К примеру, база данных составляет 1,5 млрд записей, из которых изъяли, скажем, 40 млн записей. В процентах это, казалось бы, мало: какие-то ничтожные 2,66%. Однако если посмотреть еще раз в конкретных цифрах, то 40 млн – согласитесь, реально большое количество.
Резюмируя свое выступление, Юрий Донников отметил, что повышение удобства и эффективности работы пользователей, появление новых сервисов на основе обработки больших данных, инвестиции в технологии и структуру напрямую зависят от возможностей по защите прав изготовителей баз данных. По этой причине правовая защита баз данных и законных интересов их изготовителей крайне важна и необходима.
– К сожалению, практика показывает, что еще есть определенное недопонимание со стороны потребителей баз данных того, что их объем прав в отношении данного контента несколько иной, чем они сами себе представляют, – подчеркнул эксперт.
Искусственный интеллект склонен к плагиату?
В отечественном законодательстве есть норма, разрешающая использование любых объектов без разрешения правообладателей в научных и образовательных целях. Но могут ли эти цели, изначально ориентированные на человека, служить обоснованием для использования охраняемого контента, когда речь идет об обучении систем искусственного интеллекта?
– На мой взгляд, ответ очевиден: данные должны быть открытыми для образовательных и научных целей. Более того, нужно максимизировать эту открытость. В этой связи необходимо искать и находить все возможные способы, чтобы, с одной стороны – не ущемить правообладателей, а с другой – обеспечить доступ к знаниям. При этом если мы говорим о «скармливании» данных искусственному интеллекту, то все же надо учитывать, что эти данные кому-то принадлежат. Их нужно покупать, оплачивать доступ к ним. Это очень важный и принципиальный момент, – обозначил свою позицию глава Комитета РСПП по интеллектуальной собственности и креативным индустриям, президент Ассоциации IPChain Андрей Кричевский.
По мнению Андрея Борисовича, такое мощное средство обработки информации, как технология искусственного интеллекта, изначально нацелено на коммерциализацию данных:
– Мы видим, что в любом случае через какое-то количество шагов все это приводит именно к коммерческому использованию контента. Поэтому здесь, по всей вероятности, было бы правильно установить четкие подходы к получению данных для обучения искусственного интеллекта. Даже, наверное, можно было бы ввести особый вид использования данных. Это позволило бы, во-первых, создать новое поле относительно коммерциализации прав для правообладателей, а во-вторых, четко установило бы правила оборота данных.
Однако в плане использования неимущественных прав существует ли опасность того, что если обучить алгоритм на определенном массиве охраняемых или неохраняемых произведений, но принадлежащих конкретному автору, то искусственный интеллект станет выдавать нечто схожее с творчеством Есенина, или Маяковского, или Моцарта, вроде как не охраняемым? Не будет ли это нарушением неимущественных прав и некой дискредитацией имени первоначального правообладателя?
– Конечно, будет, – считает Андрей Кричевский. – Здесь, безусловно, должны использоваться те же правила, которые применяются при оценке плагиата. Какая разница, при помощи чего это создано: человек ли переписывал слова на компьютере, или загрузил необходимую информацию в систему искусственного интеллекта и «электронный мозг» помог создать «шедевр», до боли схожий с хорошо известными первоисточниками. Состав нарушения прав, по сути, один и тот же.
Dura lex, sed lex
В свою очередь, заместитель директора Института права цифровой среды Михаил Якушев подчеркнул, что добросовестный обработчик данных должен соблюдать закон, каков он есть:
– Dura lex, sed lex – закон суров, но его следует соблюдать. Этот постулат был зафиксирован еще римским правом, но, как показывает сегодняшняя жизнь, с этим сложно поспорить и спустя многие века.
По мнению Михаила Владимировича, отечественное законодательство в сфере баз данных должно быть интегрировано в международное законодательство, но оно дрейфует в противоположную сторону:
– Очень важно понимать, что в условиях развития интернета, интернет-технологий в обработке данных главное – это чтобы мы не были очень сильно завязаны исключительно на свое собственное законодательство и только на то, что работает внутри нашей страны. Так или иначе в правовом отношении мы должны быть интегрированы в глобальное регулирование, но пока видим, что законодательство РФ потихоньку дрейфует в сторону, все более далекую от того, куда развиваются законодательства других стран мира, что опять-таки, безусловно, не очень хорошо в рамках единого глобального информационного пространства.
Затем спикер обратил внимание участников пленарки, что разница между понятиями «информация» и «данные», безусловно, есть. Применительно к российскому законодательству изначально никто не понимал, что такое данные и как их регулировать. Поэтому просто управляли информацией и информатизацией, в то время как за рубежом информация чаще всего – это объект регулирования публичного права и принципа свободы информации. Так, в качестве примера можно привести США с их первой поправкой к конституции, которая гарантирует права, считающиеся неотъемлемыми атрибутами либеральной демократии: в частности, свободу слова и прессы, и много других национальных и международных актов и законов о свободе информации.
В 1993 году уже в Конституцию РФ заложили ровно такой же принцип: в статье 29, пункт 4, говорится, что «каждый имеет право свободно искать, получать, передавать, производить и распространять информацию любым законным способом».
И, наконец, в 2020 году в новом тексте Конституции РФ с поправками появилось понятие «данные»: в статье 71 «В ведении Российской Федерации находятся» (пункт м) сказано, что необходимо при обороте, а не обработке именно цифровых, а не каких-то иных данных обеспечивать безопасность личности, общества и государства.
– Что же касается базы данных, то напомню, что в 90-е годы прошлого столетия в России действовал закон об информации, где объектом регулирования была информация на материальном носителе, которая признавалась объектом вещного права. Разумеется, сейчас подобного рода подход абсолютно не приемлем: ничего из того, что происходит в онлайн, к объектам материального права приравнять просто невозможно, – подчеркнул Михаил Якушев.
В свою очередь, за рубежом, считает спикер, пошли по иному пути: там есть понятие базы данных как объекта интеллектуальной собственности. Но с развитием технологии искусственного интеллекта, других информационных технологий все больше и больше в мире уже говорят не о базах данных, а о других способах организации этих данных. В частности, заявляют про набор данных (англ. data set), который по своему содержанию как правовая категория не совпадает с понятием «база данных».
– Это важный момент, который следует также учитывать в нашем законодательстве. Принимая во внимание подобного рода различия, все это должно охраняться либо как объект интеллектуальной собственности, либо как объект некоего контента, который организован в виде данных, – отметил эксперт.
К прозрачному рынку технологий
В завершение дискуссии Максим Прокш обратился к спикерам с вопросом: «Какие, по вашему мнению, нужно принять первоочередные меры, для того чтобы развязать узел непонимания, что в сфере данных можно оборачивать, а что нельзя, с тем чтобы исключить все эти взаимно противоречащие друг другу нормы?»
– Прежде чем прописывать какие-то нормы, мы должны применительно к развитию искусственного интеллекта все-таки договориться о том, куда мы, собственно говоря, идем в его развитии? На международном уровне по этому поводу превалируют две точки зрения: одни эксперты убеждены, что охрана данных будет стимулировать развитие искусственного интеллекта, а другие говорят ровно наоборот – нет, не будет. Я наблюдаю за этими дебатами, которые больше склоняются ко вторым. Поэтому давайте-ка лучше соревноваться алгоритмами и качеством самих нейросетей, которые обучаются, а данные, ставшие своего рода питательной средой для искусственного интеллекта, должны быть в общем доступе, и мы все будем пользоваться ими, – обозначил собственную позицию Игорь Дроздов.
Андрей Кричевский, в свою очередь, выразил сомнение, что в итоге все склонятся к тому, чтобы посоревноваться технологиями искусственного интеллекта, и даже не у нас:
– Дело в том, что технологии в России, может быть, и неплохие, но в результате все упрется в «железо». Поэтому давайте думать, за счет чего будем эту гонку выигрывать, если у нас есть естественные ограничители. Возможно, создание коммерчески эффективных моделей и будет тем самым трекером, который позволит навязать игрокам что-то внешнее. Как только появится прозрачный рынок, станет понятным, в какую сторону делать регулирование.
Финализировал мнения участников пленарной сессии Михаил Якушев, который предложил организовать «одноименное» мероприятие с приглашением представителей профильных комитетов Государственной Думы и юридических департаментов Минцифры и Роскомнадзора. По мнению эксперта, они могли бы изложить свои соображения на обозначенную тему, вступить в дискуссию с теми, кто выражает те или иные точки зрения относительно нормативного обеспечения оборота данных и правовой защиты баз данных, а также попытаться достигнуть определенного консенсуса в плане того, что же дальше делать в российском законодательстве применительно к базам данных и данным без баз.
* При подготовке статьи использованы фото пресс-службы Международной образовательной конференции Distant & Digital и пресс-службы IPQuorum.
Источник: «1474».