В России впервые подготовлен проект Нацстандарта по Большим данным
Юридическая компания «Пепеляев Групп» информирует о публикации первой редакции основополагающего национального стандарта «Информационные технологии. Большие данные. Обзор и словарь»
Данный стандарт подготовлен в рамках реализации Программы национальной стандартизации на 2020 год, утвержденной Росстандартом[2]. В соответствии с программой, окончательная редакция стандарта должна быть представлена к 15 декабря 2020 года. Разработка проекта осуществляется в рамках работы Технического комитета по стандартизации 164 «Искусственный интеллект». Авторами проекта выступили Национальный центр цифровой экономики МГУ имени М.В. Ломоносова и Институт развития информационного общества.
Настоящий стандарт представляет собой эквивалент международного стандарта ISO/IEC 20546:2019 «Information technology — Big data — Overview and vocabulary». По мнению авторов проекта, соответствие национального стандарта международному создаст предпосылки для взаимного проникновения отечественных и мировых исследований в области «Информационные технологии – Большие данные»[3].
В проекте закрепляются стандартизированные термины и определения в области Больших данных, что обеспечит единообразное понимание данной терминологии всеми заинтересованными сторонами (государственными органами, игроками рынка Больших данных и членами научного сообщества).
Настоящий стандарт станет основой для иных национальных стандартов, разрабатываемых в указанной сфере. После его утверждения установленные термины и определения станут обязательными для использования во всех видах документации и литературы в сфере стандартизации по данной научно-технической области[4]. В частности, к такой документации относятся:
- документы национальной системы стандартизации (непосредственно национальные стандарты, правила стандартизации, рекомендации по стандартизации, информационно-технические справочники);
- общероссийские классификаторы (в частности, технико-экономической и социальной информации);
- стандарты организаций, включая технические условия (разрабатываемые организациями самостоятельно исходя из необходимости их применения для обеспечения целей стандартизации);
- своды правил (правила и общие принципы в отношении процессов в целях обеспечения соблюдения требований технических регламентов).
Важно отметить, что в соответствии со статьей 26 Федерального закона от 29.06.2015 № 162-ФЗ «О стандартизации в Российской Федерации» применение национальных стандартов осуществляется на добровольной основе. При этом исключение составляют:
- случаи, касающиеся конкретных объектов стандартизации, перечисленных в законе (например, товаров, работ, услуг по государственному оборонному заказу, продукции, связанной с атомной энергией)[5];
- случаи, когда производитель товаров (работ, услуг) публично заявляет о соответствии его продукции национальному стандарту. Например, такое заявление может быть сделано путем упоминания национального стандарта в маркировке, в эксплуатационной или иной документации, или путем нанесения на продукцию знака национальной системы стандартизации (РСТ)[6].
Что касается самого определения Больших данных, то в проекте стандарта под ними понимаются большие массивы данных, главным образом, по таким характеристикам данных, как объем, разнообразие, скорость обработки и/или вариативность, – которые требуют использования технологии масштабирования для эффективного хранения, обработки, управления и анализа. Под массивами данных при этом понимается идентифицируемая совокупность данных, к которой можно получить доступ или скачать в одном или нескольких форматах.
Определение Больших данных сформулировано через ключевые характеристики данных:
- объем данных – значительное количество данных, доступных для анализа с целью извлечения полезной информации;
- скорость обработки данных – скорость потока создания, хранения, анализа или визуализации данных;
- разнообразие данных – необходимость анализа данных разного типа из различных предметных областей;
- вариативность данных – изменения в скорости передачи данных, их формате/структуре, семантике или качестве.
Иными словами, проект стандарта определяет Большие данные не только как объем накопленной информации, которая обрабатывается с определенной скоростью. Понятие включает в себя методы обработки Больших данных.
Помимо терминов, относящихся к технологиям Больших данных, в проекте анализируются сквозные понятия (такие как метаданные, алгоритмы, облачные вычисления, Интернет вещей и некоторые другие), а также приводятся размышления о безопасности данных и требованиях по защите конфиденциальности. Такие понятия могут быть использованы как в стандартах, связанных с Большими данными, так и в других областях разработки стандартов.
Попытка закрепить понятие Больших данных на законодательном уровне предпринималась в разработанном Минкомсвязью законопроекте «О внесении изменений в Федеральный закон «Об информации, информационных технологиях и о защите информации». В конце марта 2020 года данный законопроект был отклонен Правительством РФ. В частности, редакция законопроекта, представленная Минкомсвязью, неоднократно подвергалась критике со стороны представителей бизнес-сообщества. Рассматриваемый термин был сформулирован слишком широко и не давал однозначного представления о его предмете, что позволяло считать Большими данными любую общедоступную информацию[7].
[2] Приказ Росстандарта от 01.11.2019 № 2612 «Об утверждении Программы национальной стандартизации на 2020 год»
[3] Пояснительная записка к первой редакции национального стандарта: ГОСТ Р. Информационные технологии. Большие данные. Обзор и словарь.
[4] Там же
[5] Статья 6 Федерального закона от 29.06.2015 № 162-ФЗ «О стандартизации в Российской Федерации»
[6] Статья 26 Федерального закона от 29.06.2015 № 162-ФЗ «О стандартизации в Российской Федерации»