Корпоративная и экономическая безопасность — логотип

Информационно-аналитический портал «Корпоративная и экономическая безопасность»

Научный дневник № 9: Дискриминация фундаментальной статистики в мире открытых данных

Дата публикации: 02.12.2015

Ранее в седьмом выпуске «Научного дневника» уже затрагивалась проблема осложнения научных исследований низким качеством оформления статистических данных. Тогда в качестве одного из решений была упомянута концепция открытых данных, то есть идея обеспечения свободного доступа к определённым данным в машиночитаемой форме и на условии неограниченной републикации без ограничений авторского права, патентов и других механизмов контроля. В мире этот подход в последние годы набирает большую популярность, а некоторое время назад стал активно развиваться и в России. Тем не менее, в мире открытых данных наблюдается некоторый перекос, который ущемляет интересы специалистов, желающих получить данные для анализа фундаментальных показателей.


Дело в том, что открытые данные статистического характера, как правило, используются в мелких сервисах, например, анализирующих движение общественного транспорта и предоставляющих на их основе некую полезную услугу для населения. Соответственно запрос на открытые статистические данные от государства со стороны общества преимущественно идёт именно в отношении подобной бытовой информации с понятной прикладной ценностью. В итоге, складывается ситуация, когда усилия по открытию статистических данных со стороны государства сосредотачиваются именно на подобной информации, которая носит сиюминутный характер.

В то же время, ресурсы, которые тратятся на открытие фундаментальных статистических данных, существенно меньше, так как и соответствующий запрос общества не столь велик, а его польза не настолько очевидна простым чиновникам. В результате, громадный объём фундаментальной статистики по-прежнему остаётся за рамками открытых данных. Большая часть информации из государственных статистических сборников не представляется в машиночитаемой форме. В лучшем случае, эти сборники доступны в электронном формате, более-менее пригодном для скриптового парсинга, но мало какие учёные обладают достаточными компетенциями, чтобы решать задачи такого рода.

То есть отсутствие сиюминутной ценности фундаментальной статистики и немногочисленность людей, которым она необходима для анализа, приводит к дискриминации этих наборов данных при открытии, тогда как с научной точки зрения открытие фундаментальных статистических данных дало бы серьёзный импульс целой массе исследований в различных дисциплинах.

Разумеется, спрос на фундаментальную статистику всегда останется небольшим, относительно мелкой бытовой, касающейся аспектов повседневной жизни. Более того, в долгосрочной перспективе, когда число сервисов, использующих открытые данные, будет расти, доля специалистов, нуждающихся в фундаментальной статистике, будет размываться. Поэтому если государственные органы, являющиеся носителями статистических данных, будут по-прежнему ориентироваться только на объём спроса, то открытость фундаментальной статистики будет представляться им всё менее актуальной.

Таким образом, необходимость представления фундаментальной статистики в виде открытых данных должна быть осознана на правительственном уровне и стимулироваться административными мерами, обязующими государственные органы в любом случае уделять внимание этим наборам данных, даже если спрос на них представляется незначительным. Фундаментальная статистика никогда не будет интересна большому числу потребителей, но те немногие, для которых она нужна, смогут применить её для исследований, имеющих существенное значение для всего общества.