Корпоративная и экономическая безопасность — логотип

Информационно-аналитический портал «Корпоративная и экономическая безопасность»

Научный дневник № 7: Осложнение научных исследований низким качеством оформления статистических данных

Дата публикации: 18.11.2015

Значительную роль в экономических исследованиях играет работа со статистикой, то есть с конкретными числовыми данными, которые нуждаются в анализе. При этом, зачастую получение данных в пригодном для анализа виде является не самой простой задачей, которая, порой, требует больше усилий, чем сам анализ. Эта проблема, к сожалению, крайне актуальна для российской экономики, так как культура публикации статистических данных в РФ находится на достаточно низком уровне.


Анализ статистики, как правило, осуществляется при помощи различного программного обеспечения: от обычного табличного процессора до специальных пакетов или специально написанных программных алгоритмов. Поэтому для начала работы требуется привести исходные данные в машиночитаемый формат, что обычно предполагает соблюдение следующих условий:

  1. Структурирование данных (обычно в табличную форму);
  2. Устранение лишних знаков (пробелов, переносов и пр.);
  3. Разрешение конфликта различных десятичных разделителей (где-то могут использоваться знаки точки, а где-то запятой).

Как правило, с этими проблемами исследователь сталкивается, если статистическая информация представлена тексте отчётов или на web-страницах. В этом случае, приходится вручную копировать данные, их структурировать, очищать и приводить к единообразной форме. В итоге, и получается, что на подготовку данных уходит больше времени, чем на проведение их анализа. Всё это замедляет процесс исследования, а также увеличивает риск ошибки ещё на этапе получения исходных данных.

Многие поставщики статистических данных осознают эту проблему, поэтому предоставляют удобный интерфейс получения данных в уже машиночитаемом формате, например, автоматически генерируя табличные файлы Excel или CSV. В этом случае, исследователю остаётся только проконтролировать третий пункт, связанный с возможным конфликтом десятичных разделителей. Однако подобной сознательностью отличаются далеко не все.

К сожалению, приходится констатировать, что в России крайне низкий уровень культуры публикации статистических данных. Росстат, а также другие министерские статистические службы, да и многие неправительственные исследовательские центры, не предоставляют большую часть статистики в машиночитаемом формате. В лучшем случае, на их сайте публикуются таблицы, которые нужно копировать и обрабатывать в ручную, а в худшем — речь вообще идёт о публикации текстового отчёта, из которого интересующие числа нужно специально выписывать и структурировать самостоятельно. При этом, у статистических служб западных стран и у крупных международных организаций чаще можно столкнуться с возможностью загрузить статистику отдельным табличным файлом. В итоге, зачастую исследование российской статистики оказывается более сложной и трудоёмкой задачей, чем статистики западных стран и международных организаций.

Разумеется, всегда остаётся проблема конфликта десятичных разделителей и необходимость приведения величин к одному разряду и одним единицам измерения (изначально данные могут быть вперемешку в миллионах и миллиардах, а также в килограммах и фунтах), но всё же изначальная публикация статистических данных в машиночитаемых форматах достаточно сильно облегчает процесс исследования. По этой причине, данная проблема является крайне актуальной, но, к сожалению, редко когда поднимается.

Стоит отметить, что в последнее время популярность набирает концепция открытых данных (open data), подразумевающая публикацию максимально возможного объёма государственной статистики, причём в машиночитаемом формате или даже с предоставлением полноценного API для формирования сложных запросов. В России многие министерства и другие органы государственного управления уже начинают предоставлять свою статистику в рамках открытых данных, но пока всё это развивается не так быстро, как бы хотелось. Кроме того, в отношении фундаментальной статистики открытые данные лоббируются далеко не так активно.