Корпоративная и экономическая безопасность — логотип

Информационно-аналитический портал «Корпоративная и экономическая безопасность»

Научный дневник № 35: Проблема непригодности статистики из отчётов для проведения научных исследований

Дата публикации: 01.06.2016

Помимо данных, публикуемых различными государственными структурами, существует довольно большой пласт статистической информации, содержащейся во всевозможных отчётах, издаваемых различными компаниями и организациями. Причём, эта статистика может как дополнять официальную национальную, например, освещая отдельные аспекты динамики цен по каким-то товарам, так и носить эксклюзивный характер, например, содержа данные по ущербу компаниям от кибератак. В итоге, эта статистика из отчётов потенциально может представлять довольно большой интерес для учёных, но на практике, в подавляющем большинстве случаев, они сталкиваются с её непригодностью для проведения исследовательской работы.


Причина проблемы заключается в том, что фактически публикуемые отчёты итак уже представляют собой результат некой исследовательской работы, проведённой специалистами издающей компании. Статистика в отчётах приводится, как правило, не в виде данных для анализа, а просто как некий материал, иллюстрирующий аналитические выводы, которые уже сделаны за читателя. То есть для читателя отводится роль в большей степени потребителя чужих выводов, а не исследователя, который должен самостоятельно выдвигать и проверять гипотезы на основе исходных данных.

В результате, подобные отчёты обычно не содержат временные ряды данных, а оперируют отдельными числами. Например, в подобных материалах трудно встретить таблицу с оценкой ущерба от кибератак за всё время наблюдений по годам и отраслям. В них обычно пишется просто некая фраза, обозначающая вывод и в лучшем случае число, иллюстрирующее динамику за последний период, типа «совокупный объём потерь российских компаний от информационных утечек вследствие взломов увеличился за последний год на x%».

Часто это является следствием не только жанровой специфики подобных отчётов, но и довольно спорных методологических приёмов, когда методика расчёта анализируемой статистики или качество выборки меняется, поэтому в явной форме приводить какие-либо временные ряды представляется сложным. Ну а в словесных формулировках эта проблема до определённой степени оказывается завуалирована.

Так или иначе, существует проблема, что довольно большой объём вроде как имеющейся статистики в реальности оказывается непригодным для осуществления самостоятельных научных исследований. Это при том, что по своему смыслу подобные данные как раз могут представлять довольно большой интерес, но учёные фактически не могут получить их в пригодном для анализа виде.

В каких-то случаях временные ряды подобных данных удаётся построить посредством самостоятельной ручной выборки числовых значений из отчётов, опубликованных за всё время. То есть исследователям приходится вручную формировать выборку этой статистики в сводную таблицу. Однако, к сожалению, и это оказывается не всегда возможным, так как формат таких отчётов часто не сохраняет однородность из года в год, фактически оперируя различающимися данными.

Понятно, что когда речь идёт о различных маркетинговых отчётах компаний или специальных аналитических бюллетенях для какой-то конкретной отрасли, их авторы решают вполне конкретные задачи, далёкие от нужд научного сообщества. Более того, первичная статистика, пригодная для анализа, часто является ключевой компетенцией их бизнеса, которую они охраняют и не готовы открыто публиковать. Тем не менее, в отношении многих отчётов, содержащих какую-то статистическую информацию, складывается впечатление, что в действительности данные, пригодные для анализа за всё время наблюдений, отсутствуют и внутри самой организации, проводившей исследование.

В итоге, часто вроде как имеющееся статистика, на которую ссылаются различные отчёты, в действительности либо недоступна широкому научному сообществу, либо не существует в принципе. По крайней мере, в форме, пригодной для серьёзного научного анализа.