Предмет изучения статистики

Семплирование

Предположим, вам требуется решить важную задачу: выяснить среднюю ширину морды домашних котов нашей страны. Прямой способ, то есть измерение всех домашних питомцев, невозможен по ряду объективных причин. Придётся ограничиться выборкой — взять какое-то число животных, измерить морды именно им и сделать выводы по итогам только этих исследований.


Иллюстрация: Pixabay

Но тут сразу же возникают вопросы:

  • Сколько и каких котов отобрать для замера?
  • Почему именно этих, а не других?
  • Какие есть гарантии, что вычисленное значение действительно будет средней шириной морды всех котов России?

Семплирование — это группа статистических методов и приёмов, отвечающих на эти вопросы. С помощью семплирования мы формируем нашу выборку так, чтобы она наилучшим образом отражала свойства генеральной совокупности — то есть свойства всех котов страны.


Качественная выборка сохраняет свойства всей генеральной совокупности

Иными словами, вы не можете измерить N первых попавшихся котов и обобщить результат для остальных. Выборка должна хорошо «сидеть» во всей популяции кошек, чтобы можно было делать обоснованные выводы. Такую выборку называют релевантной.

Кстати, статистика и котики — близнецы-братья. После выхода одноимённой книги Владимира Савельева мы говорим «статистика», а подразумеваем «котики», и наоборот. И смело рекомендуем эту книгу всем, кто дочитал до этого места.

В Data Science методы семплирования применяются при разработке, подготовке и оценке датасетов, чтобы они одновременно и были упорядоченными, и соответствовали реальности.

Распределение

Внешняя форма данных, выраженная в мерах описательной статистики, даёт нам информацию об их характере. Это как в жизни: по фигуре, походке и одежде человека обычно можно догадаться о его поле, возрасте и даже профессии. В случае числовых данных мы догадываемся о распределении.

Термин пришёл из теории вероятностей, которая рассматривает любое событие в мире как имеющее ту или иную вероятность. Однородные события хоть и происходят с разной вероятностью, но подчиняются распределению, которое «раздаёт» им эти вероятности.

В Data Science распределение понимается обобщённо: это закон соответствия одной величины другой. Оно подсказывает нам, какой именно процесс может скрываться за данными, и то, насколько эти данные полны. Чуть подробнее об этом в нашей статье про математику для джунов.

Возможно, вы уже слышали про колокол нормального распределения, или гауссиану: она описывает процессы, где результат является суммой многих случайных величин, каждая из которых слабо зависит от другой и вносит сравнительно небольшой вклад.


Распределение размеров чашелистика ириса разноцветного. Изображение: Qwfp / Pbroks13 /

Величина ошибок измерения в физике, длина когтей, зубов и шерсти в биологии, объёмы речных стоков в гидрологии — все эти показатели имеют нормальное распределение. Это, пожалуй, самое распространённое в природе и не только в природе распределение, поэтому оно и названо нормальным.

Распределение Пуассона тоже часто встречается в работе дата-сайентистов и аналитиков: это число событий за какой-то промежуток времени — при условии, что события независимы друг от друга и имеют некоторый порог интенсивности.


При ƛ = 10 горка Пуассона похожа на колокол Гаусса. Будьте внимательны!

Это и число посетителей в торговом центре, и количество голов, забитых футбольной командой, и скорость роста колонии бактерий.

Существуют и , в том числе довольно экзотические: Вигнера, Вейбулла, Коши. Они встречаются намного реже или преимущественно в каких-то специальных областях вроде квантовой физики. Тем не менее дата-сайентисту нужно знать графики, параметры и названия основных распределений, благо их не так много.

Предпринимательство

Это дополнительный раздел, он описывает преимущества, экономические развитие России и стран мира. При ссылке на источник – вы точное знаете откуда были получены данные, что становится убедительным доказательством.

Также здесь проясняется структура: государственная статистика является инструментом для решения поточных вопросов, в ее состав входит Центральный аппарат на Федеральном уровне, плюс территориальные органы Росстата, расположенные по всей стране.

Здесь есть перечень:

  • «Конкурсы», где изложены недавние мероприятия, а также размещены извещения о проведении конкурсов в электронном формате.
  • Об аукционах – списки текущих и проведенных закупках.
  • Ряд незаполненных подзаголовков.
  • Приказы о контрактных службах.
  • Список членов комиссий, осуществляющих закупки.
  • Перечень нормальных документов. Это Приказы Росстата и Федеральные законы.
  • Информация о госзакупках, производимых территориальными органами Росстата.
  • Статистические данные об осуществлении закупок.
  • Контрактные сведения (Росстата с физическими лицами).

Кому и зачем нужен

Основная задача Росстата – представлять актуальные и достоверные сведения – результат, собранный службой в ходе текущих и годовых статнаблюдений, обследований и переписей.

Фото: издания с сайта gks

Он размещает на страницах официального портала информационную группу необходимых данных:

  • о развитии государства;
  • о происходящих в нем преобразованиях;
  • о результатах деятельности, осуществляемой на его территории.

Росстат нужен:

  1. Гражданам РФ. Каждый россиянин может наглядно видеть, как развивается государство, регион, в котором он живет, какие преобразования происходят в отдельных сферах, улучшается или ухудшается их положение.
  2. СМИ. На основании данных они составляют аналитические обзоры. Таким образом доносится до читателей (зрителей) информация об эффективности или неэффективности работы отдельных предприятий, ИП или власти.
  3. Предпринимателям. Статистика позволяет выбирать надежных контрагентов с высоким уровнем рентабельности, получать среднеотраслевые показатели заработных плат, налоговой нагрузки, предельных значений выручки и др.
  4. Налоговым органам. Предприятиям или ИП присваиваются при регистрации коды видов экономической деятельности. Они позволяют контролировать работу этих субъектов, являются обязательными при участии в тендерах, открытии счета в банке или при проведении аудитов.
  5. Органам власти. Статистика о политическом, экономическом, социальном развитии страны позволяет эффективно управлять внутренним и внешним рынками, регулировать ситуации с занятостью и демографией.

Читайте о регионах с самым быстрым ростом зарплат, по данным госстатистики

С декабря 2018 г. у Росстата новый руководитель Павел Малков. Он озвучил главные задачи, которые придется решать:

  • модернизация самой системы статистики. Повышение качества собираемой информации и аналитики;
  • реформа отчетности. Снизить нагрузку на плечи бизнеса и государственных учреждений и привести систему к единым стандартам;
  • проведение в 2020 г. Всероссийской переписи населения.

Интересное видео, как блогеры используют данные Росстата:

Нет 1
Средне
Да

Сохраните и поделитесь информацией в соцсетях:

Обсуждения закрыты для данной страницы

Мода и медиана

Модой называют элемент, который встречается в выборке чаще других.

Рассмотрим следующую выборку: шестеро спортсменов, а также время в секундах за которое они пробегают 100 метров

Элемент 14 встречается в выборке чаще других, поэтому элемент 14 назовем модой.

Рассмотрим еще одну выборку. Тех же спортсменов, а также смартфоны, которые им принадлежат

Элемент iphone встречается в выборке чаще других, значит элемент iphone является модой. Говоря простым языком, носить iphone модно.

Конечно элементы выборки в этот раз выражены не числами, а другими объектами (смартфонами), но для общего представления о моде этот пример вполне приемлем.

Рассмотрим следующую выборку: семеро спортсменов, а также их рост в сантиметрах:

Упорядочим данные в таблице так, чтобы рост спортсменов шел по возрастанию. Другими словами, построим спортсменов по росту:

Выпишем рост спортсменов отдельно:

180, 182, 183, 184, 185, 188, 190

В получившейся выборке 7 элементов. Посередине этой выборки располагается элемент 184. Слева и справа от него по три элемента. Такой элемент как 184 называют медианой упорядоченной выборки.

Медианой упорядоченной выборки называют элемент, располагающийся посередине.

Отметим, что данное определение справедливо в случае, если количество элементов упорядоченной выборки является нечётным.

В рассмотренном выше примере, количество элементов упорядоченной выборки было нечётным. Это позволило нам быстро указать медиану

Но возможны случаи, когда количество элементов выборки чётно.

К примеру, рассмотрим выборку в которой не семеро спортсменов, а шестеро:

Построим этих шестерых спортсменов по росту:

Выпишем рост спортсменов отдельно:

180, 182, 184, 186, 188, 190

В данной выборке не получается указать элемент, который находился бы посередине. Если указать элемент 184 как медиану, то слева от этого элемента будут располагаться два элемента, а справа — три. Если как медиану указать элемент 186, то слева от этого элемента будут располагаться три элемента, а справа — два.

В таких случаях для определения медианы выборки, нужно взять два элемента выборки, находящихся посередине и найти их среднее арифметическое. Полученный результат будет являться медианой.

Вернемся к нашим спортсменам. В упорядоченной выборке 180, 182, 184, 186, 188, 190 посередине располагаются элементы 184 и 186

Найдем среднее арифметическое элементов 184 и 186

Элемент 185 является медианой выборки, несмотря на то, что этот элемент не является членом исходной и упорядоченной выборки. Спортсмена с ростом 185 нет среди остальных спортсменов. Рост в 185 см используется в данном случае для статистики, чтобы можно было сказать о том, что срединный рост спортсменов составляет 185 см.

Поэтому более точное определение медианы зависит от количества элементов в выборке.

Если количество элементов упорядоченной выборки нечётно, то медианой выборки называют элемент, располагающийся посередине.

Если количество элементов упорядоченной выборки чётно, то медианой выборки называют среднее арифметическое двух чисел, располагающихся посередине этой выборки.

Медиана и среднее арифметическое по сути являются «близкими родственниками», поскольку и то и другое используют для определения среднего значения. Например, для предыдущей упорядоченной выборки 180, 182, 184, 186, 188, 190 мы определили медиану, равную 185. Этот же результат можно получить путем определения среднего арифметического элементов 180, 182, 184, 186, 188, 190

Но медиана в некоторых случаях отражает более реальную ситуацию. Например, рассмотрим следующий пример:

Было подсчитано количество имеющихся очков у каждого спортсмена. В результате получилась следующая выборка:

0, 1, 1, 1, 2, 1, 2, 3, 5, 4, 5, 0, 1, 6, 1

Определим среднее арифметическое для данной выборки — получим значение 2,2

По данному значению можно сказать, что в среднем у спортсменов 2,2 очка

Теперь определим медиану для этой же выборки. Упорядочим элементы выборки и укажем элемент, находящийся посередине:

0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 3, 4, 5, 5, 6

В данном примере медиана лучше отражает реальную ситуацию, поскольку половина спортсменов имеет не более одного очка.

Частота

Частота это число, которое показывает сколько раз в выборке встречается тот или иной элемент.

Предположим, что в школе проходят соревнования по подтягиваниям. В соревнованиях участвует 36 школьников. Составим таблицу в которую будем заносить число подтягиваний, а также число участников, которые выполнили столько подтягиваний.

По таблице можно узнать сколько человек выполнило 5, 10 или 15 подтягиваний. Так, 5 подтягиваний выполнили четыре человека, 10 подтягиваний выполнили восемь человек, 15 подтягиваний выполнили три человека.

Количество человек, повторяющих одно и то же число подтягиваний в данном случае являются частотой. Поэтому вторую строку таблицы переименуем в название «частота»:

Такие таблицы называют таблицами частот.

Частота обладает следующим свойством: сумма частот равна общему числу данных в выборке.

Это означает, что сумма частот равна общему числу школьников, участвующих в соревнованиях, то есть тридцати шести. Проверим так ли это. Сложим частоты, приведенные в таблице:

4 + 5 + 10 + 8 + 6 + 3 = 36

Популярное

Этот раздел предназначен для респондентов и их основной деятельности. Здесь есть формы наблюдения за статистическими изменениями, а также – отчетов в финансах. Для самых организованных пользователей имеется статкалендарь и электронная версия отчетности.

Пункт «Общероссийские и ведомственные Классификаторы» пригодится индивидуальным предпринимателям и организациям с юридическим лицом, так как этим компаниям необходимо иметь доступ к сведениям о шифрах в разных Классификаторах. Цифры оттуда помогут быстрее заполнить необходимые бумаги или подать заявление с актуальными данными.

Как и где узнать ТОГС

Специального нормативного документа, содержащего все актуальные шифры ТОГС, не существует.

Тем не менее есть несколько вариантов, как узнать код отделения Росстата, в который направляет отчетность конкретное лицо.

Вариант 1. Позвонить в территориальный орган Росстата или обратиться лично и спросить. Телефон, адрес и режим работы подразделений публикуются на региональных версиях портала ФСГС.

Вариант 2. Узнать искомый шифр через сайт Росстата, для этого необходимо:

Шаг 1. Зайти на сайт Росстата .

Шаг 2. Перейти в раздел «Контакты».

Шаг 3. Нажать «Найти территориальный орган Росстата».

Шаг 4. На карте выбрать интересующий субъект и перейти на его сайт.

Шаг 5. Выбрать вкладку «Респондентам», а затем раздел «Статистическая отчетность в электронном виде».

Шаг 6. На открывшейся странице выбрать способ подачи отчетности «через телекоммуникационные каналы связи специализированных операторов связи».

Шаг 7. Посмотреть на открывшейся странице искомый номер Росстата.

Вариант 3. Узнать шифр у оператора связи, например, позвонив ему. Более того, у многих операторов актуальные коды опубликованы на сайтах. Например, на сайте «Такском» имеется удобная таблица со всеми кодами ТОГС.

Важный вопрос: как узнать номер ТОГС (РОГС) по ИНН, порядок действий в этом случае тот же, что описан выше. ИНН в этом случае необходим для установления региона регистрации юридического лица. Делается это с помощью выписки из ЕГРЮЛ, которую легко получить на сайте налоговой с помощью ИНН. Таким образом, инструкция, как найти код ТОГС в статистике по ИНН, следующая:

Шаг 2. Ввести в строку поиска ИНН организации и нажать «Найти».

Шаг 3. Открыть выписку из ЕГРЮЛ и найти в ней адрес регистрации лица, где, в том числе, указывается регион.

Шаг 4. Воспользоваться порядком поиска ТОГС по конкретному региону.

Специальное ПО операторов связи, которое юридические лица используют для отправки отчетности, предоставляется с уже заполненными реквизитами. Программы интегрируются с установленной на компьютере клиента 1C.

Если код ТОГС не внесен автоматически, это системная ошибка. Исправить ее можно, связавшись с технической поддержкой оператора.

Меры центральной тенденции

Представим, что у нас есть набор данных из пяти чисел:

Среднее значение

Среднее значение (обозначаемое греческой буквой «мю» — μ) — некоторое число, заключенное между наименьшим и наибольшим значениями в наборе данных. Чтобы вычислить среднее значение, нужно сложить все значения и разделить получившуюся сумму на количество этих значений.

Медиана

Медиана — это середина набора данных. Чтобы вычислить медиану, необходимо рассортировать все значения (в порядке возрастания или убывания) и выбрать то значение, которое находится посередине.

Если количество точек данных четное, то для нахождения медианы просчитывается среднее значение двух точек по середине.

Медиана менее восприимчива к выбросам, чем среднее значение, и, следовательно, для выбора определенного значения мы должны принять во внимание то, как выглядит распределение данных

Мода

Мода — это наиболее распространенное значение в наборе данных. Чтобы вычислить моду, необходимо найти число, которое встречается наиболее часто.

Мода обычно важна для дискретных числовых данных, но не для непрерывных.

Информационно-аналитическая работа

Огромную работу проводят территориальные органы Росстата, направляя ее на формирование полной и достоверной информации.

Открытость деятельности Росстата дает возможность различным категориям пользователей получать своевременную статистическую информацию в любой сфере жизнедеятельности нашей страны.

Из года в год, проводя анализы получаемой информации, территориальные органы стараются расширить тематику изданий в области статистики и информационно-аналитических сведений, ставя для себя ориентиры в результате изученных потребностей пользователей.

Для предоставления доступа широкому кругу пользователей  к информации статистики социально-экономических процессов, которые происходят в каждом субъекте Российской Федерации, имеют активное использование официальных интернет-порталов территориальных органов статистики.

Многие территориальные органы стараются обеспечивать своевременное размещение на своих интернет-порталах различных информационных и официальных материалов и изданий не только отдельно по региону.

Но по муниципальным образованиям. Благодаря имеющимся разработанным графикам:

  • ведется срочная публикация информационных вопросов, имеющих актуальность в настоящее время с содержанием основных показателей развития;
  • новостные ленты имеют регулярное пополнение информацией о ведение деятельности, размещение информации о выпусках изданий по статистике;
  • поддержание в действующем состоянии рубрики «Муниципальная статистика».

Для знакомства с документами, имеющих регламентирующий характер достаточно зайти в подраздел «Нормативные документы».

Нормативные документы на официальном сайте Росстата

Для размещения особенно значимой информации касательно деятельности субъектов экономической деятельности используется единый федеральный реестр.

Здесь формируется юридически значимая информация, связанная с деятельностью:

  • юридических и иностранных лиц;
  • физических лиц и индивидуальных предпринимателей;
  • государственных органов;
  • органов местного самоуправления.

Открытость информации предполагает ее представление любому нуждающемуся в ней в свободном доступе всей статистической официальной информации, которая формируется в рамках Федерального плана статработ и официальной статметодолгии.

А также формирование обратной связи с разными категориями граждан (пользователей).

Информационное размещение основных показателей, пресс-релизов, экспресс-информаций, в том числе и отдельных материалов по статистике в области торговли в оперативном режиме на официальных сайтах территориальных органов в условиях информационно-телекоммуникационной сети «Интернет» регулируется приказом Росстата.

Территориальными органами велась работа, направленная на совершенствование представления аналитических данных по вопросам, связанным с внешней торговлей.

Были использованы носители информационных материалов, которые представляются региональными органами таможни.

Основные характеристики показателей по внешнеторговому обороту со странами дальнего и ближнего зарубежья (участники СНГ) включены в сборники, записки и бюллетени.

Можно ознакомиться с динамикой вывоза некоторых видов продукции в Республику Беларусь, а также ввоза некоторых категорий продуктов из Республики Беларусь в регионы России.

Предлагаемый к ознакомлению материал носит сводный характер и в комплексе он готов представить внешнюю торговлю федеральных и региональных округов, с отображением развития международного туризма в субъектах Российской Федерации.

Статистика — что это

Эта отрасль знаний по праву относится к разряду древнейших. Причиной ее возникновения стала потребность общества в количественных данных различного рода, без которых никак нельзя было управлять государством, изучать явления и процессы, происходящие в обществе.

Термин произошел от латинского «статус», переводится как «состояние дел».

В 1746 г. он стал наукой. «Статистикой» немецкий ученый Готфрид Ахенвалль предложил заменить название курса «Государствоведение», который читали студентам в университетах Германии. Именно с этой поры развивается новая учебная дисциплина.

Но намного раньше проходили переписи населения в Древнем Китае, сопоставлялся военный потенциал государств, учитывалось имущество граждан в Риме. Что это, если не статучёт?

Фото: статистика на пальцах в Древнем Египте

Г. Успенский в своей книге «Четверть лошади» отметил просто и довольно верно:

«та «сущая» правда нашей жизни, о которой мы совершенно отвыкли говорить человеческим языком, и нужно только раз получить интерес … к … цифровой крупе, которою усеяны статистические книги и таблицы, так вся эта информация начнет принимать человеческие образы и облекаться в картины ежедневной жизни».

У статистики множество разделов, ведь она охватывает почти все сферы деятельности человека и общества.

Какую информацию можно получить на сайте?

Помимо информативных сведений на странице имеется много ссылок на интересующие данные в области статистики и по показателям, представленных в виде графической или текстовой информации.

Также в этом разделе имеются ссылки на используемую в работе нормативно-справочную документацию, методологию, на различные интерактивные статистические сервисы.

Для получения исчерпывающей информации о работе Росстата, о его деятельности можно зайти в соответствующий раздел «О Росстате».

Здесь отображены главные задачи и цели компании, информационные материалы о проделанной работе, контактная информация, а также получить недостающую информацию в разделе «часто задаваемые вопросы».

Блок «Официальная статистика»

Для аналитиков-маркетологов большой интерес вызывает блок «официальная статистика». В основном он содержит статистическую информацию по показателям макроэкономики.

При нажатии любого раздела осуществляется переход на страницу с официальной статистикой, а при выборе нужного пункта в меню «Содержание» (с правой стороны) выгружается список содержащихся документов и необходимой информации.

Представление данных по статистике может быть отображена в различном виде:

  • в таблице;
  • в базе данных;
  • в кубе;
  • в карте.

Каждый вид доступен к просмотру и к выбору для удобства пользования.

Набор документов и данных в разделе «Официальная статистика»

Блоки:

  • методология – дает пояснения о способах получения данных с методикой их исследования
  • оперативная информация – документы, связанные с работой аналитика. В этом блоке отображается последняя обработанная информация;
  • официальные публикации – здесь собрана информация, подготовленная сотрудниками Росстата отдельно по каждой теме.

Также здесь можно получить информацию об уровне средней заработной платы в нашей стране, уровне ВВП, а также численности населения.

Передвигаясь по ссылкам можно найти информацию о регламентирующих деятельность Росстата документах, об имеющихся итогах.

Также в этом разделе можно ознакомиться с результатами статистических наблюдений и расчетными материалами, подготовленными службой государственной статистики.

Все рубрики официального портала Росстата доступны к регулярному обновлению актуальной информацией и действующими на данный момент цифрами. Для облегчения восприятия такой информации часть цифровых и некоторых других данных представлены в форме таблицы.

Заключение

Data Science — не просто комбинирование модных моделей в Jupyter-ноутбуке. Профессионалы в этой области глубоко понимают природу данных и то, как они могут помочь в принятии конкретных бизнес-решений.

Всё это изучалось в статистике задолго до того, как первый дата-сайентист набрал свой первый import pandas as pd. Статистика — фундамент всей современной науки о данных, включая машинное обучение, глубокие нейросети и даже искусственный интеллект.

В нашем курсе «Профессия Data Scientist» статистике уделено самое пристальное внимание. Вы не ударите в грязь лицом ни на тусовке статистиков, ни на настоящем DS-собеседовании

Приходите!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector