Как определить оптимальный размер выборки массового опроса

Как определить оптимальный размер выборки массового опроса

У каждой профессии есть свой набор любимых вопросов. Для исследователей рынка на первом месте в этом списке, конечно же, стоит вопрос о размере выборки. Обычно она формулируется следующим образом:

    Мы хотели бы заказать опрос посетителей торговых центров в Москве. Какой образец нам нужен?

Наша целевая аудитория составляет около 300 000 человек. Сколько людей нужно опросить, чтобы быть репрезентативными? А если целевая аудитория составляет 3 миллиона человек?

  • Нам необходимо оценить потенциал продаж квартир в Санкт-Петербурге для жителей северных городов России. Какой образец мы должны использовать?
  • Размер выборки действительно важен, поскольку от него зависит стоимость будущего исследования, не говоря уже о качестве конечных результатов и выводов. В этой статье мы расскажем вам, как рассчитать оптимальный размер выборки для массового опроса. Наш материал будет полезен всем, кто так или иначе сталкивается с необходимостью проводить маркетинговые исследования самостоятельно или заказывать их у специализированного агентства.

    Основное заблуждение относительно размера выборки

    Многие считают, что чем больше размер целевой группы, тем больше должен быть размер выборки. Говорят, что для выяснения мнения жителя небольшого города достаточно 200-300 человек, а для подсчета общего числа респондентов в России не хватает и 5000.

    Между тем, этот стереотип не имеет ничего общего с реальностью. Размер выборки не зависит от размера целевой группы (на языке статистики называемой «генеральной совокупностью») и определяется двумя совершенно разными факторами. Единственным исключением из этого правила является случай, когда генеральная совокупность очень мала, например, 1-2 000 человек, но такие ситуации редки в реальной практике маркетинговых исследований.

    Два фактора, влияющие на размер выборки

    Размер выборки при массовом опросе зависит от двух факторов:

      Точность исходных данных — это «статистическая погрешность». Это будет в пределах плюс-минус 10% для выборки из 100 респондентов и в пределах плюс-минус 3,1% для выборки из 1 000 респондентов. Подробнее об этом ниже.
  • Количество и размер подгрупп, на которые следует разделить выборку при анализе. Например, если проводится предвыборный опрос, нас будет интересовать в основном ядро активных избирателей. Как правило, доля «ядра» редко превышает 20-25% от общей численности населения. Поэтому объем выборки должен быть рассчитан таким образом, чтобы четверть ее общего объема позволяла провести значимый статистический анализ.
  • Вопреки распространенному мнению, качество выборки определяется не ее размером, а ее репрезентативностью. Репрезентативность — это соответствие выборки генеральной совокупности по ключевым параметрам. Чаще всего в качестве таких «ориентиров» выступают легко измеряемые социально-демографические показатели, такие как пол, возраст, образование, род занятий и место жительства.

    pic1.png

    Два типа ошибки выборки

    Любое наблюдение, основанное на выборке (т.е. такое, в котором мы не опрашиваем всех, а выбираем случайным образом из генеральной совокупности), подвержено смещению данных. Это смещение обычно называют «ошибкой выборки». Он может быть двух типов:

      Систематические — связанные с ошибками дизайна выборки. Его величину, направление и степень смещения очень трудно оценить, а чаще всего невозможно. Например, если вопросы задаются респондентам из маргинальных социальных классов, это повлияет на желание представителей более обеспеченных групп принять участие в опросе. Это приведет к предвзятости и искажению данных, оценить которые крайне сложно.

    Случайность связана с законами статистики. Его величину можно легко рассчитать, используя формулы математической статистики и теории вероятности. Они позволяют сделать обоснованные выводы о доверительном интервале показателя. Например, если статистическая погрешность составляет плюс-минус 10%, а результирующее значение показателя оказывается равным 25%, доверительный интервал составляет от 15% до 35%.

    Как и зачем оценивать размер выборки для A/B теста?

    pic2.png

    Задача исследователя — собрать данные таким образом, чтобы свести к минимуму систематическую ошибку выборки. Только тогда можно будет свести статистическую погрешность к случайной, которую можно рассчитать по формулам.

    Как рассчитать величину ошибки случайной выборки

    Ошибка случайной выборки зависит не только от размера выборки, но и от дисперсии, т.е. степени однородности данных. Чем более однородны данные (т.е. чем меньше разброс полученных значений, т.е. дисперсия), тем меньше ошибка выборки.

    Планирование исследования часть 2 — Расчет размера выборки / Простая статистика

    Существует формула для расчета ошибки случайной выборки, но для удобства мы рекомендуем использовать онлайн-калькулятор, например, этот. Он позволяет легко выполнять два типа вычислений:

      Рассчитайте размер статистической ошибки на основе объема выборки и предполагаемой дисперсии;

  • Определите размер выборки, необходимый для получения оценки с желаемой степенью точности.
  • Вот как выглядит его рабочее окно:

    pic3.png

    Значение 95% обычно используется в качестве доверительного параметра (одно из полей в калькуляторе). Это означает, что в 95% случаев распределение признака в генеральной совокупности будет находиться в пределах рассчитанного доверительного интервала (т.е. значение признака в выборке плюс-минус величина статистической ошибки). Реже используется значение надежности 97% или 99% — это означает, что такое попадание произойдет в 97% или 99% случаев соответственно. В этом случае надежность выборки повышается, но увеличивается размер выборки.

    Наиболее сложной частью определения размера выборки является поиск компромисса между требуемой точностью и стоимостью сбора данных. Процесс осложняется тем, что четырехкратное увеличение объема выборки приводит лишь к двукратному увеличению точности (эквивалентному квадратному корню из темпа роста выборки).

    Кейс: Определение объема выборки для оценки потенциала продаж столичного рынка недвижимости для региональных покупателей

    В ноябре-декабре 2016 года мы провели исследование спроса на квартиры в новостройках Москвы и Санкт-Петербурга со стороны жителей разных городов России. Исследование включало три метода сбора данных: массовый репрезентативный опрос населения в возрасте 20-60 лет (проведенный по методике CATI), а также серию экспертных интервью с агентами по недвижимости и глубинные интервью с потенциальными покупателями квартир.

    Исследование охватило 33 города, характеризующихся высоким спросом на недвижимость в Санкт-Петербурге и Москве. Плановая выборка опроса, рассчитанная на основе формул, составила 21 500 респондентов. Этот размер значительно больше, чем «стандартный» размер выборки, используемый в маркетинговых исследованиях. В чем причина такой большой выборки?

    Причина в том, что клиент хотел получить оценки для каждого отдельного города, а не только «для всей страны». Фактически, мы работаем не с 1 выборкой, а с 33 отдельными выборками для каждого города. Процент людей, заинтересованных в покупке квартиры в Санкт-Петербурге или Москве, был экспертно установлен на уровне 5% от населения опрошенных городов.

    В зависимости от важности города для клиента, руководитель проекта Агентства определял статистическую погрешность, в пределах которой должны находиться окончательные результаты. Для этого мы использовали специальный макрос в MS Excel, но эти расчеты можно выполнить и с помощью калькулятора выборки. В результате размер выборки варьировался от 500 до 1000 респондентов для каждого из опрошенных городов, что в общей сложности составило 21 500 человек.

    Резюме

    Для расчета выборки опроса в маркетинговых исследованиях используйте следующий алгоритм:

      Определите структуру целевой группы. Планируете ли вы анализировать отдельные подгруппы или достаточно проанализировать выборку в целом?

    Определите желаемую точность данных. Например, если вы хотите оценить динамику доли рынка в течение года, используйте специальный калькулятор, который выдаст вам приблизительное значение доли, и «поиграйте» с различными размерами выборки.

  • Найдите баланс между стоимостью сбора данных (прямо пропорциональной размеру выборки) и желаемой точностью.
  • Рейтинг
    ( Пока оценок нет )
    Понравилась статья? Поделиться с друзьями: