Прежде всего, я хочу выразить искреннюю признательность Дереку Раунтри за его проницательные взгляды на статистику для нематематиков.

Эта статья представляет собой краткий обзор книги под названием «Статистика без слез», призванный стимулировать аспирантов в изучении концепций статистики.

📌Пожалуйста, не забудьте подписаться на меня Здесь

1. Статистическое исследование

  • Что такое статистика — метод | Дисциплина | Сборы данных | Расчетные цифры (суммы)
  • Описательная статистика —обобщение | Описание наблюдений
  • Выводная статистика —прогнозы | оценки
  • Отбор образца — Случайный выбор | Механические или слепые методы во избежание предвзятости

2. Описание нашего образца

  • Статистические переменные — Атрибут | характеристика
  • Переменная категории —Номинальная переменная | Порядковая переменная- порядковые значения, ранги
  • Количественная переменная — дискретная переменная-подсчет | Непрерывные переменные меры
  • Образец — наблюдения | Наблюдаемые значения населения (полные данные)
  • Ошибка — место участника в неправильной категории | подсчитать элемент дважды | пропустить один
  • Точность —совершенство собранных наблюдений
  • Приблизительные значения — записанные значения | наблюдения | истинные ценности | настроены на близкие к истинным значениям

3. Обобщая наши данные

  • Таблицы частот — создаются с использованием контрольных отметок.
  • Круговая диаграмма —пропорции данных по категориям | проценты по отношению к населению | Сравните каждую категорию с общим
  • Распределение — наблюдаемые значения переменной количества по порядку.
  • Диапазон — разница ч/б максимального и минимального значений распределения.
  • Median – значение посередине ч/б 2 средних значения распределения
  • Среднее — среднее | среднее арифметическое
  • Распределение частоты —частота (количество) каждого значения в распределении.
  • Мода – значение с наибольшей частотой в распределении.
  • Гистограмма —частотное распределение | сгруппированное частотное распределение
  • Центральная тенденция —среднее значение для числовых данных | медиана (с выбросами-экстремальными значениями)| данные категории режима
  • Дисперсия —изменчивость
  • Квартили – значения, которые делят наблюдения на 4 равных части | Мин. → Q1 → Q2 (медиана) → Q3 → Макс.
  • Центили — значения, которые делят наблюдения на 10 равных лотов.
  • Процентили – значения, которые делят наблюдения на 100 равных лотов.
  • Межквартильный диапазон — Q3-Q1 | мера рассеивания
  • Дисперсия — среднее (среднее) квадрата отклонения от центра (среднее арифметическое наблюдений).
  • Стандартное отклонение (SD) — квадратный корень из дисперсии | Никогда не приближайтесь к диапазону | высокая для рассредоточенных данных
    | 1/3 *Диапазон — (10 образцов)
    | 1/5 *Диапазон — (100 образцов)

4. Форма распределения

  • статистические распределения, описываемые — средним | Стандартное отклонение | форма кривой | медиана | межквартильный диапазон
  • Асимметричное (хвостовое) распределение — Положительное | Отрицательный | наблюдения с длинным хвостом | Среднее тянется в направлении перекоса
  • Положительный перекос —хвост на +ve | правая сторона | Среднее › Медиана › Мода
  • Отрицательный перекос — хвост на -ve | левая сторона | Среднее ‹ Медиана ‹ Мода
  • Нормальное распределение —симметричное распределение |(Среднее, Медиана, Мода) почти в одном и том же месте | кривая колокола | гистограмма

Пропорции данных нормальной кривой —

(-1 SD , ​​+1 SD ) → 68% (34%, 34%)
(-2 SD , ​​+2 SD ) → 95% (34 + 13,5%, 34 + 13,5%)
(-3 SD, +3 SD) → 99,7 % (34 + 13,5 + 2,35 %, 34 + 13,5 + 2,35 %)
За пределами выбросов → 0,3 % (0,15 %, 0,15 %)

Пропорции данных — 0,15 % | 2,35% |13,5% | 34% | 34% | 13,5% | 2,35% | 0,15%

  • значение z —стандартное значение | (x-mean)/SD |единицы стандартного отклонения | -1СД, -2СД, -3СД, 1СД, 2СД, 3СД

5. От выборки к популяции

  • Статистика — получена из выборки(ей) | значит | режим | медиана | стандартное отклонение | межквартильный диапазон
  • Параметр —население(P) | истинное значение | режим |…
  • Статистический вывод — оценка P-mean из S-mean | Р-диапазон от S-диапазона | P-стандартное отклонение от S-стандартного отклонения и т. д.
  • Вариация выборки — вариабельность (например, среднее значение, медиана, стандартное отклонение, диапазон) от одной выборки к другой.
  • Среднее значение генеральной совокупности (P-среднее) — среднее выборочных средних (S-среднее — имеет тенденцию к нормальному распределению).
  • Стандартное отклонение населения (P-SD) — больше, чем стандартное отклонение выборочного среднего распределения.
  • Стандартная ошибка (SE) — стандартное отклонение выборочного распределения (SD/sqrt(размер выборки))
  • Оценка P-mean — S-mean +/- 3SE (вероятность 99,7%) |
    S-среднее +/- 2SE (достоверность 95%) |
    S-среднее +/- 1SE (достоверность 68 %).
  • Стандартная ошибка пропорции (пропорция SE) — переменная категории | — SE-пропорция = sqrt((c1*c2)/размер выборки)

    Пример:sqrt(0,8*0,2/100), job=0,8(80%), nojob=0,2(20%)
    P-среднее значение лжи 0,8 +/- 2,5*0,04 (вероятность 99%) →(70% 90%)

6. Сравнение образцов

  • Среднее значение генеральной совокупности (P-среднее) — лежит в S-среднем +/- 2,5*SE (достоверность 99 %).
  • Тест значимости — для сравнения выборок населения (групп) | значительная разница ч/б образцов | обозначают разницу ч/б популяций
  • Выборочное распределение различий —различия ч/б двух средних значений огромного количества выборок, взятых из одной и той же совокупности.
  • Стандартная ошибка различий ч/б означает (SE-diff) — стандартное отклонение выборочного распределения различий

    Пример:SE = 11,3/ sqrt(50) = 1,6, здесь SD=11,3, n=50
    SE-Diff = sqrt(1,6*1,6 + 1,6*1,6)
  • Нулевая гипотеза (H0) — если значительна / большая разница в выборке, то H0 отклонить.
  • Значительная разница — означает разницу в средних значениях выборки при уровне 5 % или 1 %
    Уровень 5 % является значимым с доверительной вероятностью 95 % (разница › 2*SE-разница)
    1 Уровень % очень значим с доверительной вероятностью 99% (разница > 2,5*SE-разница)
  • Ошибка типа I (False + ve) — отклонить нулевую гипотезу, если она верна.
  • Ошибка типа II (False -ve) — принять нулевую гипотезу, если она ложна.

* Требование более значительных различий снижает риск совершения ошибок типа I

*Чем больше мы снижаем риск совершения ошибок типа I, тем больше мы увеличиваем вероятность совершения ошибок типа II

  • Параметрический тест — тест на значимость различий, используемый в выборке, взятой из нормально распределенной совокупности.
  • Непараметрический тест — тест на значимость различий | используется данными категории для оценки без знания среднего, стандартного отклонения, без знания нормальности

7. Другие важные вопросы

  • Нулевая гипотеза о средних значениях —отсутствует существенная разница ч/б среднего балла.
  • Односторонний тест — проверка того, превышает ли среднее значение или нет Пример: среднее значение студентов-наркоманов превышает студентов-плацебо (а не наоборот)
  • Двухсторонний тест — сравните средние значения двух группПример: средние значения артериального давления у мужчин и женщин.
  • Критическая область — область, в которой альтернативная гипотеза более приемлема.

Тесты значимости —

z-тест —стандартное отклонение как единица измерения точки, в которой начинается критическая область (2*SD →5% значимости, 2,5*SD →1% значимости)
— точно для большие выборки(размер выборки)
 — вероятно, для проверки того, принадлежат ли две выборки одной или разным популяциям.

критерий Стьюдента —стандартные ошибки различий ч/б означает
— подходит для меньшего количества выборок (размер выборки)
— может проверить, взяты ли две выборки из одного и того же или из разных населения

F-критерий (ANOVA) — можно сравнивать несколько образцов одновременно | Дисперсионный анализ
— сделайте аналогичные предположения, такие как z-критерий или t-критерий для 2 групп выборки
— сравните изменчивость значений внутри группы с изменчивостью значений между группами
— Типы дисперсионного анализа — однофакторный, двухфакторный, трехфакторный и т. д.

F-коэффициент — коэффициент дисперсии | Для меньшей выборки больший F-коэффициент должен достигать значимости
— F-коэффициент не менее 3,89, для 5% уровня значимости (95% достоверность)
— F-коэффициент не менее 6,93, для 1% уровень значимости (99% достоверность)

Пример: коэффициент F = (дисперсия ч/б групп) / (внутри первой группы)

= 31,65/4,17 = 7,50, это больше 6,93

Тест хи-квадрат — сравнение пропорций | Используется для атрибутов, которые имеют более 2 категорий
— означает разницу в пропорциях ч/б
— работает на ожидаемой (E) и полученной частотах (O)
— хи-квадрат не менее 3,84 с 5% уровень значимости (95% достоверность)
— хи-квадрат не менее 6,63 при 1% уровне значимости (99% достоверность)

8. Анализ взаимоотношений

  • Корреляция —сила взаимосвязи ч/б переменных.
  • Регрессия — характер отношений, используемых для прогнозирования.
  • Парные значения — значение двух или более разных переменных.
  • Типы корреляций — положительные, отрицательные и нулевые корреляции.

Коэффициент корреляции (r) — представляет силу корреляции переменных
1. коэффициент корреляции «продукт-момент» (математическое происхождение)— количество на которое каждое значение отличается от среднего своего распределения
— стандартные отклонения двух распределений
— количество пар значений
2. ранговый коэффициент корреляции( используется для переменных двух категорий —Непараметрические
Сила корреляции — варьируется от -1 до +1
-1 (сильно отрицательная) →- 0,5(слабый -ve) →0(не коррелирован) →+0,5(слабый +ve) →+1(сильно положительный)

  • Стандартная ошибка коэффициента корреляции (SEr)

SEr= 1-(r²)/sqrt(размер выборки)

Коэффициент корреляции интерпретации —
от 0,0 до 0,2 → очень слабый, незначительный
от 0,2 до 0,4 → слабый, низкий
от 0,4 до 0,7 → умеренный
от 0,7 до 0,9 →сильный, высокий, выраженный
от 0,9 до 1,0 →очень сильный, очень высокий

  • Линии регрессии — расчет позиции для линий наилучшего соответствия | представлен уравнением регрессии

✨ Спасибо за прочтение…
📚Для коротких и стимулирующих статей подписывайтесь на меня Здесь📌
👌Если вам понравилась статья, поддержите 👏хлопком…