📕📘📗Статистика без слез — интервью Crack Data Science

Прежде всего, я хочу выразить искреннюю признательность Дереку Раунтри за его проницательные взгляды на статистику для нематематиков.

Эта статья представляет собой краткий обзор книги под названием «Статистика без слез», призванный стимулировать аспирантов в изучении концепций статистики.

📌Пожалуйста, не забудьте подписаться на меня Здесь

1. Статистическое исследование

Что такое статистика — метод | Дисциплина | Сборы данных | Расчетные цифры (суммы)
Описательная статистика —обобщение | Описание наблюдений
Выводная статистика —прогнозы | оценки
Отбор образца — Случайный выбор | Механические или слепые методы во избежание предвзятости

2. Описание нашего образца

Статистические переменные — Атрибут | характеристика
Переменная категории —Номинальная переменная | Порядковая переменная- порядковые значения, ранги
Количественная переменная — дискретная переменная-подсчет | Непрерывные переменные меры
Образец — наблюдения | Наблюдаемые значения населения (полные данные)
Ошибка — место участника в неправильной категории | подсчитать элемент дважды | пропустить один
Точность —совершенство собранных наблюдений
Приблизительные значения — записанные значения | наблюдения | истинные ценности | настроены на близкие к истинным значениям

3. Обобщая наши данные

Таблицы частот — создаются с использованием контрольных отметок.
Круговая диаграмма —пропорции данных по категориям | проценты по отношению к населению | Сравните каждую категорию с общим
Распределение — наблюдаемые значения переменной количества по порядку.
Диапазон — разница ч/б максимального и минимального значений распределения.
Median – значение посередине ч/б 2 средних значения распределения
Среднее — среднее | среднее арифметическое
Распределение частоты —частота (количество) каждого значения в распределении.
Мода – значение с наибольшей частотой в распределении.
Гистограмма —частотное распределение | сгруппированное частотное распределение
Центральная тенденция —среднее значение для числовых данных | медиана (с выбросами-экстремальными значениями)| данные категории режима
Дисперсия —изменчивость
Квартили – значения, которые делят наблюдения на 4 равных части | Мин. → Q1 → Q2 (медиана) → Q3 → Макс.
Центили — значения, которые делят наблюдения на 10 равных лотов.
Процентили – значения, которые делят наблюдения на 100 равных лотов.
Межквартильный диапазон — Q3-Q1 | мера рассеивания
Дисперсия — среднее (среднее) квадрата отклонения от центра (среднее арифметическое наблюдений).
Стандартное отклонение (SD) — квадратный корень из дисперсии | Никогда не приближайтесь к диапазону | высокая для рассредоточенных данных
| 1/3 *Диапазон — (10 образцов)
| 1/5 *Диапазон — (100 образцов)

4. Форма распределения

статистические распределения, описываемые — средним | Стандартное отклонение | форма кривой | медиана | межквартильный диапазон
Асимметричное (хвостовое) распределение — Положительное | Отрицательный | наблюдения с длинным хвостом | Среднее тянется в направлении перекоса
Положительный перекос —хвост на +ve | правая сторона | Среднее › Медиана › Мода
Отрицательный перекос — хвост на -ve | левая сторона | Среднее ‹ Медиана ‹ Мода
Нормальное распределение —симметричное распределение |(Среднее, Медиана, Мода) почти в одном и том же месте | кривая колокола | гистограмма

Пропорции данных нормальной кривой —

(-1 SD , +1 SD ) → 68% (34%, 34%)
(-2 SD , +2 SD ) → 95% (34 + 13,5%, 34 + 13,5%)
(-3 SD, +3 SD) → 99,7 % (34 + 13,5 + 2,35 %, 34 + 13,5 + 2,35 %)
За пределами выбросов → 0,3 % (0,15 %, 0,15 %)

Пропорции данных — 0,15 % | 2,35% |13,5% | 34% | 34% | 13,5% | 2,35% | 0,15%

значение z —стандартное значение | (x-mean)/SD |единицы стандартного отклонения | -1СД, -2СД, -3СД, 1СД, 2СД, 3СД

5. От выборки к популяции

Статистика — получена из выборки(ей) | значит | режим | медиана | стандартное отклонение | межквартильный диапазон
Параметр —население(P) | истинное значение | режим |…
Статистический вывод — оценка P-mean из S-mean | Р-диапазон от S-диапазона | P-стандартное отклонение от S-стандартного отклонения и т. д.
Вариация выборки — вариабельность (например, среднее значение, медиана, стандартное отклонение, диапазон) от одной выборки к другой.
Среднее значение генеральной совокупности (P-среднее) — среднее выборочных средних (S-среднее — имеет тенденцию к нормальному распределению).
Стандартное отклонение населения (P-SD) — больше, чем стандартное отклонение выборочного среднего распределения.
Стандартная ошибка (SE) — стандартное отклонение выборочного распределения (SD/sqrt(размер выборки))
Оценка P-mean — S-mean +/- 3SE (вероятность 99,7%) |
S-среднее +/- 2SE (достоверность 95%) |
S-среднее +/- 1SE (достоверность 68 %).
Стандартная ошибка пропорции (пропорция SE) — переменная категории | — SE-пропорция = sqrt((c1*c2)/размер выборки)

Пример:sqrt(0,8*0,2/100), job=0,8(80%), nojob=0,2(20%)
P-среднее значение лжи 0,8 +/- 2,5*0,04 (вероятность 99%) →(70% 90%)

6. Сравнение образцов

Среднее значение генеральной совокупности (P-среднее) — лежит в S-среднем +/- 2,5*SE (достоверность 99 %).
Тест значимости — для сравнения выборок населения (групп) | значительная разница ч/б образцов | обозначают разницу ч/б популяций
Выборочное распределение различий —различия ч/б двух средних значений огромного количества выборок, взятых из одной и той же совокупности.
Стандартная ошибка различий ч/б означает (SE-diff) — стандартное отклонение выборочного распределения различий

Пример:SE = 11,3/ sqrt(50) = 1,6, здесь SD=11,3, n=50
SE-Diff = sqrt(1,6*1,6 + 1,6*1,6)
Нулевая гипотеза (H0) — если значительна / большая разница в выборке, то H0 отклонить.
Значительная разница — означает разницу в средних значениях выборки при уровне 5 % или 1 %
Уровень 5 % является значимым с доверительной вероятностью 95 % (разница › 2*SE-разница)
1 Уровень % очень значим с доверительной вероятностью 99% (разница > 2,5*SE-разница)
Ошибка типа I (False + ve) — отклонить нулевую гипотезу, если она верна.
Ошибка типа II (False -ve) — принять нулевую гипотезу, если она ложна.

* Требование более значительных различий снижает риск совершения ошибок типа I

*Чем больше мы снижаем риск совершения ошибок типа I, тем больше мы увеличиваем вероятность совершения ошибок типа II

Параметрический тест — тест на значимость различий, используемый в выборке, взятой из нормально распределенной совокупности.
Непараметрический тест — тест на значимость различий | используется данными категории для оценки без знания среднего, стандартного отклонения, без знания нормальности

7. Другие важные вопросы

Нулевая гипотеза о средних значениях —отсутствует существенная разница ч/б среднего балла.
Односторонний тест — проверка того, превышает ли среднее значение или нет Пример: среднее значение студентов-наркоманов превышает студентов-плацебо (а не наоборот)
Двухсторонний тест — сравните средние значения двух группПример: средние значения артериального давления у мужчин и женщин.
Критическая область — область, в которой альтернативная гипотеза более приемлема.

Тесты значимости —

z-тест —стандартное отклонение как единица измерения точки, в которой начинается критическая область (2*SD →5% значимости, 2,5*SD →1% значимости)
— точно для большие выборки(размер выборки)
— вероятно, для проверки того, принадлежат ли две выборки одной или разным популяциям.

критерий Стьюдента —стандартные ошибки различий ч/б означает
— подходит для меньшего количества выборок (размер выборки)
— может проверить, взяты ли две выборки из одного и того же или из разных населения

F-критерий (ANOVA) — можно сравнивать несколько образцов одновременно | Дисперсионный анализ
— сделайте аналогичные предположения, такие как z-критерий или t-критерий для 2 групп выборки
— сравните изменчивость значений внутри группы с изменчивостью значений между группами
— Типы дисперсионного анализа — однофакторный, двухфакторный, трехфакторный и т. д.

F-коэффициент — коэффициент дисперсии | Для меньшей выборки больший F-коэффициент должен достигать значимости
— F-коэффициент не менее 3,89, для 5% уровня значимости (95% достоверность)
— F-коэффициент не менее 6,93, для 1% уровень значимости (99% достоверность)

Пример: коэффициент F = (дисперсия ч/б групп) / (внутри первой группы)

= 31,65/4,17 = 7,50, это больше 6,93

Тест хи-квадрат — сравнение пропорций | Используется для атрибутов, которые имеют более 2 категорий
— означает разницу в пропорциях ч/б
— работает на ожидаемой (E) и полученной частотах (O)
— хи-квадрат не менее 3,84 с 5% уровень значимости (95% достоверность)
— хи-квадрат не менее 6,63 при 1% уровне значимости (99% достоверность)

8. Анализ взаимоотношений

Корреляция —сила взаимосвязи ч/б переменных.
Регрессия — характер отношений, используемых для прогнозирования.
Парные значения — значение двух или более разных переменных.
Типы корреляций — положительные, отрицательные и нулевые корреляции.

Коэффициент корреляции (r) — представляет силу корреляции переменных
1. коэффициент корреляции «продукт-момент» (математическое происхождение)— количество на которое каждое значение отличается от среднего своего распределения
— стандартные отклонения двух распределений
— количество пар значений
2. ранговый коэффициент корреляции( используется для переменных двух категорий —Непараметрические
Сила корреляции — варьируется от -1 до +1
-1 (сильно отрицательная) →- 0,5(слабый -ve) →0(не коррелирован) →+0,5(слабый +ve) →+1(сильно положительный)

Стандартная ошибка коэффициента корреляции (SEr) —

SEr= 1-(r²)/sqrt(размер выборки)

Коэффициент корреляции интерпретации —
от 0,0 до 0,2 → очень слабый, незначительный
от 0,2 до 0,4 → слабый, низкий
от 0,4 до 0,7 → умеренный
от 0,7 до 0,9 →сильный, высокий, выраженный
от 0,9 до 1,0 →очень сильный, очень высокий

Линии регрессии — расчет позиции для линий наилучшего соответствия | представлен уравнением регрессии

✨ Спасибо за прочтение…
📚Для коротких и стимулирующих статей подписывайтесь на меня Здесь📌
👌Если вам понравилась статья, поддержите 👏хлопком…

смотрите также:

Новые материалы

API следующего поколения: gRPC n Javascript

gRPC - быстро развивающаяся технология, которая потенциально может заменить протокол HTTP. Это быстрее, чем традиционные HTTP-вызовы, потому что он отправляет данные в двоичном формате, а не в..

Ускоренный курс по жадным алгоритмам

Дай мне, дай мне, дай мне Аудитория Эта статья предназначена для инженеров, достаточно хорошо разбирающихся в программировании, структурах данных и алгоритмах. Он в основном основан на..

Изучайте Java (Урок 2: Комментарии)

Как и зачем использовать комментарии в java с примерами Введение: Комментарии — это строки текста в программе Java, которые игнорируются компилятором и используются для добавления..

Async Await в Swift: легкое управление параллелизмом

Введение в запуск асинхронного кода Асинхронный код выполняет несколько операций одновременно. Параллелизм необходим при выполнении тяжелых вычислений или сетевых запросов. Однако это может..

Очистить файлы Program .cache в Ubuntu 20.10

Очистите кеш за несколько простых шагов! GNU / Linux реализовал эффективное управление хранилищем для своих пользователей. Но заметили ли вы, что в вашей системе Linux заканчивается место,..

Использование Node.js для чтения действительно больших файлов (часть 1)

В этом сообщении в блоге есть интересный источник вдохновения. На прошлой неделе кто-то на одном из моих каналов в Slack опубликовал тестовое задание, которое он получил на должность..

Введение в градиентный спуск и обратное распространение

Введение в градиентный спуск и обратное распространение Как машинное обучение? Машинное обучение ( ML ) - это исследование компьютерных алгоритмов, которые автоматически улучшаются по..

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Coding Web Development Deep Learning AI React Software Engineering Nodejs Typescript Java Front End Development NLP Development Data CSS Algorithms Productivity Computer Science ChatGPT Tech HTML Tutorial Reactjs API Neural Networks Javascript Tips Programming Languages Angular AWS Mathematics Javascript Development Computer Vision Startup