Кореляція

Що таке співвідношення:

Кореляція означає подібність або взаємозв'язок між двома речами, людьми або ідеями . Це подібність або еквівалентність, що існує між двома різними гіпотезами, ситуаціями або об'єктами.

У галузі статистики та математики кореляція відноситься до міри між двома або більше спорідненими змінними.

Термін кореляція - іменник жіночого роду, що походить від латинської кореляції.

Слово кореляція може бути замінена синонімами, такими як: відношення, рівняння, зв'язок, кореспонденція, аналогія і зв'язок.

Коефіцієнт кореляції

У статистиці коефіцієнт кореляції Пірсона (r), який також називається коефіцієнтом кореляції продукту-моменту, вимірює відношення між двома змінними в межах однієї метричної шкали.

Функція коефіцієнта кореляції полягає у визначенні інтенсивності відносини, що існує між відомими наборами даних або інформації.

Значення коефіцієнта кореляції може змінюватися в межах від -1 до 1, а отриманий результат визначає, чи є кореляція негативною або позитивною.

Для інтерпретації коефіцієнта необхідно знати, що 1 означає, що кореляція між змінними є досконалою позитивною і -1 означає, що вона є досконалою негативною . Якщо коефіцієнт дорівнює 0, це означає, що змінні не залежать один від одного.

У статистиці є також коефіцієнт кореляції Спірмена, який носить цю назву на честь статистика Чарльза Спірмена. Функція цього коефіцієнта полягає у вимірюванні інтенсивності взаємозв'язку між двома змінними, незалежно від того, чи є вони лінійними чи ні.

Кореляція Спірмена служить для того, щоб оцінити, чи можна виміряти інтенсивність взаємозв'язку між двома аналізованими змінними монотонною функцією (математична функція, яка зберігає або інвертує початкове відношення порядку).

Розрахунок коефіцієнта кореляції Пірсона

Метод 1) Розрахунок коефіцієнта кореляції Пірсона з використанням коваріації та стандартного відхилення.

Де

S XY - коваріація;

S x і S y представляють стандартне відхилення, відповідно, змінних x і y.

У цьому випадку розрахунок передбачає спочатку знаходження коваріації між змінними і стандартне відхилення кожного з них. Тоді коваріація ділиться на множення стандартних відхилень.

Часто в твердженні вже міститься або стандартне відхилення змінних, або коваріація між ними, просто застосовуючи формулу.

Метод 2) Розрахунок коефіцієнта кореляції Пірсона з вихідними даними (без коваріації або стандартного відхилення).

При такому методі найбільш пряма формула така:

Наприклад, припускаючи, що ми маємо дані з n = 6 спостереженнями за двома змінними: рівень глюкози (y) і вік (x), розрахунок виконується наступними кроками:

Крок 1) Створіть таблицю з існуючими даними: i, x, y і додайте порожні стовпці для xy, x² і y²:

Крок 2: Помножте x і y, щоб заповнити стовпець "xy". Наприклад, у рядку 1 ми будемо мати: x1y1 = 43 × 99 = 4257.

Крок 3: Підніміть значення стовпця x та запишіть результати у стовпці x². Наприклад, у першому рядку будемо x 1 2 = 43 × 43 = 1849.

Крок 4: Зробіть те ж саме, що і на кроці 3, тепер використовуючи стовпець y і запишіть квадрат у вашому стовпці y². Наприклад, у першому рядку будемо мати: y 1 2 = 99 × 99 = 9801.

Крок 5: Отримайте суму всіх номерів стовпців і помістіть результат у колонтитул колонки. Наприклад, сума стовпця Age X дорівнює 43 + 21 + 25 + 42 + 57 + 59 = 247.

Крок 6: Для отримання коефіцієнта кореляції використовуйте наведену вище формулу:

Таким чином, ми маємо:

Коефіцієнт кореляції Спірмена

Розрахунок коефіцієнта кореляції Спірмена дещо інший. Для цього нам необхідно організувати наші дані в наступній таблиці:

1. Визначивши 2 пари даних, ми повинні ввести їх у таблицю. Наприклад:

2. У стовпці "Рейтинг А" ми класифікуємо спостереження, які знаходяться в "Дата А", зростаючим чином, при цьому "1" є найнижчим значенням у стовпці, en (загальна кількість спостережень), найбільше значення у стовпці "Дата А" ". У нашому прикладі це:

3. Ми робимо те ж саме, щоб отримати колонку "Рейтинг B", тепер використовуючи спостереження в колонці "Data B":

4. У колонці "d" розміщуємо різницю між двома рейтингами (A - B). Тут сигнал не має значення.

5. Підніміть кожне значення в стовпці "d" і запишіть у стовпці d²:

6. Додайте всі дані з стовпця "d²". Це значення Σd². У нашому прикладі Σd² = 0 + 1 + 0 + 1 = 2

7. Тепер використовуємо формулу Спірмена:

У нашому випадку n дорівнює 4, оскільки ми розглядаємо кількість рядків даних (що відповідає кількості спостережень).

8. Нарешті, замінюємо дані в попередній формулі:

Лінійна регресія

Лінійна регресія є формулою, що використовується для оцінки можливого значення змінної (y), коли відомі інші значення (x). Значення "x" є незалежною або пояснювальною змінною, а "y" є залежною змінною або відповіддю.

Лінійна регресія використовується для перевірки того, як значення "y" може змінюватися як функція змінної "x". Рядок, що містить значення перевірки відхилення, називається лінією лінійної регресії.

Якщо пояснювальна змінна "x" має єдине значення, регресію будемо називати простою лінійною регресією .