Отже, вас попросили обчислити дисперсію за допомогою Excel, але ви не впевнені, що це означає або як це зробити. Не хвилюйтеся, це проста концепція та ще простіший процес. Ви швидко станете професіоналом у варіації!
Що таке дисперсія?
«Дисперсія» — це спосіб вимірювання середньої відстані від середнього. «Середнє» — це сума всіх значень у наборі даних, поділена на кількість значень. Дисперсія дає нам уявлення про те, чи значення в цьому наборі даних мають тенденцію в середньому рівномірно дотримуватись середнього значення чи розкидані повсюдно.

Математично дисперсія не така складна:
- Обчисліть середнє значення набору значень. Щоб обчислити середнє, візьміть суму всіх значень, поділену на кількість значень.
- Візьміть кожне значення у вашому наборі та відніміть його від середнього.
- Зведіть отримані значення в квадрат (щоб відмінити від’ємні числа).
- Додайте всі квадрати разом.
- Обчисліть середнє значення квадратів, щоб отримати дисперсію.
Отже, як бачите, обчислити це значення не складно. Однак, якщо у вас є сотні чи тисячі значень, це займе вічність, щоб зробити це вручну. Тож це добре, що Excel може автоматизувати процес!
Для чого ви використовуєте дисперсію?
Сама по собі дисперсія має ряд застосувань. З суто статистичної точки зору, це гарний скорочений спосіб вказати, наскільки розкиданий набір даних. Інвестори використовують дисперсію для оцінки ризику даної інвестиції.
Наприклад, взявши вартість акції за певний період часу та обчисливши її дисперсію, ви отримаєте гарне уявлення про її коливання в минулому. Якщо припустити, що минуле передбачає майбутнє, це означатиме, що щось із низькою дисперсією є безпечнішим і передбачуванішим.

Ви також можете порівняти відхилення чогось за різні періоди часу. Це може допомогти виявити, коли інший прихований фактор впливає на щось, змінюючи його дисперсію.
Дисперсія також тісно пов’язана з іншою статистикою, відомою як стандартне відхилення. Пам’ятайте, що значення, які використовуються для обчислення дисперсії, зведені в квадрат. Це означає, що дисперсія не виражається в одній і тій же одиниці початкового значення. Стандартне відхилення вимагає взяття квадратного кореня з дисперсії, щоб повернути значення до вихідної одиниці. Отже, якщо дані були в кілограмах, стандартне відхилення також є.
Вибір між генеральною сукупністю та дисперсією вибірки
У Excel є два підтипи дисперсії з дещо різними формулами. Який з них вибрати, залежить від ваших даних. Якщо ваші дані включають всю «сукупність», то вам слід використовувати дисперсію сукупності. У цьому випадку «населення» означає, що ви маєте кожну цінність для кожного члена цільової групи населення.

Наприклад, якщо ви дивитеся на вагу ліворуких людей, то населення включає всіх людей на Землі, які є лівшами. Якщо ви зважили їх усіх, ви б використали дисперсію с��купності.
Звичайно, у реальному житті ми зазвичай погоджуємося на меншу вибірку з більшої сукупності. У цьому випадку ви б використали дисперсію вибірки. Дисперсія популяції все ще практична для менших популяцій. Наприклад, компанія може мати кілька сотень або кілька тисяч співробітників із даними про кожного працівника. Вони представляють «популяцію» в статистичному сенсі.
Вибір правильної формули дисперсії
У Excel є три формули вибірки дисперсії та три формули дисперсії генеральної сукупності:
- VAR , VAR.S і VARA для дисперсії вибірки.
- VARP , VAR.P і VARPA для дисперсії сукупності.
Ви можете ігнорувати VAR і VARP. Вони застаріли й використовуються лише для сумісності із застарілими електронними таблицями.
Залишається VAR.S і VAR.P, які призначені для обчислення дисперсії набору числових значень, а також VARA і VARPA, які містять текстові рядки.

VARA та VARPA перетворюють будь-який текстовий рядок на числове значення 0, за винятком «TRUE» та «FALSE». Вони перетворюються на 1 і 0 відповідно.
Найбільша відмінність полягає в тому, що VAR.S і VAR.P пропускають будь-які нечислові значення. Це виключає ці випадки із загальної кількості значень, що означає, що середнє значення буде іншим, оскільки ви ділите на меншу кількість випадків, щоб отримати середнє значення.
Як обчислити дисперсію в Excel
Усе, що вам потрібно для обчислення дисперсії в Excel, – це набір значень. У наведеному нижче прикладі ми використовуватимемо VAR.S, але формула та методи абсолютно однакові незалежно від того, яку формулу дисперсії ви використовуєте:
- Припускаючи, що у вас є готовий діапазон або дискретний набір значень, виберіть порожню комірку за вашим вибором.

- У полі формули введіть =VAR.S(XX:YY) , де значення X і Y замінюються першим і останнім номерами клітинок діапазону.

- Натисніть Enter , щоб завершити обчислення.

Крім того, ви можете вказати конкретні значення, у цьому випадку формула виглядає так: =VAR.S(1,2,3,4) . Замінивши числа на те, що вам потрібно для обчислення дисперсії. Таким чином можна ввести до 254 значень вручну, але якщо у вас лише кілька значень, майже завжди краще ввести дані в діапазон клітинок, а потім використати версію формули для діапазону клітинок, описану вище.
Ви можете Excel у, Е, Excel
Обчислення дисперсії – це корисний трюк, який варто знати всім, кому потрібно виконати деяку статистичну роботу в Excel. Але якщо будь-яка термінологія Excel, яку ми використовували в цій статті, викликає збентеження, подумайте про те, щоб ознайомитися з підручником з основ Microsoft Excel – навчитися користуватися Excel .
З іншого боку, якщо ви готові до більшого, ознайомтеся з Додавання лінії тренду лінійної регресії до діаграми розсіювання Excel , щоб ви могли візуалізувати дисперсію або будь-який інший аспект вашого набору даних щодо середнього арифметичного.
Чи можна ігнорувати дисперсію?
Дисперсія є одним із найкорисніших інструментів у теорії ймовірностей і статистиці. Він використовується для вимірювання мінливості набору даних. Однак дисперсію не можна ігнорувати в статистиці, оскільки вона допомагає оцінити мінливість даних і зробити важливі висновки про зв’язок між змінними. Якщо ви проігноруєте дисперсію, ви можете пропустити важливу інформацію про свої дані та отримати оманливі результати. Тому краще не ігнорувати розбіжності у статистиці.