Главная страница 1страница 2

А = ( + (


 - щире значення величини, що спостерігається

 - випадкова складова, обумовленою дією неврахованих факторів.

Вивченням випадкових величин, одержуваних у результаті спостережень, займається наука математична статистика.

Співвідношення між  і  може служити мірою інформації про систему, у якій виробляється спостереження: чим більше  у порівнянні з , тим вище невизначеність системи (тим більше неврахованих невідомих факторів впливає на величину, що спостерігається,).

Виходячи з цього, конкретне значення величини, що спостерігається, в окремому спостереженні непередбачено. Однак, якщо проводити багаторазові рівнобіжні спостереження в тих самих умовах, можна одержати стійкі (тобто, що мало залежать від кількості спостережень) характеристики випадкової величини:


  • математичне чекання:



  • дисперсію

n – кількість спостережень.

Набір з n значень випадкової величини називається вибіркою.

У математичній статистиці доводиться, що величина математичного чекання (середнє арифметичне) служить оцінкою для щирого значення випадкової величини, що спостерігається. При n ця величина збігається з щирою величиною.

Дисперсія є мірою розкиду значень випадкової величини щодо середнього значення (математичного чекання). У статистичних розрахунках використовують не тільки дисперсію Dn, що називається невиправленою дисперсією, але, також, виправлену дисперсію Dn-1:

Виправлена дисперсія точніше передає розбору щодо середнього в малих вибірках

Поряд з дисперсією, як міру відхилення від середнього, використовують среднеквадратическое відхилення(виправлене чи невиправлене):

Зручність середньоквадратичного відхилення – у тім, що для розмірних випадкових величин воно виміряється в тих же одиницях, що сама випадкова величина, у той час, як дисперсія – у відповідних квадратних одиницях



      1. Перевірка статистичних гіпотез. Довірчі інтервали.

Загальне правило роботи з випадковими величинами: усі судження про випадкові величини носять вероятностный характер, тобто, супроводжуються часткою ризику. Ця частка ризику, називана довірчою імовірністю, задається заздалегідь і характеризує імовірність того, що висловлене Вами судження щодо випадкової величини є помилковим.

Звичайно в статистичних розрахунках застосовують рівень значимості (=0,05. Тобто, у середньому, помилку можна допустити в одному випадку з 20

Судження, висловлювані про випадкові величини (їхніх значеннях у порівнянні з іншими чи величинами законах їхні розподіли) називаються статистичними гіпотезами, а встановлення їх выполнимости з заданою часткою ризику зветься перевірки статистичних гіпотез.

Особливістю статистичних гіпотез є те, що судженню, що перевіряється, (нульовій гіпотезі) обов'язково протиставляється альтернативне судження. Наприклад, якщо ми перевіряємо нульову гіпотезу «Випадкове число А=5», те цьому судженню може бути 3 альтернативи:



  1. А>5

  2. A<5

  3. А не дорівнює 5

У залежності, від того, яка з цих альтернатив обрана, при заданому рівні значимості можна одержати різні результати про виконання нульової гіпотези.

Перевірка статистичних гіпотез полягає в побудові з випадкової величини, що перевіряється, деякої іншої випадкової величини, для якої відомий закон розподілу імовірностей. Виходячи з відомого закону розподілу, можна визначити, з якою імовірністю з'явилася б розрахована величина, якби була вірна перевіря не, а альтернативна гіпотеза. При цьому значення, що перевіряється, з'явилося б чисто випадково. Знайдена в такий спосіб імовірність називається критичної. Якщо критична імовірність менше довірчої – ми приймаємо нульову (тобто, що перевіряється гіпотезу). У противному випадку гіпотеза, що перевіряється, відкидається. Другий варіант перевірки – по заданій довірчій імовірності розрахувати критичне значення самої випадкової величини, якби була вірна альтернативна гіпотеза. Якщо розрахункове значення величини менше критичного – приймається основна гіпотеза, у противному випадку – альтернативна. Приклади розрахунків – у розділах

«Установлення значимості коефіцієнта кореляції»

«Установлення значимості рівняння регресії»

«Установлення значимості коефіцієнтів регресії»

Для перевірки статистичних гіпотез застосовують обоє описаних способу, причому, другий – частіше.

Знайшовши критичне значення випадкової величини, можна побудувати довірчий інтервал – інтервал, усередині якого знаходиться щире значення випадкової величини з імовірністю 1-. Приклад розрахунку – у розділі «Расчет характеристик выборки в среде Excel»

5.4.3. Розрахунок характеристик вибірки в середовищі Excel»

Задача:

По заданій вибірці визначити математичне чекання (середнє арифметичне), виправлені дисперсію і среднеквадратическое відхилення. Побудувати доверительный интервал довірчийарифметичного з надійністю 1-=0,95

Вихідна вибірка

N

1

2

3

4

5

6

7

8

9

X

2,89

1,00

1,80

1,59

0,11

3,00

2,49

1,40

0,99

Задачу розрахунку середнього і дисперсії можна вирішити двома методами: «вручную» і с использованием статистических функций.


  1. Рішення вручну

А. Спочатку будується таблиця значень Х

Б. У нижньому осередку виробляється підсумовування (натискання клавіш Alt - +)

М. Розраховується середнє розподілом суми на число елементів вибірки

Д. Пристроюємо до таблиці графи «Різниці» і «квадрати разностей»

Е. У перших клітках нових граф створюємо формули осередку для розрахунку разностей Х-Хср і їхніх квадратів. У формулі осередку закріплюємо значення Хср за допомогою знака $.

Ж. Виділяємо отримані значення і протягаємо їх по всій таблиці

З. Розраховуємо суму квадратів відхилень і дисперсію. Витягаючи корінь – розраховуємо середньоквадратичне відхилення.

Приклад розрахунку розглянутий у таблиці 3.1

2. Розрахунок за допомогою статистичних функцій.
Розрахунок середнього.


  • виділяємо осередок, у якій буде результат

  • натискаємо кнопку f(x) на панелі інструментів

  • вибираємо в меню Статистичні функції

  • вибираємо серед статистичних функцій СРЗНАЧА

  • відповідно до вказівок – виділяємо діапазон Х, натискаємо ОК, одержуємо в осередку результат-

Аналогічно проводяться розрахунки виправленої дисперсії (функція ДИСПА) і середньоквадратичного відхилення (функція СТАНДОТКЛОНА). Результати приведені в таблиці 3.1.
Побудова довірчого інтервалу
Довірчий інтервал будується симетрично щодо середнього арифметичних . У математичній статистиці показано, що симетричний довірчий інтервал, у якому з імовірністю 1- знаходиться - щире значення випадкової величини xi (середнє генеральної сукупності) для вибірок невеликого обсягу n (n<50) визначається нерівністю

 - виправлене среднеквадратическое відхилення

tq – критичне значення розподілу Стьюдента (критерію Стьюдента) для заданого рівня значимості  і числі ступенів волі k=n-1.

Таблиця 3.1.

Число ступенів волі випадкової величини визначається, як число значень цієї величини мінус число параметрів, обумовлених з цієї величини. З вибірки визначається один параметр – середнє арифметичне, тому, з числа крапок віднімається 1

Для практичних розрахунків у середовищі Excel критичне значення розподіл Стьюдента можна знайти в розділі «Статистичні функції» (СТЬЮДРАСПОБР). Ввівши в роботу цю функцію, Ви повинні задати рівень значимості (імовірність () і число ступенів волі, що на 1 менше числа крапок. Приклад розрахунку – у таблиці 3.1.
5.4 Зв'язані вибірки. Коефіцієнт кореляції
Часто виникає ситуація, коли потрібно перевірити, як впливає деяка величина Х на випадкову величину Y (наприклад, як впливає концентрація реагенту на швидкість реакції). Для цього проводять спостереження величини Y при різних значеннях Х. Відзначимо, що величина Х не є випадкової, вона може бути змінена і зафіксована за бажанням спостерігача. Ця величина називається фактором. Величина Y є випадковою величиною і називається відгуком.

Ми можемо розглядати Х и Y як зв'язані вибірки. Їхні значення задаються парами {xi,yi}, звичайно, у виді таблиць. Кожну з вибірок значень Х и Y можна обробити порізно, розраховуючи для них середнє арифметичне і среднеквадратическое (невиправлене) відхилення:




Для оцінки сили взаємодії між Y і Х розраховується коефіцієнт кореляції rXY (його ще називають коефіцієнтом парної кореляції)



Коефіцієнт парної кореляції характеризує силу залежності між Y і Х

Властивості коефіцієнта кореляції


  1. Коефіцієнт кореляції може змінюватися в інтервалі від –1 до 1

  2. Якщо коефіцієнт кореляції дорівнює 1 чи –1 – це свідчить, що всі крапки залежності Y(X) ідеально лежать на прямої (рис 20А, Б)

  3. Якщо коефіцієнт кореляції дорівнює нулю – на графіку залежності Y від Х усі крапки лежать хаотично, між відгуком і фактором немає ніякого зв'язку (Рис. 20 В)

  4. У проміжному випадку крапки групуються навколо деякої прямої(Рис. 20М). Тобто, між фактором і відгуком є деякий зв'язок, ускладнена дією випадкових причин.

Позитивна величина коефіцієнта кореляції свідчить, що зі збільшенням значення фактора значення відгуку, у середньому, зростає. Зростання в середньому говорить про тенденцію у всій сукупності крапок. При цьому, для окремих крапок можливе порушення тенденції















  1. Негативна величина коефіцієнта кореляції свідчить, що значення відгуку, у середньому, убуває зі зростанням значення фактора

Таким чином, величина коефіцієнта кореляції свідчить про характер і силу впливу X на Y і про силу лінійної залежності між ними

Поряд з коефіцієнтом кореляції для характеристики зв'язку між вибірками використовують коефіцієнт детермінації, що представляє собою квадрат коефіцієнта кореляції.

R2=(rXY)2

Коефіцієнт детермінації вказує, яку частку в загальну суму квадратів відхилень щодо середнього вносить сума квадратів, обумовлена лінійною залежністю між Y і Х.


Перевірка значимості коефіцієнта кореляції

Оскільки коефіцієнт кореляції обчислюється, виходячи з випадкових значень відгуку, він сам є величиною випадкової.

При розрахунках коефіцієнта кореляції, особливо, якщо його значення невелике по абсолютній величині, виникає питання, наскільки значиме цей коефіцієнт, тобто, наскільки істотно він відрізняється від нуля. Іншими словами потрібно визначити, який ризик того, що, при відсутності залежності між X і Y, випадково відібрана сукупність обмеженого числа крапок групується в тім чи іншому ступені уздовж деякої прямої.

Для встановлення значимості коефіцієнта кореляції перевіряють статистичну гіпотезу r=0 при конкуруючій (альтернативної) гіпотезі r0.



  1. Обчислюють випадкову величину:

У статистику доводиться, що ця випадкова величина має розподіл Стьюдента



  1. Знаходять з розподілу Стьюдента критичне значення tq(, n-2) по заданому рівні значимості і числу крапок.

  2. Якщо t< tq – коефіцієнт кореляції незначимий відрізняється від нуля (відмінності від 0 з імовірністю 1- можуть бути приписані дії випадкових причин). У противному випадку коефіцієнт кореляції значимо.

По техніці виконання перевірка – така ж, як описана в розділі 3. Расчет характеристик выборки в среде Excel
6. Розрахунок коефіцієнтів кореляції в середовищі Excel

Розрахунок можна робити вручну, шляхом побудови таблиць і розрахунків середніх і среднеквадратических відхилень. Для зручності роботи до складу статистичних функцій Excel внесена функція КОРРЕЛ, що розраховує коефіцієнт кореляції.

Для розрахунку коефіцієнта кореляції з використанням цієї функції необхідно:


  1. Побудувати таблиці значень Х и Y

  2. Виділити осередок, у якій буде поміщений коефіцієнт кореляції.

  3. На панелі інструментів натиснути кнопку f(x)

  4. Викликати з меню статистичні функції

  5. З меню статистичних функцій вибрати КОРРЕЛ

  6. У меню функції КОРРЕЛ – натиснути на кольорову кнопку біля віконця з написом «Масив 1»

  7. За допомогою миші виділити в таблиці дані значення Х

  8. Натиснути на кольорову кнопку віконця, знову очутитися в меню КОРРЕЛ

  9. У меню функції КОРРЕЛ – натиснути на кольорову кнопку біля віконця з написом «Масив 2»

  10. За допомогою миші виділити в таблиці дані значення Y

  11. Натиснути на кольорову кнопку віконця, знову очутитися в меню КОРРЕЛ

  12. Натиснути кнопку ОК. Меню КОРРЕЛ зникне, у виділеному осередку з'явиться шукане значення коефіцієнта кореляції.

5.6 Проста лінійна регресія


Установивши наявність кореляційного зв'язку (розрахувавши коефіцієнт кореляції і переконавши в його значимості) можна вирішити задачу перебування лінійної залежності, що проходить через дану сукупність крапок деяким щонайкраще. Для рішення цієї задачі використовується метод найменших квадратів. Постановка задачі: задана сукупність з n крапок {x1,y1},{x2,y2},…{xn,yn}... Потрібно побудувати пряму, що проходить через ці крапки, тобто, коефіцієнти а01 рівняння прямої y = a0 + a1x

Цю задачу можна вирішити однозначно, якщо шукати коефіцієнти а01 такими, щоб зробити мінімальної суму квадратів відхилень по всіх крапках між заданими значеннями y і значеннями y, що лежать на розрахунковій прямій

Математично ця задача формулюється в такий спосіб:


У крапці мінімуму частки похідні і дорівнюють нулю:




Групуючи члени, одержуємо систему лінійних алгебраїчних рівнянь із двома невідомими:


Розрахувавши всі суми і вирішивши цю систему, можна знайти коефіцієнти прямої, тобто, побудувати задану пряму на сукупності крапок.

Рівняння прямої, побудоване методом найменших квадратів, називається рівнянням регресії (простої лінійної регресії).

У середовищі Excel для побудови рівняння регресії маються статистичні функції ВІДРІЗОК і НАХИЛ.

Для перебування коефіцієнтів регресії спочатку будується таблиця значень x і y. Для розрахунку коефіцієнта а0:



  1. Виділяємо осередок, у якій буде значення коефіцієнта а0

  2. Викликаємо функцію ВІДРІЗОК, що знаходиться серед статистичних функцій.

  3. Виділяємо осередок, у якій буде значення коефіцієнта а0

  4. У меню цієї функції – натискаємо кольорову кнопку біля вікна з написом Изв_знач_y

  5. Виділяємо стовпець значень y, натисканням кольорової кнопки повертаємося в меню функції ВІДРІЗОК

  6. У меню цієї функції – натискаємо кольорову кнопку біля вікна з написом Изв_знач_х

  7. Виділяємо стовпець значень х, натисканням кольорової кнопки повертаємося в меню функції ВІДРІЗОК

  8. Натискаємо кнопку ОК. У виділеному осередку з'являється значення коефіцієнта а0

Аналогічно, шляхом виклику статистичної функції НАХИЛ, розраховується коефіцієнт а1

5.7 Дослідження рівняння регресії


Лінію регресії можна провести через будь-яку сукупність крапок, у тому числі, через крапки з нульовим коефіцієнтом кореляції. Тому після розрахунку коефіцієнтів регресії варто провести дослідження рівняння регресії з метою з'ясування значимості цього рівняння, а також – коефіцієнтів регресії.

8.1. Установлення значимості рівняння регресії.

Найпростіша модель явища може бути побудована в припущенні, що на нього не впливають ніякі фактори, тобто, вона має вид:

Використовуючи лінійну регресійну модель Y = A0 + A1*X, ми ускладнюємо картину, уводячи 2 параметри (А0 і А1) замість одного (Ycp). Установлення значимості моделі означає перевірку, наскільки істотно на якості моделі позначається це ускладнення. Якщо модель незначима – ускладнення не має змісту.

Порівняння засноване на теоремі розкладання залишкової суми квадратів щодо середнього:

i – значення відгуку, розраховане по рівнянню регресії в i-й крапці.

Перша сума (SSост) зветься залишкової суми квадратів (суми квадратів відхилень, обумовлених регресією), друга – сумою квадратів щодо регресії (SSотн). Кожне з приведених доданків має своє число ступенів волі:


Складова

Позначення

Число ступенів волі

Дисперсія





n-1







n-2







1


Розділивши кожну із сум на число її ступенів волі, відповідно, одержимо загальну дисперсію, залишкову дисперсію і дисперсію щодо регресії.

Сутність установлення значимості рівняння регресії полягає в перевірці гіпотезу про рівність (однорідності) двох дисперсій – дисперсії щодо регресії і залишкової дисперсії. Для цього розраховуємо так називане F-відношення – відношення більшої дисперсії до меншого (у нашому випадку – дисперсії щодо регресії до залишкової дисперсії):

Ця випадкова величина має розподіл імовірностей, називаний розподілом Фишера чи F-розподілом, що залежить від рівня значимості, а також, числа ступенів волі більшої і меншої дисперсії. У Excel можна реалізувати 2 типи перевірки: розрахувати імовірність того, то при даному F – відношенні дисперсії однакові (при заданих числах ступенів волі). Це робиться за допомогою статистичної функції FРАСПР. Якщо ця імовірність виявляється менше довірчої імовірності – гіпотеза рівності дисперсій відкидається, приймається, що рівняння регресії значиме. У противному випадку регресія незначима (розкид у даних слабко змінився в порівнянні з найпростішою моделлю).

Друга можливість – за заданим значенням числа ступенів волі і довірчої інформації розрахувати критичне значення F, вище якого гіпотеза рівності дисперсій відкидається. Це робиться за допомогою функції FРАСПА. Виклик цих функцій – такої ж, як критерію Стьюдента.

Перевірка значимості коефіцієнтів регресії

Значимість коефіцієнтів регресії означає встановлення, значиме чи ні вони відрізняються від нуля.

Коефіцієнти регресії – випадкові величини, що мають розподіл Стьюдента.

Для перевірки значимості для кожного коефіцієнта обчислюють відношення



- среднеквадратическое відхилення коефіцієнта Аі

Перевірку значимості проводять також, як при проверке значимости коэффициента корреляции

Якщо коефіцієнт регресії незначимо – його можна дорівняти до нуля і перерахувати дані для більш простої моделі.

Розрахунок среднеквадратических відхилень коефіцієнтів проводять по формулах:






- залишкове среднеквадратическое відхилення
9. Прогноз і довірчий інтервал прогнозу
Після розрахунку і дослідження рівняння регресії, у випадку його значимості, можна перейти до використання цього рівняння для прогнозування. Для цього треба підставити в рівняння регресії значення фактора, для якого проводиться прогноз (Х0) і розрахувати прогноз Y0

Y0=A0 + A1*X0

Оскільки прогнозне значення – випадкова величина, необхідно оцінити границі інтервалу, у яких знаходиться прогноз з визначеною імовірністю, тобто, побудувати довірчий інтервал прогнозу. Для прогнозованого значення Y0 напівширину довірчого інтервалу в крапці Х0

Тоді, щире значениеY з імовірністю 1- буде знаходиться між Y-l і Y+l





<< предыдущая страница  
Смотрите также:
Компютерні технології в
413.46kb.
2 стр.
Реферат роботи Ресурсозберігаючі технології отримання конверторної сталі та утилізації
150.1kb.
1 стр.
Технології навчання математиці є не що інше, як технології математичної діяльності
158.06kb.
1 стр.
Сучасні технології прийняття управлінських рішень
99.82kb.
1 стр.
Програма Дисципліни моделювання технології та інтегральних мікросхем
76.95kb.
1 стр.
Здоров'язберігаючі технології у школі Название: Здоров'язберігаючі технології у школі
290.11kb.
1 стр.
Технології використання сапонітової породи Таківського родовища в землеробстві та промисловості Хмельницької області Кулаков О.І., Ганзюк А. Я
56.49kb.
1 стр.
З дисциплін „психодіагностика особистості учня та учнівського колективу”, „технології педагогІчНого спілкування”, „конфліктологія”
255.35kb.
1 стр.
Кафедра технології харчування – 65 Бакалавр
22.49kb.
1 стр.
Комп`ютерні технології на уроках біології План
191.7kb.
1 стр.
Новітні технології оздоровчих продуктів
127.78kb.
1 стр.
Методична підготовка майбутніх інженерів-педагогів в галузі проектування навчально-методичного забезпечення модульної технології навчання постановка проблеми
154.02kb.
1 стр.