Коэффициент детерминации и эмпирическое корреляционное отношение. Дисперсия альтернативного признака
Суть состоит в следующем: этот показатель измеряет меру зависимости вариации одной величины от многих других. Он применяется для оценки качества линейной регрессии.
Формула расчета:
R^2 \equiv 1-{\sum_i (y_i — f_i)^2 \over \sum_i (y_i-\bar{y})^2},
- \bar{y} – ср. арифметическое зависимой переменной;
- fi – знач. зависимой переменной, предполагаемое по уравнению регрессии;
- yi – значение исследуемой зависимой переменной.
Детерминация, что это такое — определение
Коэффициент детерминации – часть дисперсии переменной (зависимой), которая обуславливается конкретной моделью зависимости. Так эта единица поможет вычесть долю необъясненной дисперсии в дисперсии зависимой переменной.
Данный показатель может принимать значения в пределах от 0 до 1. Чем его значение ближе к 1, тем связаннее результативный признак с исследуемыми факторами.
Т.к. преступление является результатом связи поведения и личностных качеств, этот показатель в деятельности заинтересованных органов рассчитывается для оценки качества преступного поведения, дает представление, что послужило вероятностной причиной преступления, что является мотивацией, какие этому были причины и условия.
Коэффициент детерминации, что показывает?
Этот коэффициент показывает варианты результативного признака от влияния факторного признака, он тесно связан с числом корреляции. Если связь отсутствует, то показатель равняется нулю, при ее наличии – единице.
Есть определение детерминизма как принципа устройства мира. Основой этого представления является взаимосвязанность всех явления. Это учение отрицает существование вещей вне взаимосвязи с миром.
Противоположностью является индетерминизм, он связан с отрицанием объективных отношений детерминации, или отрицанием причинности.
Генетический детерминизм – вера в то, что любой организм развивается под генетическим контролем.
Под детерминантами преступности в криминологии понимают социальные явления, действия которых могут вызвать преступность.
С помощью расчетов такого рода можно оценить вероятностное социокультурное влияние различных факторов на развитие личности и предположить, как себя будет вести человек, например, в деловом общении, объективно оценить, подходит ли он для государственного управления, или воинской службы.
Так же коэффициент определяет, правильно ли выбран индекс для подсчета коэффициентов бета и альфа. Если в % цифра ниже 75 к определенному индексу, значения бета и альфа к нему будут некорректны.
Индекс детерминации
Индекс детерминации – это квадрат инд. корреляции нелинейных связей. Этим значением характеризуют, на какое количество процентов моделью регрессии объясняются варианты показателей результативной переменной по отношению к своему среднему уровню.
Формула
Коэффициент детерминации скорректированный
Суть данного понятия состоит в следующем: этот индекс показывает долю дисперсии (общей) результативной переменной, объясняющей вариантами факторных переменных, включаемых в модель регрессии: (с увеличением, уменьшением).
ОТВЕТ
Количественная оценка тесноты связи по эмпирическим данным состоит в расчете показателей тесноты связи:
· Эмпирический коэффициент детерминации (эмпирическое дисперсионное отношение) - r 2 .
Данный показатель рассчитывается по данным аналитической группировки (табл.), как отношение межгрупповой дисперсии признака-результата Y (d y 2) к общей дисперсии Y (s y 2):
Согласно теореме о разложении дисперсии межгрупповая дисперсия связана с общей дисперсией: s y 2 =d y 2 +e y 2 . Тогда эмпирический коэффициент детерминации может быть рассчитан через остаточную дисперсию по формуле:
где s j 2 – дисперсия признака-результата Y внутри j-ой группы.
Эмпирический коэффициент детерминации характеризует силу влияния группировочного признака (Х) на образование общей вариации результативного признака Y и показывает процент (долю) вариации признака-результата, обусловленную признаком-фактором, положенным в основу группировки.
Расчет r 2 удобно вести в таблице:
Признак- фактор Х j | N j | Среднее значение признака-результата | s j 2 N j | |
X 1 | N 1 | s 1 2 N 1 | ||
X 2 | N 2 | s 2 2 N 2 | ||
.... | ... | |||
X m | N m | s m 2 N m | ||
Итого | N | Х | ås j 2 |
Тогда .
Рассмотрим пример. Пусть дана совокупность из 20 рабочих, характеризующихся признаками: Y - выработка рабочего (шт./смену) и Х- квалификация (разряд). Исходные данные представлены в таблице:
X | ||||||||||||||||||||
Y |
Требуется оценить тесноту связи между признаками с помощью эмпирического коэффициента детерминации (r 2).
Для расчета r 2 произведем аналитическую группировку совокупности. В качестве признака-фактора возьмем Х (разряд рабочего), в качестве признака-результата – Y выработку рабочего). Аналитическая группировка производится по признаку Х. В данном случае она будет дискретная (т.к. значения признака Х довольно часто повторяются). Количество групп равно числу значений признака Х в совокупности, т.е. 6. Результаты группировки и расчета r 2 сведем в таблицу:
Признак-фактор Х | Признак-результат Y | Количество единиц в группе, N j | Среднее значение признака-результата в группе, | ( - ) 2 ·N j | Дисперсия признака-результата в группе, s 2 j | s 2 j ·N j |
(10+12+13)/3=11,7 | (11,7-17,1) 2 3=88,56 | s 2 1 =((10-11,7) 2 +(12-11,7) 2 +(13-11,7) 2)/3=1,56 | 4,7 | |||
(11+14)/2=12,5 | (12,5-17,1) 2 2=42,3 | s 2 2 =((11-12,5) 2 +(14-12,5) 2)/2=2,25 | 4,5 | |||
(12+13+15+16)/4= 14 | (14-17,1) 2 4=38,4 | s 2 3 =((12-14) 2 +(13-14) 2 +(15-14) 2 +(16-14) 2)/4=2,5 | ||||
(15+17+17+18)/4= 16,75 | (16,75-17,1) 2 4=0,49 | s 2 4 =((15-16,75) 2 +(17-16,75) 2 ++(17-16,75) 2 +(18-16,75) 2)/4=1,9 | 4,75 | |||
(18+20+22)/3=20 | (20-17,1) 2 3=25,23 | s 2 5 =((18-20) 2 +(20-20) 2 +(22-20) 2)/3=2,7 | ||||
(23+24+27+25)/4= 24,75 | (24,75-17,1) 2 4=234,1 | s 2 6 =((23-24,75) 2 +(24-24,75) 2 +(27-24,75) 2 +(25-24,75) 2)/4=2,19 | 8,75 | |||
=17,1 | 429,1 | 40,7 |
Эмпирический коэффициент детерминации равен отношению межгрупповой дисперсии признака-результата (d y 2) к общей дисперсии признака-результата (s y 2): r 2 = d y 2 /s y 2 = d y 2 /(d y 2 +e y 2).
Межгрупповая дисперсия Y будет равна: d y 2 = å( - ) 2 ·N j / N = 429,1/20=21,45.
Остаточная дисперсия Y будет равна: e y 2 = ås 2 j ·N j / N= 40,7/20= 2,035.
Тогда: r 2 =21,45/(21,45+2,035)= 429,1/(429,1+40,7)=0,913.
Вывод: 91,3% вариации выработки рабочих обусловлена влиянием фактора разряд.
· Эмпирическое корреляционное отношение - r.
Данный показатель представляет собой корень из эмпирического коэффициента детерминации. Оно показывает тесноту связи (не только линейной!) между группировочным и результативным признаками. Область допустимых значений эмпирического корреляционного отношения от 0 до +1.
Максимально тесная связь – это связь функциональная, когда каждое значение признака-результата Y однозначно определяется значением признака-фактора Х (т.е. результатом группировки). В этом случае дисперсия групповых средних (d y 2) равна общей дисперсии (s y 2), т.е. внутригрупповой вариации не будет. При этом остаточная дисперсия (e y 2) равна 0, а эмпирический коэффициент детерминации равен 1.
Если связь между признаками отсутствует, то все групповые средние равны между собой, межгрупповой вариации не будет (d y 2 =0), а эмпирический коэффициент детерминации равен 0.
Рассчитаем эмпирическое корреляционное отношение для нашего примера: r= 0,9555. Вывод: признаки «выработка рабочего» и «разряд» связаны довольно тесной связью.
Показатели r и r 2 определяются не только наличием связи признаков Х и Y, но и фактом группировки первичных данных. С ростом числа групп m межгрупповая дисперсия d 2 растет и приближается к общей дисперсии. Если число групп меньше количества единиц совокупности N, то значения r и r 2 никогда не будут равны 1, даже при строгой функциональной связи.
Заметим, что сама по себе величина показателя тесноты связи не является доказательством наличия причинно-следственной связи между исследуемыми признаками, а является оценкой степени взаимной согласованности в изменениях признаков. Установлению причинно-следственной зависимости должен обязательно предшествовать анализ качественной природы явлений.
Решение. Для расчета групповых дисперсий вычислим средние по каждой группе:
Шт.; шт.
Промежуточные расчеты дисперсий по группам представлены в табл. 3.2. Подставив полученные значения в формулу (3.4), получим:
Средняя из групповых дисперсий
Затем рассчитаем межгрупповую дисперсию. Для этого предварительно определим общую среднюю как среднюю взвешенную из групповых средних:
Теперь определим межгрупповую дисперсию
Таким образом, общая дисперсия по правилу сложения дисперсий:
Проверим полученный результат, вычислив общую дисперсию обычным способом:
На основании правила сложения дисперсий можно определить показатель тесноты связи между группировочным (факторным) и результативным признаками. Он называется эмпирическим корреляционным отношением, обозначается («эта») и рассчитывается по формуле
Для нашего примера эмпирическое корреляционное отношение
.
Величина 0,86 характеризует существенную связь между группировочным и результативным признаками.
Величина называется коэффициентом детерминации и показывает долю межгрупповой дисперсии в общей дисперсии.
Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков. Такое изучение вариации достигается, как и для долей количественных признаков, посредством вычисления и анализа следующих видов дисперсий.
Внутригрупповая дисперсия доли определяется по формуле
. (3.17)
Средняя из внутригрупповых дисперсий рассчитывается как
. (3.18)
Формула межгрупповой дисперсии имеет следующий вид:
, (3.19)
где n i – численность единиц в отдельных группах;
– доля изучаемого признака во всей совокупности, которая определяется по формуле
Общая дисперсия имеет вид
. (3.21)
Три вида дисперсии связаны между собой следующим образом:
. (3.22)
Пример 3.4
Определим групповые дисперсии, среднюю из групповых, межгрупповую и общую дисперсии по данным табл. 3.3.
Таблица 3.3
Численность и удельный вес одной из категорий
крупного рогатого скота фермерских хозяйств района
Решение
Определим долю дойных коров в целом по трем хозяйствам:
Общая дисперсия доли дойных коров:
Внутригрупповые дисперсии:
; ; .
Средняя из внутригрупповых дисперсий:
Межгрупповая дисперсия:
Используя правило сложения дисперсий, получаем: 0,1025+0,0031=0,1056. Пример решен правильно.
Пример 3.5
По данным выборочного обследования заработной платы работников бюджетной сферы получены следующие показатели (табл. 3.4).
Таблица 3.4
Определите:
1) среднюю заработную плату по двум отраслям;
2) дисперсии заработной платы:
а) среднюю из групповых дисперсий (отраслевых),
б) межгрупповую (межотраслевую),
3) коэффициент детерминации;
4) эмпирическое корреляционное отношение.
Решение
1. Средняя заработная плата работников по двум отраслям рассчитывается по формуле (2.10):
руб.
2. Дисперсии заработной платы:
а) средняя из групповых дисперсий по (3.14)
б) межгрупповая дисперсия согласно (3.12)
в) общая дисперсия, полученная на основании правила сложения дисперсий (3.15):
3. Коэффициент детерминации равен величине
т.е. , или 44,24%.
Он показывает, что оплата труда на 44,24% зависит от отраслевой принадлежности работников и на 55,76% – от внутриотраслевых причин.
По формуле (3.16) эмпирическое корреляционное отношение ,
что свидетельствует о существенном влиянии на дифференциацию заработной платы отраслевых особенностей.
3.2. ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОГО РЕШЕНИЯ
Задача 3.1
По распределению 60 рабочих по тарифному разряду имеются следующие данные (табл. 3.5).
Таблица 3.5
Определите:
1) средний тарифный разряд рабочих;
2) среднее линейное отклонение;
3) дисперсию;
4) среднее квадратическое отклонение;
5) коэффициент вариации.
Задача 3.2
По результатам экзаменационной сессии 1 и 2 курсов одного из вузов имеются следующие данные: на 1 курсе сдали сессию без двоек 85% студентов, на 2 курсе – 90%.
Определите на каждом курсе дисперсию доли студентов, успешно сдавших сессию.
Задача 3.3
Акционерные общества области по среднесписочной численности работающих на 1 января 2004 г. распределились следующим образом (табл. 3.6).
Таблица 3.6
Рассчитайте:
1) среднее линейное отклонение;
2) дисперсию;
3) среднее квадратическое отклонение;
4) коэффициент вариации.
Задача 3.4
Имеются данные о распределении семей сотрудников предприятия по количеству детей (табл. 3.7).
Таблица 3.7
Вычислите:
1) внутригрупповые дисперсии;
2) среднюю из внутригрупповых дисперсий;
3) межгрупповую дисперсию;
4) общую дисперсию.
Проверьте правильность проведенных расчетов с помощью правила сложения дисперсий.
Задача 3.5
Распределение стоимости продукции, предназначенной для экспорта по цехам предприятия, представлено следующими данными (табл. 3.8).
Таблица 3.8
Вычислите:
1) среднюю из внутригрупповых, межгрупповую и общую доли экспортной продукции;
2) коэффициент детерминации и эмпирическое корреляционное соотношение.
Задача 3.6
По данным обследования коммерческих банков города, 70% общего числа клиентов составили юридические лица со средним размером кредита 120 тыс. руб. и коэффициентом вариации 25%, а 20% – физические лица со средним размером ссуды 20 тыс. руб. при среднем квадратическом отклонении 6 тыс. руб.
Используя правила сложения дисперсий, определите тесноту связи между размером кредита и типом клиента, исчислив эмпирическое корреляционное отношение.
Раздел 4. Выборочное наблюдение
4.1. МЕТОДИЧЕСКИЕ УКАЗАНИЯ
И РЕШЕНИЕ ТИПОВЫХ ЗАДАЧ
Целью выборочного наблюдения является определение характеристик генеральной совокупности – генеральной средней ( о) и генеральной доли (р ). Характеристики выборочной совокупности – выборочная средняя () и выборочная доля () отличаются от генеральных характеристик на величину ошибки выборки (). Поэтому для определения характеристик генеральной совокупности необходимо вычислять ошибку выборки, или ошибку репрезентативности, которая определяется по формулам, разработанным в теории вероятностей для каждого вида выборки и способа отбора.
Собственно случайная и механическая выборки. При случайном повторном отборе предельная ошибка выборки для средней () и для доли () рассчитывается по формулам
; (4.1)
(4.2)
где – дисперсия выборочной совокупности;
n – численность выборки;
t – коэффициент доверия, который определяется по таблице значений интегральной функции Лапласа при заданной вероятности (P дов. ) (табл. П1).
При бесповторном случайном и механическом отборе предельная ошибка выборки вычисляется по формулам
; (4.3)
, (4.4)
где N – численность генеральной совокупности.
Пример 4.1
Для определения зольности угля в месторождении в порядке случайной выборки было обследовано 100 проб угля. В результате обследования установлено, что средняя зольность угля в выборке составляет 16%, среднее квадратическое отклонение – 5%. В десяти пробах зольность угля составила более 20%. С вероятностью 0,954 определите пределы, в которых будут находиться средняя зольность угля в месторождении и доля угля с зольностью более 20%.
Решение
Средняя зольность угля будет находиться в пределах
Для определения границ генеральной средней вычислим предельную ошибку выборки для средней по формуле (4.1):
. (4.5)
С вероятностью 0,954 можно утверждать, что средняя зольность угля в месторождении будет находиться в пределах 16% 1%, или 15% 17%.
Доля угля с зольностью более 20% будет находиться в пределах
Выборочная доля определяется по формуле
где m – доля единиц, обладающих признаком
Ошибку выборки для доли () вычислим по формуле (4.2):
или ±6%.
С вероятностью 0,954 можно утверждать, что доля угля с зольностью более 20% в месторождении будет находиться в пределах , или .
Пример 4.2
Для определения среднего срока пользования краткосрочным кредитом в банке была произведена 5%-ная механическая выборка, в которую попало 100 счетов. В результате обследования установлено, что средний срок пользования краткосрочным кредитом – 30 дней при среднем квадратическом отклонении 9 дней. В пяти счетах срок пользования кредитом превышал 60 дней. С вероятностью 0,954 определите пределы, в которых будут находиться срок пользования краткосрочным кредитом в генеральной совокупности и доля счетов со сроком пользования краткосрочным кредитом более 60 дней.
Решение
Средний срок пользования кредитом в банке находится в пределах
.
Так как выборка механическая, то ошибка выборки определяется по формуле (2.3):
дня.
С вероятностью 0,954 можно утверждать, что срок пользования краткосрочным кредитом в банке находится в пределах =30 дней 2 дня, или
28 дней дня.
Доля кредитов со сроком пользования более 60 дней находится в пределах
Выборочная доля составит
Ошибку выборки для доли определим по формуле (4.4):
или 4,2%.
С вероятностью 0,954 можно утверждать, что доля кредитов в банке со сроком пользования более 60 дней будет находиться в пределах или
Типическая выборка. При типическом (районированном) отборе генеральная совокупность разбивается на однородные типические группы, районы. Отбор единиц наблюдения в выборочную совокупность производится различными методами. Рассмотрим типическую выборку с пропорциональным отбором внутри типических групп.
Объем выборки из типической группы при отборе, пропорциональном численности типических групп, определяется по формуле
где n i – объем выборки из типической группы;
N i – объем типической группы.
Предельная ошибка выборочной средней и доли при бесповторном случайном и механическом способе отбора внутри типических групп рассчитывается по формулам
; (4.8)
, (4.9)
где – дисперсия выборочной совокупности.
Пример 4.3
Для определения среднего возраста мужчин, вступающих в брак, в районе была произведена 5%-ная типическая выборка с отбором единиц пропорционально численности типических групп. Внутри групп применялся механический отбор. Данные сведены в табл. 4.1.
Таблица 4.1
С вероятностью 0,954 определите пределы, в которых будет находиться средний возраст мужчин, вступающих в брак, и долю мужчин, вступающих в брак во второй раз.
Решение
Средний возраст вступления мужчин в брак находится в пределах
.
Средний возраст вступления мужчин в брак в выборочной совокупности определим по формуле средней взвешенной
= года.
Средняя выборочная дисперсия определяется по формуле
средней
=
Предельную ошибку выборки вычислим по формуле (4.8):
года.
С вероятностью 0,954 можно утверждать, что средний возраст мужчин, вступающих в брак, будет находиться в пределах года года, или
24 года года.
Доля мужчин, вступающих в брак во второй раз, будет находиться в пределах
Выборочную долю определим по формуле средней
или 14%.
Среднюю выборочную дисперсию альтернативного признака вычисляем по формуле
(4.12)
Ошибку выборки для доли определим по формуле (4.9):
или 6%.
С вероятностью 0,954 можно утверждать, что доля мужчин, вступающих в брак во второй раз, будет находиться в пределах , или .
Серийная выборка. При серийном способе отбора генеральную совокупность делят на одинаковые по объему группы – серии. В выборочную совокупность отбираются серии. Внутри серий производится сплошное наблюдение единиц, попавших в серию.
При бесповторном отборе серий предельные ошибки выборочной средней и доли определяются по формуле
, (4.13)
где – межсерийная дисперсия;
R – число серий в генеральной совокупности;
r – число отобранных серий.
Пример 4.4
В цехе предприятия 10 бригад рабочих. С целью изучения их производительности труда была осуществлена 20%-ная серийная выборка, в которую попали 2 бригады. В результате обследования установлено, что средняя выработка рабочих в бригадах составила 4,6 и 3 т. С вероятностью 0,997 определите пределы, в которых будет находиться средняя выработка рабочих цеха. т, или т.
Пример 4.5
На складе готовой продукции цеха находятся 200 ящиков деталей по 40 штук в каждом ящике. Для проверки качества готовой продукции была произведена 10%-ная серийная выборка. В результате выборки установлено, что доля бракованных деталей составляет 15%. Дисперсия серийной выборки равна 0,0049.
С вероятностью 0,997 определите пределы, в которых находится доля бракованной продукции в партии ящиков.
Решение
Доля бракованных деталей будет находиться в пределах
Определим предельную ошибку выборки для доли по формуле (4.13):
или 4,4%.
С вероятностью 0,997 можно утверждать, что доля бракованных деталей в партии находится в пределах 10,6% 19,6%.
Пример 4.6
В области, состоящей из 20 районов, проводилось выборочное обследование урожайности на основе отбора серий (районов). Выборочные средние по районам составили соответственно 14,5 ц/га; 16; 15,5; 15 и 14 ц/га. С вероятностью 0,954 найдите пределы урожайности во всей области.
Решение
Рассчитаем общую среднюю:
ц/га.
Межгрупповая (межсерийная) дисперсия
Определим теперь предельную ошибку серийной бесповторной выборки (t = 2, Р дов = 0,954) по формуле (4.13):
.
Следовательно, урожайность в области (с вероятностью 0,954) будет находиться в пределах
15-1,7≤ ≤15+1,7,
13,3 ц/га≤ ≤16,7 ц/га.
В практике проектирования выборочного наблюдения возникает потребность в нахождении численности выборки, которая необходима для обеспечения определенной точности расчета генеральных характеристик – средней и доли. При этом предельная ошибка выборки, вероятность ее появления и вариация признака предварительно известны.
При случайном повторном отборе численность выборки определяется из выражения
При случайном бесповторном и механическом отборе численность выборки вычисляется по формуле
. (4.16)
Для типической выборки
. (4.17)
Для серийной выборки
. (4.18)
Пример 4.7
В районе проживает 2000 семей. Предполагается провести их выборочное обследование методом случайного бесповторного отбора для нахождения среднего размера семьи. Определите необходимую численность выборки при условии, что с вероятностью 0,954 ошибка выборки не превысит одного человека при среднем квадратическом отклонении, составляющем три человека ( =3).
Решение
При бесповторном случайном отборе численность выборки по формуле (4.16) составит семей.
Численность выборки: не менее 36 семей.
Пример 4.8
В городе А проживает 10 000 семей. С помощью механической выборки предполагается определить долю семей с тремя детьми и более. Какова должна быть численность выборки, чтобы с вероятностью 0,954 ошибка выборки не превышала 0,02, если на основе предыдущих обследований известно, что дисперсия равна 0,2?
Решение
Определим необходимую численность выборки по формуле (4.16):
.
Численность выборки: не менее 1667.
В статистике часто приходится сравнивать результаты двух (или более) выборок. На основании сравнения двух выборочных средних (или долей) делается вывод о случайности или существенности их расхождения.
Для этого абсолютная разность показателей выборочных средних сопоставляется со средней ошибкой разности :
. (4.19)
Найденное t расч. сравнивается с t табл. по t – распределению Стьюдента (таблица П2) для числа степеней свободы v =n 1 +n 2 -2 и заданного уровня значимости a. (здесь n 1 и n 2 – объемы сравниваемых выборок).
Величина 0,86 характеризует существенную связь между группировочным и результативным признаками.
Величина называется коэффициентом детерминации и показывает долю межгрупповой дисперсии в общей дисперсии.
Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков. Такое изучение вариации достигается, как и для долей количественных признаков, посредством вычисления и анализа следующих видов дисперсий.
Внутригрупповая дисперсия доли определяется по формуле
. (3.17)
Средняя из внутригрупповых дисперсий рассчитывается как
. (3.18)
Формула межгрупповой дисперсии имеет следующий вид:
, (3.19)
где n i – численность единиц в отдельных группах;
–доля изучаемого признака во всей совокупности, которая определяется по формуле
. (3.20)
Общая дисперсия имеет вид
. (3.21)
Три вида дисперсии связаны между собой следующим образом:
. (3.22)
Пример 3.4
Определим групповые дисперсии, среднюю из групповых, межгрупповую и общую дисперсии по данным табл. 3.3.
Таблица 3.3
Численность и удельный вес одной из категорий крупного рогатого скота фермерских хозяйств района
Решение
Определим долю дойных коров в целом по трем хозяйствам:
;
Общая дисперсия доли дойных коров:
Внутригрупповые дисперсии:
;
;
.
Средняя из внутригрупповых дисперсий:
Межгрупповая дисперсия:
Используя правило сложения дисперсий, получаем: 0,1025+0,0031=0,1056. Пример решен правильно.
Пример 3.5
По данным выборочного обследования заработной платы работников бюджетной сферы получены следующие показатели (табл. 3.4).
Таблица 3.4
Определите:
среднюю заработную плату по двум отраслям;
дисперсии заработной платы:
а) среднюю из групповых дисперсий (отраслевых),
б) межгрупповую (межотраслевую),
коэффициент детерминации;
эмпирическое корреляционное отношение.
Решение
Средняя заработная плата работников по двум отраслям рассчитывается по формуле (2.10):
руб.
Дисперсии заработной платы:
а) средняя из групповых дисперсий по (3.14)
б) межгрупповая дисперсия согласно (3.12)
.
в) общая дисперсия, полученная на основании правила сложения дисперсий (3.15):
Коэффициент детерминации равен величине
; (3.23)
т.е.
,
или 44,24%.
Он показывает, что оплата труда на 44,24% зависит от отраслевой принадлежности работников и на 55,76% – от внутриотраслевых причин.
По формуле (3.16)
эмпирическое корреляционное отношение
,
что свидетельствует о существенном влиянии на дифференциацию заработной платы отраслевых особенностей.
Корреляционный анализ предполагает измерение тесноты связи с помощью коэффициента корреляции и корреляционного отношения. При линейной форме зависимости силу связи оценивает коэффициент корреляции Пирсона :
Коэффициент корреляции изменяется в пределах от (– 1) до (+ 1), (– 1 r 1).
Отрицательный знак показателя свидетельствует об обратной связи, положительный – о прямой связи. Чем ближе значение показателя к единице, по модулю, тем связь сильнее, чем ближе к нулю, тем связь слабее.
Для измерения силы связи при любой форме зависимости, как линейной, так и нелинейной, а также для оценки множественной связи применяют теоретическое корреляционное отношение (индекс корреляции). В основе его расчета лежит правило сложения дисперсии:
где – общая дисперсия – отражает вариацию результативного признака за счет всех действующих на него факторов;
или
–факторная дисперсия , отражает вариацию результативного признака за счет фактора (х) .
–остаточная дисперсия , отражает вариацию результативного признака за счет всех факторов, кроме фактора (х) ;
Теоретическое корреляционное отношение – это корень квадратный из отношения факторной дисперсии к общей дисперсии:
Подкоренное выражение – коэффициент детерминации :
показывает долю вариации результативного признака, обусловленную влиянием факторного признака, в общей вариации. Чем эта доля выше, тем связь между признаками сильнее.
Теоретическое корреляционное отношение изменяется от 0 до 1 (0 R 1) .Чем значение показателя ближе к единице, тем связь сильнее.
Для оценки тесноты связи можно воспользоваться шкалой Чеддока :
Основная тенденция развития и методы ее выявления
Каждый ряд динамики имеет свою тенденцию развития, т.е. общее направление к росту, снижению или стабилизации уровня явления с течением времени. Степень выраженности этой тенденции зависит от влияния постоянных, периодических (сезонных) и случайных факторов на уровни ряда динамики. Поэтому следует говорить не просто о тенденции развития, а об основной тенденции.
Основной тенденцией развития (трендом) называется плавное и устойчивое изменение уровня явления во времени, свободное от периодических и случайных колебаний .
Для выявления тренда ряды динамики подвергаются обработке методами укрупнения интервалов, скользящей средней, аналитического выравнивания.
Метод укрупнения интервалов основан на укрупнении периодов времени, к которым относятся уровни ряда динамики. Для этого исходные данные объединяются, т.е. суммируются или усредняются за более продолжительные интервалы времени, пока общая тенденция развития не станет достаточно отчетливой. Например, дневные данные о производстве продукции объединяются в декадные, месячные в квартальные, годовые в многолетние. Достоинство метода в его простоте. Недостаток в том, что сглаженный ряд существенно короче исходного.
Метод скользящей средней состоит в том, что на основе исходных данных рассчитываются подвижные средние из определенного числа сначала первых по счету уровней ряда, затем из такого же числа уровней, начиная со второго, с третьего и т.д. Средняя величина как бы скользит по динамическому ряду, передвигаясь на один интервал. В скользящих средних сглаживаются случайные колебания.
Схема расчета 3-х уровневой скользящей средней величины
Интервал времени (номер по порядку) |
Фактические уровни ряда динамики у i |
Скользящие средние у ск |
у 1 | ||
у 2 | ||
у 3 | ||
у 4 |
у ск3 |
|
у 5 |
у ск4 |
|
у 6 |
Сглаженный ряд динамики короче исходного на величину (l – 1) , если укрупнение производится по нечетному числу уровней, где l – длина периода укрупнения. Например, если l = 3, то выровненный ряд на 2 уровня короче. Таким образом сглаженный ряд не на много короче исходного.
Метод аналитического выравнивания заключается в замене фактических уровней ряда динамики их теоретическими значениями, вычисленными на основе уравнения тренда:
Расчет параметров уравнения производится методом наименьших квадратов:
где у – фактические уровни;у ti – соответствующие им во времени выровненные (расчетные) уровни.
Если развитие осуществляется в арифметической прогрессии (с равными цепными абсолютными приростами), то для выравнивания используют линейную функцию :
Если наблюдается динамика в геометрической прогрессии, (с равными цепными темпами роста), то необходимо использовать показательную функцию :
у t = а 0 а 1 t .
Если развитие происходит с равными темпами прироста, используется степенная функция , например второго порядка (парабола):
у t = а 0 + а 1 t + а 2 t 2 .
Критерием правильности выбора уравнения тренда служит ошибка аппроксимации . Она представляет собой среднее квадратическое отклонение фактических уровней ряда динамики от теоретических:
Оптимальным считается уравнение с наименьшей ошибкой аппроксимации.
Рассмотрим «технику» выравнивания ряда динамики по линейной функции :
где а 0 , а 1 – параметры уравнения прямой; t – показатели времени (как правило, порядковый номер периода или момента времени).
Параметры прямой а 0 и а 1 , удовлетворяющие методу наименьших квадратов, находят решением следующей системы нормальных уравнений:
где n – число уровней ряда динамики; параметр а 1 соответствует среднему абсолютному приросту.
Для упрощения
расчета показателям времени
можно придать такие
значения, при которых
,
тогда
Для этого в рядах с нечетным числом уровней за начало отсчета времени принимают центральный интервал, где t приравнивают к нулю. По обе стороны от нуля располагают соответственно ряды отрицательных и положительных натуральных чисел, например:
Интервал времени (номер по порядку) |
t i |
При четном числе уровней отсчет ведется от двух центральных интервалов, в которых t приравнено к (-1) и (+1) соответственно, а по обе стороны располагаются ряды отрицательных и положительных нечетных чисел, например:
Интервал времени (номер по порядку) |
t i |
Схема расчета параметров линейного уравнения
Интервалы времени |
Уровни ряда динамики у i |
t i |
i t 2 |
у i t i |
у ti |
На основе исчисленного уравнения тренда можно производить экстраполяцию – нахождение вероятностных (прогнозируемых) уровней за пределами исходного ряда динамики.