Публикации Эконометрика

Всероссийский сборник статей и публикаций института развития образования, повышения квалификации и переподготовки.

Язык издания: русский
Периодичность: ежедневно
Вид издания: сборник
Версия издания: электронное сетевое
Публикация: Эконометрика
Автор: Биккин Халид Мрхасановч

УРАЛЬСКИЙ ИНСТИТУТ - ФИЛИАЛ
РОССИЙСКОЙ АКАДЕМИИ НАРОДНОГО ХОЗЯЙСТВА
И ГОСУДАРСТВЕННОЙ СЛУЖБЫ
ПРИ ПРЕЗИДЕНТЕ РФ
Кафедра информатики и математики
Эконометрика
Учебное пособие
Направление подготовки
080100 ЭКОНОМИКА
Составитель Биккин Х. М., канд. физ. мат. наук, доцент
Екатеринбург
2014 г.
Вашему вниманию предлагаются учебно-методические материалы по эконометрике, которые включают 10 лекций в формате pdf, числовые данные для примеров, которые обсуждаются в лекциях в формате Excel, задания для контрольных работ, экзаменационные билеты в формате Word, материалы для практических занятий по эконометрике по каждой из 10 тем (задания и числовые материалы для анализа с использованием Excel и Eview) методички для первого знакомства и использования Eview для эконометрических исследований, дистрибутив программы Eview-3, который не требует паролей и регистрации. Все эти материалы доступны для скачивания из облачного хранилища по ссылке, которая приведена ниже:

Две первых лекции приведены ниже в формате Word.
Если по какой-то причине файлы не удалось скачать, можно обратиться с просьбой помочь скачать файлы по адресу: frequency104@gmail.com
Темы лекций:
Предмет эконометрики. Методология�эконометрического моделирования. Цели и задачи эконометрического анализа
Случайные величины. Способы задания случайных величин. Оценка генеральных показателей по данным выборочного наблюдения
Парный корреляционный и регрессионный анализ
Многофакторная регрессия
Проблемы практического применения регрессионных моделей-1
Проблемы практического применения регрессионных моделей-2
Регрессионный анализ временных рядов -1
Регрессионный анализ временных рядов -2
Регрессионный анализ временных рядов -3
Системы одновременных уравнений
План лекции №1
Тема 1. Предмет эконометрики. Методология�эконометрического моделирования. Цели и задачи эконометрического анализа�
�
1. История создания эконометрики.
2, Методология эконометрического моделирования.
3. Что представляет собой эконометрическая модель?
4. Классификация задач эконометрики.
5. Этапы эконометрического моделирования.
6. Данные, участвующие в эконометрическом анализе.
Тема 2. Случайные величины. Способы задания случайных величин. Оценка генеральных показателей по данным выборочного наблюдения
1. Случайные величины и их числовые характеристики.
2. Математические операции над случайными величинами.
3. Математическое ожидание дискретной случайной величины.
4. Дисперсия дискретной случайной величины.
5. Непрерывные случайные величины. Функция распределения непрерывной случайной величины.
6. Нормальное распределение и его свойства. Стандартное нормальное распределение.
История развития эконометрики
Первые попытки количественных исследований в экономике относятся к 17 веку. �Политические арифметики� - В. Пегги (1623-1667), Г. Кинг (1648-1712), Ч. Давенант (1656—1714) — вот первые ученые, систематически использовавшие цифры и факты в своих работах, в первую очередь в расчете национального дохода. Спектр их интересов был связан, как правило, с практическими вопросами: финансами, денежным обращением, налогообложением, торговлей и т.д.
Одним из первых был сформулирован �закон Кинга�. В нем на основе соотношения между урожаем зерновых и ценами на зерно была выявлена закономерность спроса. Ученые хотели достичь в экономике того, что И. Ньютон достиг в физике. Еще не была определена�статистическая природа экономических закономерностей. В этот период все больше данных становятся доступными, создавая основу для исследований.
Существенным толчком стало развитие теории статистики в трудах Ф. Гальтона (1822-1911), Ф. Эджворта (1845—1926) и К. Пирсона (1857-1936). Появились первые применения парной корреляции: при выявлении связи между уровнем бедности и формами помощи бедным (Дж. Э. Юл,. 1895, 1896); между уровнем браков в Великобритании и благосостоянием людей (Г. Хукер, 1901), в котором было использовано несколько индикаторов благосостояния. Также исследовались временные ряды экономических данных. Это были первые шаги по созданию современной науки эконометрики.
К 1930-м годам сложились все предпосылки для выделения эконометрики в отдельную науку. Стало ясно, что для более глубокого понимания экономических процессов стоит использовать в той или иной степени статистику и математику. Возникла необходимость появления новой науки со своим предметом и методом, объединяющей все исследования в этом направлении. 29 декабря 1930 г. по инициативе И. Фишера, Р. Фриша, Я. Тинбергена, Й. Шумпетера, О. Андерсона и других ученых было создано эконометрическое общество.
В 1933 г. Р. Фриш основал журнал �Эконометрика�, который и сейчас имеет большое значение для развития эконометрики. А уже в 1941 г. появляется первый учебник по новой научной дисциплине, написанный Я. Тинбергеном. В 1969 г. Фриш и Тинберген стали первыми исследователями, получившими Нобелевскую премию по экономике. Как говорится в официальном сообщении нобелевского комитета: �за создание и применение динамических моделей к анализу экономических процессов�.
До 1970-х годов эконометрика понималась как эмпирическая оценка моделей, созданных в рамках экономической теории. По мнению эконометристов того времени, статистические данные должны были защитить теорию от догматизма. Но, начиная с 1970-х годов, формальные методы стали использоваться при выборе теоретических концепций. При этом эконометрикой стали активно пользоваться не только ученые, занятые развитием экономической теории, но и практики.
В 1980 г. вторую эконометрическую Нобелевскую премию по экономике получил американский экономист Лоуренс Клейн за создание экономических моделей и их применение к анализу колебаний экономики и экономической политики. Совместно с А. Голдбергом он� создал одну из самых известных моделей американской экономики, известной как �модель Клейна–Голдберга�.
В основу структуры этой модели были положены� собственные разработки Л. Клейна.�Модель состояла�из�взаимосвязанных одновременных уравнений, решение которых давало картину производства в стране. Говоря об этой модели, Р.Дж. Болл отмечал: �Как эмпирическое представление об основах кейнсианской системы эта модель стала, возможно, самой знаменитой среди моделей крупных национальных хозяйств до появления других моделей в 60-е гг.�.
В это время активно развивалась не только макро-, но микроэконометрика. Пионерами этого направления выступили Д. Хэкман и Д. Макфадден. Они разработали теорию и методы, которые широко используются в статистическом анализе поведения индивидуумов и домохозяйств как в экономике, так и в других общественных науках. Так, Дж. Хекман решил проблему смещения выборки из-за селективности данных и самоотбора. Для её решения он предложил использовать метод коррекции Хекмана, который благодаря своей эффективности и простоте в использовании стал широко использоваться в эмпирических исследованиях.
Основной вклад Д. Макфаддена в науку заключается в развитии методов для анализа дискретного выбора. В 1974 г. он разработал условный логит-анализ, который сразу был признан фундаментальным достижением экономической науки. Также он создал эконометрические методы для оценки производственных технологий и исследования факторов, лежащих в основе спроса фирм на капитал и рабочую силу. Выдающиеся достижения этих ученых были отмечены Нобелевской премией по экономике в 1990 г.
Важным событием для развития эконометрики стало появление компьютеров. Благодаря им мощное развитие получил статистический анализ временных рядов. Г. Бокс и Г. Дженкинс создали ARIMA-модель в 1970 г., а К. Симс и некоторые другие ученые — VAR-модели в начале 1980-х гг.
Стимулировало эконометрические исследования и бурное развитие финансовых рынков и производных инструментов. Это привело лауреата Нобелевской премии по экономике за 1981 год Дж. Тобина к разработке моделей с использованием цензурированных данных.
Большое влияние на современную эконометрику оказал и Хаавельмо. Хаавельмо показал, как можно использовать методы математической статистики для того, чтобы получать обоснованные заключения о сложных экономических взаимосвязях исходя из случайной выборки эмпирических наблюдений. Эти методы можно, кроме того, использовать для оценивания соотношений, полученных на основе экономических теорий, и для проверки этих теорий.
В 1989 г. ему присудили Нобелевскую премию по экономике �за прояснение вероятностных основ эконометрики и анализ одновременных экономических структур�.
Хаавельмо рассматривал экономические ряды как реализацию случайных процессов. Главными проблемами, возникающими при работе с такими данными, являются нестационарность и сильная волатильность. Если переменные нестационарны, то есть риск установить связь там, где её нет. Вариантом решения данной проблемы является переход от уровней ряда к их разностям. Недостатком данного метода является сложность экономической интерпретации полученных результатов.
Для решения этой проблемы Клайв Грэнджер ввел концепцию коинтеграции как стационарной комбинации между нестационарными переменными. Им была предложена модель корректировки отклонений (ЕСМ), для которой он разработал методы оценивания её параметров, обобщения и тестирования. Коинтеграция применяется в случае, если краткосрочная динамика отражает значительные дестабилизирующие факторы, а долгосрочная стремится к экономическому равновесию. Модели, созданные Грэнджером, в 1990 г. были обобщены С. Йохансеном для многомерного случая. В 2003 г. Гренджер совместно с Р. Инглом получили нобелевскую премию. Р. Ингл, в свою очередь, известен как создатель моделей с меняющейся во времени волатильностью (т. н. ARCH-модели). Эти модели получили широкое распространение на финансовых рынках.
Сегодня эконометрика занимает достойное место в ряду экономических наук. В мире выпускается ряд научных журналов, полностью посвященных эконометрике, в том числе: Journal of Econometrics (Швеция), Econometric Reviews (США), Econometrica (США), Sankhya. Indian Journal of Statistics. Ser.D. Quantitative Economics (Индия), Publications Econometriques (Франция). Эконометрику изучают в ведущих мировых университетах, пришло понимание, что без эконометрических методов невозможно проводить современный макро- и микроэкономический анализ.
На русском языке также существуют специализированные журналы. К ним относятся �Прикладная эконометрика� и �Квантиль�. Отдельные публикации по эконометрике появляются в журналах �Экономика и математические методы�, �Вопросы статистики�, �Вопросы экономики� и некоторых других.
Ранее в России по ряду причин эконометрика не была сформирована как самостоятельное направление научной и практической деятельности. Хотя в настоящее время начинают развертываться эконометрические исследования. В связи с этим начинается широкое преподавание этой дисциплины на всех специальностях экономической направленности.
Вопрос
Каких ученых можно�считать основоположниками эконометрики?
Методология эконометрического моделирования
Эконометрика - это наука, которая дает количественное выражение взаимосвязи� экономических явлений и процессов.
Эконометрика� занимается выявлением наблюдаемых в экономической жизни конкретных� количественных закономерностей, применяя для этой цели методы математической статистики. Эта наука представляет собой �сплав� экономической теории, статистики и� математических методов, включая методы компьютерного анализа.�Иными словами, эконометрика — это наука об экономических измерениях.
Основным предметом исследования эконометрики являются массовые экономические явления и процессы. Предметы эконометрики и статистики очень схожи, так как статистика�тоже имеет дело с массовыми социально-экономическими явлениями.
Эконометрика ставит своей целью на основании анализа реальных результатов экономической деятельности� количественно определить те экономические закономерности, которые экономическая теория выявляет и определяет лишь как возможные взаимосвязи между экономическими показателями.Анализ экономических процессов и явлений в эконометрике осуществляется с помощью математических моделей, построенных на эмпирических данных.
Практически все эконометрические методы и приемы изучения экономических закономерностей позаимствованы из математической статистики. Специфика применения методов математической статистики в эконометрике заключается в том, что практически все экономические показатели являются величинами случайными, а не результатами контролируемого эксперимента, как, например в физике, химии или биологии. Здесь нет возможности повторить эксперимент, или провести его более тщательно. Приходится ограничиваться теми данными, которые удалось получить и только на их основании делать социально-экономические выводы. В этом состоит принципиальное отличие методологии� эконометрики� от методологии обработки эксперимента в естественных науках.
Так как эконометрист имеет дело с данными� не экспериментальной природы, то он не может получить данных больше, чем у него есть. В то же самое время методы математической статистики, такие как� теория оценивания и проверка статистических гипотез� развиты для экспериментальных наук и не могут в безоглядно применяться в эконометрике (по существу именно этот факт и является основанием для выделения эконометрики в отдельную науку).�� По этой причине актуален даже и такой вопрос: учитывая непредсказуемость поведения человеческих индивидуумов, можно ли надеяться на выявление закономерностей в их поведении?
Другая проблема состоит в том, как накапливать и передавать экономические знания следующим поколениям. Опыт естественных наук убедительно доказывает, что самым точным и кратким способом передачи знаний является их передача в формализованной� математической форме в виде некоторых моделей, которые нашли свое подтверждение в практике экономической деятельности. Эконометрика� как раз и занимается� установлением связи между� переменными, фигурирующими в экономической теории. Уже в настоящее время есть впечатляющие результаты.�� За разработки в области эконометрики� вручены� нобелевские премии� Р. Фришу� и�� Я. Тинбергену� (1969 г.), Л. Клейну (1980 г.), Т. Хаавельмо (1989г.) и� Дж. Хекману и Д. Макфаддену� в 2000 г.�Почему приходится применять статистические методы в эконометрике?
Применение� статистических методов в эконометрике связано со спецификой деятельности� экономиста и состоит в том, что ему приходится работать в условиях неполноты информации. В реальной жизни действует большое число факторов.� Действие некоторых из них� вы в состоянии� учесть, а другие оказывают влияние на итоговый результат помимо вашей воли, и предвидеть их влияние в каждом конкретном случае не представляется возможным (например, погода в сельскохозяйственном производстве).�� Спрашивается, как применять в этих условиях� научно обоснованные экономические и управленческие решения. Ответ на этот вопрос должен давать� эконометрический анализ.
В экономике связь между факторными и результативными признаками является� стохастической (статистической), а не функциональной.�
Функциональной�называют такую связь, при которой имеется однозначное соответствие между�� признаками.�
Стохастическая ( означает вероятностная. Связи между случайными явлениями называют вероятностными или стохастическими связями. Этот термин подчеркивает их отличие от детерминированных или функциональных связей в физике или математике (связь длины окружности с ее радиусом и т.п.).�
В стохастических связях�каждому значению одного признака может соответствовать определенное распределение значений другого признака, но не определенное его значение.
Иными словами, стохастическая связь имеется тогда, когда изменение значений одной случайной величины влечет за собой изменение статистического распределения другой случайной величины.
На практике,� как правило, имеют дело с�корреляционной взаимосвязью, которая является частным случаем стохастической (статистической) взаимосвязи и реализуется тогда, когда при изменении одной случайной величины изменяется среднее значение другой случайной величины.
В этом случае можно сказать, что� зависимость между факторными и результативными признаками проявляется� не в каждом отдельном случае, а лишь при большом числе наблюдений, т. е.� при вычислении средних значений для результативного признака.� В каждом конкретном случае при изменении одной переменной� вторая может принимать в определенных пределах любые значения с некоторой вероятностью.
При изучении взаимосвязей между явлениями следует проявлять некоторую осторожность.� Корреляционная связь между��двумя величинами может свидетельствовать не о�взаимной зависимости�этих величин между собой, а зависимости обоих этих�величин от какой-то третьей величины, не рассматриваемой в исследовании.
Если� связь между явлениями может быть приближенно выражена прямой линией, то связь называется линейной, если� же она выражается уравнением какой-либо другой линии (параболы, гиперболы и т. д.), то связь называют�нелинейной.
Рассмотрим простой пример. Пусть имеются данные о годовом располагаемом доходе и годовых расходах на личное потребление (в 1999 г., в условных единицах)� для 20 семей (данные� представлены на рисунке ниже).�
�Обозначения: DPI ( disposable personal income)� - доходы домохозяйств;� PC (personal consumption) - расходы домохозяйств; усл. ед.
Требуется� выяснить, существует ли взаимосвязь между располагаемым доходом и расходами на личное потребление?�
На самом деле нас интересуют не только эти домохозяйства.�Интересно знать есть ли такая взаимосвязь вообще. Очевидно, что если мы возьмем другие домохозяйства, то данные расходов и доходов будут другими. Есть ли возможность, взяв только 20 домохозяйств, судить о наличии взаимосвязи между расходами и доходами для любых домохозяйств?
Наконец,��эконометрика должна� не только установить�наличие взаимосвязи, но и установить каким уравнением описывается эта взаимосвязь.
После того как уравнение найдено, требуется с помощью методов математической статистики выяснить: можно ли доверять полученным результатам?�
�Дело в том, что при установлении уравнения взаимосвязи мы располагали данными всего для 20 домохозяйств, а не для всех домохозяйств. Взяв другие 20 домохозяйств, мы получим другие результаты. Поэтому возникает естественный вопрос: не являются ли полученные результаты случайными числами? Можно ли им доверять?�
Рассмотренный выше пример является достаточно простым, но он наглядно демонстрирует те проблемы, с которыми�исследователь сталкивается при рассмотрении любой задачи� эконометрического анализа.
Экономические, математические и эконометрические модели объективной реальности
�Моделирование — это опосредованное практическое или теоретическое исследование объекта, при котором непосредственно изучается не сам интересующий нас объект, а некоторая вспомогательная искусственная или естественная система (модель):
1. находящаяся в некотором объективном соответствии с познаваемым объектом;2. способная замещать его в определенных отношениях;3. дающая при её исследовании, в конечном счете, информацию о самом моделируемом объекте.
Экономическая модель�— формализованное описание различных экономических явлений и процессов.
Для экономической модели характерно упрощенное представление экономической действительности, показывающее взаимосвязи между выбранными экономическими переменными. Экономическая модель может иметь графическое, словесное или математическое представление.
Математическая модель�экономического явления�— это �эквивалент� экономического объекта, отражающий в математической форме важнейшие его свойства — законы, которым он подчиняется, связи, присущие составляющим его частям, и т. д.
Иными словами математической моделью называется совокупность математических соотношений, уравнений, неравенств и т.п., описывающих основные закономерности, присущие изучаемому процессу, объекту или системе.
Эконометрическая модель –�вероятностно – статистическая модель, описывающая механизм функционирования экономической или социально –экономической системы. Этапы построения эконометрической модели можно представлять себе следующим образом:
1. строится экономическая модель явления;
2. на базе экономической модели явления путем путем дальнейших упрощений, �абстрагирования, выделения наиболее главных и существенных черт изучаемого явления строится математическая модель изучаемого явления;
3. построенная математическая модель верифицируется с использованием реальных статистических данных функционирования� некоторых�экономических объектов. Если на базе проведенного статистического исследования математическая модель признается адекватной, то можно говорить, что построена эконометрическая модель изучаемого экономического явления.
Задачи эконометрики
С помощью эконометрики решается круг задач, которые можно классифицировать по трем признакам:
1) по конечным прикладным целям:
а) прогноз социально-экономических показателей, определяющих состояние и развитие изучаемой системы;б) моделирование возможных вариантов социально-экономического развития системы для определения тех параметров, которые оказывают наиболее мощное влияние на состояние системы в целом;
2) по уровню иерархии:
а) задачи, решаемые на макроуровне (страна в целом);б) задачи, решаемые на мезоуровне (уровень отраслей, регионов);в) задачи, решаемые на микроуровне (уровень фирмы, семьи, предприятия);
3) по области решения проблем изучаемой экономической� системы:
а) рынок;б) инвестиционная, социальная, финансовая политика;в) ценообразование;г) распределительные отношения;д) спрос и потребление;е) отдельно выделенный комплекс проблем.
Примеры эконометрических моделей
Среди наиболее� известных эконометрических моделей можно выделить:1) модели потребительского и сберегательного потребления;2) модели взаимосвязи риска и доходности ценных бумаг;3) модели предложения труда;4) макроэкономические модели (модель роста);5) модели инвестиций;6) маркетинговые модели;7) модели валютных курсов и валютных кризисов и др.
Задачи эконометрического моделирования
Выделяют три основных класса эконометрических моделей:
1. Регрессионные модели с одним уравнением.
В подобных моделях зависимая�� или результативная переменная, обозначаемая обычно��HYPER15��представляется в виде функции
HYPER15,� где�HYPER15�– это ошибка, которая всегда присутствует при моделировании реальных задач экономики, индекс�HYPER15).
Регрессионные модели делятся на парные (с одним факторным признаком) и множественные регрессии. Уравнение (1.1) представляет собой модель множественной регрессии.
В зависимости от вида функции�HYPER15�модели делятся на линейные и нелинейные регрессии.
2. Модель временных рядов.
��Модель представляет собой зависимость результативного признака от переменной времени или переменных, относящихся к другим моментам времени. К моделям временных рядов, в которых результативный признак зависит от времени, относятся:
а) модель тренда (модель, выявляющая плавное и устойчивое изменение результативного признака�от факторных переменных);б) модель сезонности (модель зависимости результативного признака от сезонной компоненты);в) модели авторегрессии, которые объясняют вариацию результативного признака в зависимости от предыдущих значений результативных переменных.
3. Системы одновременных уравнений.
Модели описывают системы взаимозависимых регрессионных уравнений. Системы могут состоять из тождеств и регрессионных уравнений, каждое из которых может включать в себя не только факторные переменные, но и результативные переменные из других уравнений системы. Примером� системы одновременных уравнений может служить модель спроса и предложения, включающая три уравнения:
HYPER15
Уравнение (1.2) в этой системе – это уравнение предложения, уравнение �(1.3)� – уравнение спроса,��HYPER15–�спрос в момент времени�t�,�HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET �–�доход потребителя�и цена товара� момент времени�t�,
�
Этапы эконометрического моделирования
�Можно выделить несколько этапов эконометрического моделирования.
1. Постановочный. На данном этапе определяются конечные цели и задачи исследования и набор участвующих в модели факторных и результативных экономических переменных.��Цели эконометрического исследования могут быть различными, например:
а) анализ изучаемого экономического процесса (явления, объекта);б) прогноз экономических показателей, характеризующих изучаемый процесс;в) моделирование поведения процесса при различных значениях независимых (факторных) переменных;г) выработка управленческих решений.
2. Априорный. На этом этапе проводятся теоретический анализ сущности изучаемого процесса, а также формирование и формализация известной до моделирования (априорной) информации.
3. Параметризация и спецификация модели. Осуществляется выбор общего вида модели и выявление состава и формы входящих в нее связей, т. е. происходит непосредственно моделирование.Основная задача этого этапа моделирования заключается в выборе наиболее оптимального вида функции зависимости результативной переменной от факторных признаков. В частности на этом этапе моделирования решается задача спецификации модели путем:
а) выбора математической формы выявленных связей и соотношений между переменными;б) определения зависимых и независимых переменных;в) формулировки исходных предпосылок и ограничений модели.
Успех эконометрического моделирования во многом зависит от правильного решения проблемы спецификации модели.
4. Информационный этап. Происходит сбор необходимой статистической базы данных, т. е. эмпирических (наблюдаемых) значений экономических переменных, анализ качества собранной информации.
5. Идентификация модели. На данном этапе осуществляются статистический анализ модели и оценка ее параметров.
6. Оценка качества модели. Проверяются достоверность и адекватность модели, т. е. определяется, насколько успешно решены задачи спецификации и идентификации модели, какова точность расчетов, полученных на ее основе.�
Построенная модель должна� быть адекватна реальному экономическому процессу. Если качество модели оказалось неудовлетворительным, то вновь возвращаются ко второму этапу моделирования.
Классификация видов эконометрических переменных и типов данных
В эконометрических исследованиях, как правило, используются три типа выборочных данных:
1) пространственные данные;2) временные данные;3) панельные данные.
Под пространственными данными�понимается совокупность экономической информации, относящейся к разным объектам, полученной за один и тот же период или момент времени. Пространственные данные представляют собой выборочную совокупность из некоторой генеральной совокупности.
В качестве примера пространственных данных можно привести совокупность различной информации по какому-либо предприятию (численность работников, объем производства, размер основных фондов), об объемах потребления продукции определенного вида и т. д.
Под временными данными�понимается совокупность экономической информации, характеризующей один и тот же объект, но за разные периоды времени. По аналогии с пространственной выборкой отдельно взятый временной ряд можно считать выборкой из бесконечного ряда значений показателей во времени. В качестве примера временных данных можно привести данные о динамике индекса потребительских цен, ежедневные обменные курсы валют. Временная информация естественным образом упорядочена во времени в отличие от пространственных данных.
Существуют определенные отличия временного ряда от пространственной выборки:
1) элементы динамического ряда не являются статистически независимыми, в отличие от элементов случайной пространственной выборки, т. е. они подвержены явлению автокорреляции (зависимости между прошлыми и текущими наблюдениями временного ряда);
2) элементы динамического ряда не являются одинаково распределенными величинами. Элементы динамического ряда представляют�собой набор признаков. Эти признаки связаны между собой и в эконометрической модели могут выступать в одной издвух ролей: а) в роли результативного или зависимого признака, который в эконометрическом моделировании называется объясняемой переменной; б) в роли факторного или независимого признака, который называется объясняющей переменной.
�Панельные данные�- это наблюдения за одной и той же группой экономических агентов, проведенные через определенные промежутки времени.�То есть панельные данные - это в некоторой степени обобщение временных рядов и пространственных данных. Примером панельных данных являются:�ежегодные данные показателей хозяйственной деятельности группы предприятий. В полученном массиве данных содержатся данные об однородных объектах за один и тот же период времени и последовательные значения одной экономической переменной в различные моменты времени. Важным условием сбора панельных данных является неизменность состава группы экономических агентов во времени.
Резюме по теме 1.
Становление� и развитие эконометрики� происходит на основе� передовых методов статистического анализа, а именно, на основе методов� парной и множественной регрессии, частной и множественной корреляции, выделения тренда� и других компонент временного ряда.
Широкое использование статистических методов приводит к тому, что результаты эконометрики носят вероятностный характер, но следует иметь в виду, что не существует никакой другой научной теории, которая� смогла бы дать более полную� информацию о предмете исследования� при данном объеме информации.
Вопрос
Имеются данные об итогах письменного вступительного экзамена по математике (�x�– число решенных задач из 10 возможных)� и� результаты� курсового экзамена по математике (�y�– число выполненных заданий из 7 предложенных задач) для 12 студентов. Фиксировался также пол студентов (см. таблицу, приведенную ниже).
К какому типу данных относится этот набор данных?� Какую модель можно построить, используя эти данные?
Дискретные случайные величины
Тема 2. Случайные величины. Способы задания случайных величин. Оценка генеральных показателей по данным выборочного наблюдения
Случайные величины и их числовые характеристики
В эконометрике приходится иметь дело со случайными величинами, поскольку любой из экономических или социально-экономических показателей в условиях эконометрического анализа�является случайной величиной.� Например, объем выпуска продукции предприятием в текущем месяце зависит от множества факторов и является случайной величиной. Точно также случайными величинами являются курс доллара на торгах� Московской межбанковской валютной биржи, заработная плата работника предприятия, случайным образом отобранного из генеральной совокупности и т. д.
Поэтому, перед тем как перейти к изучению эконометрики следует вспомнить некоторые сведения из математической статистики и, �в частности вспомнить, �как задаются случайные величины, какими они обладают характеристиками.
Под�случайной величиной�понимается переменная, которая в результате испытаний в зависимости от случая может принимать� любое значение из� множества своих возможных значений.
Случайная величина называется�дискретной,�если� множество� ее� возможных значений дискретно, или непрерывной, если это множество непрерывно. Пример� дискретной случайной величины:� число выстрелов� до первого попадания в цель. Пример непрерывной случайной величины: ( дальность полета артиллерийского снаряда.
Наиболее полным и исчерпывающим описанием случайной величины является ее закон распределения.
Законом распределения� случайной величины называется� всякое соотношение, устанавливающее связь между возможными значениями случайной величины и� вероятностями их реализации.
Для дискретной случайной величины закон распределения может быть задан таблицей, аналитически (в виде формулы)� и графически.
При табличном� задании закона� распределения� дискретной случайной величины� первая строка таблицы содержит� возможные значения, а вторая - их вероятности. Примером закона распределения может служить следующая таблица.
Такая таблица� называется также�рядом распределения дискретной случайной величины.
Сумма вероятностей� во второй строке таблицы всегда равна единице, поскольку в результате испытания какое-то из возможных значений случайной величины обязательно реализуется.
Пример.�� В денежной� лотерее выпущено� 100 билетов. Разыгрывается один выигрыш 500 руб. и 10 выигрышей по 100 руб. Найти закон распределения случайной величины �x– стоимости выигрыша для владельца одного лотерейного билета.
�Решение.�� Запишем возможные значения x:�� x1�=500; x2�= 100; x3�= 0.� Вероятности этих возможных значений таковы: p1�=1/100; p2�=10/100; p3�= 89/100.�� Таким образом, получаем следующий закон распределения
Полезно напомнить, что статистическая таблица, если она� содержит только возможные значения признака и количество объектов, обладающих эти признаком в изучаемой совокупности, фактически задает закон распределения случайной величины. Например, в таблице ниже� приведены данные сдачи курсового экзамена по эконометрике (данные условные).
Эта таблица задает� случайную величину (оценку наугад взятого студента курса).� То, что заданы не вероятности, а числа студентов не должно вводить в заблуждение, поскольку� можно подсчитать полное число студентов на курсе и задавать в таблице не число студентов, получивших ту или иную оценку, а долю студентов. Эта доля как раз�равна вероятности того, что наугад взятый студент с данного курса получил на экзамене тот или иной балл.�
В практике эконометрической деятельности мы, как правило, имеем дело не со случайной величиной как таковой,� а с ее реализацией на конкретном множестве примеров (как в случае с результатами сдачи экзамена из примера выше).��Результаты реализации (те значения, которые случайная величина приняла для множества объектов) позволяют�судить о�распределении случайной величины и других ее свойствах.
Математические операции над случайными величинами
Определим понятие независимости� случайных величин.
Две случайных величины называются�независимыми, если закон распределения одной из них не изменяется от того, какое возможное значения приняла другая величина.
Например.� Если имеются различные лотереи, то случайные величины X и Y,� выражающие суммы выигрыша по� билету разных лотерей, являются независимыми величинами. Если же� за X и Y� взять выигрыши двух различных билетов в одной лотерее, то эти величины окажутся зависимыми, так как при выигрыше одного билета� вероятность выигрыша других билетов уменьшается.
Рассмотрим случайную величину, имеющую распределение
1. Произведением� k�Х�� случайной величины Х� на� постоянную величину� k� называется� случайная величина�� k�Xi�, принимающая свои значения� с теми же вероятностями Pi�.
2. m-ной�� степенью� случайной величины Х называется� случайная величина��Xm,�� принимающая свои значения� с теми же вероятностями Pi�.
Пример.� Дана случайная величина Х
Найти закон распределения случайной величины� Y=X�2.
Решение.� Величина Y� принимает значения 1 и 4. Значение 1 она принимает с вероятностью 0,3, а значение 4 с вероятностью 0,2+0,5=0,7. Поэтому распределение величины� Y имеет вид:
3. Суммой (разностью, произведением)� случайных величин X� и Y� называется случайная величина� Xi+Yi�(Xi�– Yi�, Xi�Yi�)�� с вероятностями� Pij��того, что величина� Xi�� имеет вероятность� Pi��,� а величина� Yj�� вероятность� Pj�. Если случайные величины независимы, то� Pij��= Pi� � Pj�.��Пример.� Даны законы распределения двух независимых случайных величин�
Найти закон распределения случайной величины� Z = X+Y.
Решение .�Величина Z� может принимать следующие значения: 1 с вероятностью P1=0,18;�� 3� с вероятностью Р2�=0,12+0,42;� 5 с вероятностью� Р3=0,28. Поэтому закон распределения будет иметь вид:
Легко убедиться, что сумма вероятностей� действительно равна 1.
Более подробную информацию о математических операциях над дискретными случайными величинами можно найти� в руководствах по теории вероятности и математической статистике см., например, книгу Кремер Н.Ш.� Теория вероятностей и математическая статистика:� Учебник для вузов. — 2-е изд., перераб. и доп.— М.: ЮНИТИ- ДАНА, 2004. - 573 с. (электронный вариант книги� доступен по ссылке Y:/_Teacher/Эконометрика/книги).
Математическое ожидание дискретной случайной величины
Математическим ожиданием ,� или средним значением,�HYPER15�дискретной случайной величины��HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET � называется сумма произведений всех ее значений на соответствующие вероятности:
HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET
Пример.� Дана случайная величина Х
Решение.� Вычислим� среднее значение в соответствии с приведенным выше определением
HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET Свойства математического ожидания
Математическое ожидание постоянной величины� равно самой постоянной. M(C) =C.
Постоянный множитель можно выносить за знак математического ожидания: M(k�X)=k�M(X).
Математическое ожидание�� суммы� конечного числа� случайных величин равно сумме их математических ожиданий, т. е.
Математическое ожидание постоянной величины� равно самой постоянной. M(C) =C.
Постоянный множитель можно выносить за знак математического ожидания: M(k�X)=k�M(X).
Математическое ожидание�� суммы� (разности) конечного числа� случайных величин равно сумме их математических ожиданий, т. е.
HYPER15
Доказательство этого утверждения следует получить самостоятельно.
4. Математическое ожидание произведения конечного числа независимых� случайных� величин равно� произведению их математических ожиданий.
HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET
5. Математическое ожидание отклонения случайной величины от ее математического ожидания равно нулю. Доказательство этого положения следует из� п. 3.
HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET
6. Если все значения случайной величины увеличить или уменьшить на некоторое постоянное число С, то на эту же постоянную величину С изменится и математическое ожидание.
HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET
Доказательство этого�результата следует из� п. 3.
Дисперсия дискретной случайной величины
Определение.�Дисперсией D(x)� случайной величины��x� называется� математическое ожидание квадрата ее отклонения от математического ожидания:
HYPER15�которая� характеризует� степень рассеяния (разброс)�индивидуальных значений случайной величины от среднего значения. Дисперсия играет в эконометрике очень важную роль, поскольку именно разброс значений признака чаще всего играет важнейшую роль при определении ошибки, с которой определен интересующий нас показатель.
Свойства дисперсии:
Дисперсия постоянной величины равна нулю.
Изменение всех значений признака на одну и ту же величину не� изменяет величину дисперсии.
Уменьшение или увеличение всех значений признака в�� k�� раз� приводит к� уменьшению или увеличению дисперсии в� k2�� раз.4.� Дисперсия алгебраической суммы или разности конечного числа� независимых случайных величин равна сумме их дисперсий .
�Доказательство утверждений 1– 4 необходимо произвести самостоятельно.
5.� Дисперсия относительно любой величины� А�� связана с дисперсией относительно среднего значения следующим соотношением
HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET
HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET
В формуле (1.6) равенство� нулю выражения
HYPER15
следует из свойства 5. математического ожидания.
6.� Дисперсия случайной величины равна разности между� математическим ожиданием квадрата случайной величины и квадратом� ее математического ожидания.�� Действительно
HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET
HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET
Вопрос
Средняя величина случайной величины равна 15, среднее квадратическое отклонение равно 10. Чему равно среднее значение�квадрата индивидуальных значений этого признака?
Функция распределения непрерывной случайной величины
Задание закона распределения в виде таблицы неприменимо� для непрерывных случайных величин, поскольку число возможных�значений непрерывной случайной величины бесконечно.
Возможен другой подход, основанный на понятии функции распределения,�при котором задается вероятность того, что случайная величина��X примет значение меньшее, чем х.�
Определение.� Функцией распределения случайной величины�x называется функция� F(x),� которая для каждого значения� х определяет вероятность того, что случайная величина Х� примет значение меньшее нежели х . Эту� величину называют иногда� интегральной функцией распределения.
Рассмотрим общие свойства функции распределения.
1. Функция распределения случайной величины F(x) есть положительно определенная неубывающая функция, значения которой заключены между нулем и единицей:
HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET
2. Вероятность попадания случайной величины в интервал значений� [x1�, x2�] (включая х1) равна приращению функции распределения на этом интервале.
Пример 1.�
Функция распределения случайной величины имеет вид
HYPER15HYPER15
Найти вероятность того, что случайная величина примет значение� в интервале [1; 3].
Решение.
График изучаемой функции распределения имеет вид, изображенный на рисунке ниже
Рис. 1.1. Интегральная функция распределения
Исходя из определения, вероятность попадания случайной величины в интервал значений [1, 3] равна разности функций распределения�HYPER15.� Поэтому, используя график функции распределения находим значение функции F(3)�и F(1). Таким образом искомая�вероятность� равна
HYPER15
Для непрерывной случайной величины чаще задается не функция распределения F(x) , а другая величина, которая называется�плотностью вероятности�или�плотностью распределения.
Функция плотности вероятности случайной величины� Х� определяется выражением
HYPER15
где�HYPER15� интегральная функция распределения случайной величины Х.
Пример 2.
�Найти аналитический и графический вид функции плотности распределения� по заданной интегральной функции распределения� Примера 1.
Решение.
Дифференцируя функцию распределения�HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET , получаем
HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET
На рисунке ниже изображен график функции плотности распределения, определяемый формулой (2).
Рис. 1.2. График функции плотности распределения, для интегральной функции�распределения, приведенной на рисунке 1.1.�
Как следует из рисунка, плотность распределения� отлична от нулятолько� на интервале [0, 2]. Для всех других значений плотность распределения равна нулю.
Далее, легко заметить, что площадь под графиком функции плотности распределения равна единице.�Этот результат вытекает из геометрического смысла функции плотности распределения.
Функция плотности вероятности устроена таким образом, что площадь под кривой между любыми двумя ординатами��HYPER15� и�HYPER15.
Например, в нашем случае, вероятность того, что случайная величина, заданная функцией плотности распределения, изображенной на рисунке, примет значения в интервале�� HYPER15 �равна нулю, а вероятность, что она примет значения, лежащие в интервале� HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET � равна 0,5.
Площадь под всей кривой плотности распределения определяет вероятность того, что случайная величина примет любое возможное значение в интервале��HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET � и поэтому� всегда равна единице.
Нормальное распределение
Нормальное распределение широко используется в математической статистике и эконометрике как предполагаемое распределение изучаемой случайной величины в исходном наборе данных.
Центральная предельная теорема Ляпунова объясняет широкое распространение нормального закона распределения и поясняет механизм его образования.
Теорема позволяет утверждать, что всегда, когда случайная величина образуется в результате сложения большого числа независимых случайных величин, дисперсии которых малы по сравнению с дисперсией суммы, закон распределения этой случайной величины оказывается�близким к�нормальному закону.
�Поскольку в экономике и социальной сфере изучаемые�случайные величины всегда порождаются�очень большим�количеством причин и чаще всего ни одна из них не имеет дисперсии, сравнимой с дисперсией самой случайной величины, то большинство встречающихся в практике случайных величин подчинено нормальному закону распределения.
По теореме Ляпунова мы вправе ожидать, что, например, рост взрослого мужчины является случайной величиной, распределенной по нормальному закону. Эта гипотеза хорошо согласуется с наблюдениями.� В подтверждение приведем распределение по росту 1000 взрослых рабочих� мужчин� и соответствующие теоретические численности мужчин, т. е. число мужчин, которые должны иметь рост указанных групп, если исходить из предположения о распределении роста мужчин по нормальному закону.
Как следует из таблицы, эмпирические данные и расчетные значения� роста мужчин, вычисленные исходя из предположения о нормальности распределения, достаточно хорошо согласуются между собой.
Плотность вероятности нормального распределения� зависит от двухфакторов:– среднего значения��HYPER15�и имеет вид
HYPER15� и� дисперсии��HYPER15� и� дисперсии��HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET
Отметим основные свойства нормального распределения:
График плотности нормального распределения является� симметричным относительно� среднего значения.
.�Максимальное значение функция плотности распределения имеет в точке�HYPER15.
.�В промежуток�значений��HYPER15� случайная величина� попадает с вероятностью, равной единице. Поэтому площадь под кривой�плотности�нормального распределения (как, впрочем, и любого другого графика плотности распределения) равна единице.
Случайная величина, распределенная по нормальному закону, с вероятностью �0,9973 принимает свои значения в интервале��HYPER15.� Приведенный выше график плотности нормального распределения прекрасно подтверждает это правило, поскольку видимая площадь графика сосредоточена в интервале�HYPER15�т. е. как раз в интервале�HYPER15, распределенная по нормальному закону, со средним значением��HYPER15. Найдем вероятность�� попадания этой случайной величины в интервал значений�HYPER15�определяется площадью под кривой нормального распределения между ординатами��HYPER15�и�HYPER15�т. е.
�HYPER15HYPER15
Преобразуем это выражение, вводя новую переменную интегрирования
HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET
В результате� получаем:
�HYPER15
где�
HYPER15� и��HYPER15, из за чего и появился� знак� �минус� перед знаком интеграла.
Введем в рассмотрение�функцию Лапласа, которая определяется выражением
HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET
Последнее равенство в приведенном выше выражении говорит о том, что функция Лапласа является нечетной функцией своего аргумента.
Используя это определение,� можно выразить искомую вероятность через значения функции Лапласа
HYPER15HYPER15,
что позволяет пользоваться� таблицами этой функции� для нахождения вероятности попадания случайной величины� в интересующий нас интервал.
Как уже указывалось, геометрически искомая вероятность представляет собой площадь между ординатами�HYPER15� под кривой нормального распределения.
В дальнейшем мы будем использовать и другие законы распределения случайных величин. И в этих случаях вероятность попадания случайной величины в заданный интервал представляет собой площадь между�двумя заданными�ординатами�� под кривой соответствующего распределения.
Нормальное распределение называется�стандартным, если оно имеет параметры�HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET . Плотность�стандартного нормального распределения задается� формулой�
HYPER15��(см. рисунок ниже).
Рис. 1.4. График плотности стандартного нормального распределения
Наряду с задачей определения вероятности попадания случайной величины в заданный интервал значений, часто приходится решать и� обратную задачу, когда� требуется определить в каких пределах будет принимать значения случайная величина при заданной вероятности.
Пусть задана некоторая вероятность�P�, равная, для определенности,� значению 0,9545. Требуется найти такое число��HYPER15, чтобы вероятность попадания� случайной величины, имеющей стандартное нормальное распределение,� в интервал значений��HYPER15�была равна заданной вероятности.
Для решения этой задачи также можно воспользоваться� таблицами значений функции Лапласа. Здесь уместно отметить, что во многих� учебниках по статистике табулируется не функция, определенная формулой (6), а удвоенная величина,
HYPER15HYPER15
которая как раз и имеет смысл� вероятности попадания случайной величины, распределенной по стандартному нормальному закону, в интервал значений от��HYPER13HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET INCLUDEPICTURE "" \* MERGEFORMATINET �.
Фрагмент� таблицы функции Лапласа приведен на рисунке 1.5.
Рис. 1.5. Фрагмент таблицы табулированных значений функции Лапласа.�
Пользоваться такой таблицей достаточно просто. Найдем, например, в каких пределах с 95 процентной вероятностью�случайная величина, распределенная по стандартному нормальному закону, ��будет принимать свои значения.
Для ответа на этот вопрос находим в таблице значение вероятности, наиболее близкое к значению 0,95. В нашем случае есть значение 0,9500. Значение�HYPER15.
Проверка усвоения материала��
Ответьте на поставленные ниже вопросы
1. В чем состоит задаче эконометрики как науки?
�2. В чем состоит специфика применения методов математической статистики в эконометрике?
3.��Почему приходится применять статистические методы в эконометрике?
4. В чем различие экономических. математических и эконометрических подходов к моделированию социально-экономических явлений?
5. Какие задачи решаются с помощью эконометрического моделирования?
6. Какие этапы эконометрического моделирования можно выделить и в чем состоит их специфика?
7. Какие типы экономических�переменных и типов данных�используются в эконометрике?
8. Дайте возможные определения вероятности� случайного события.
9. Приведите примеры дискретных и непрерывных случайных величин в экономике.
10. Как задается дискретная случайная величина?
11. Дайте определение понятия "Закон распределения дискретной случайной величины".
12. Какие операции можно производить с дискретными случайными величинами?
13.�Какие случайных величины называются независимыми?
14. Как можно найти случайную величину, которая является суммой (разностью или произведением) двух или более независимых случайных величин?
15. Вычисление среднего значения случайной величины.� Свойства средней арифметической.
16. Дисперсия дискретной случайной величины.�Свойства дисперсии.
План лекции №�2
Тема 2. Случайные величины. Способы задания случайных величин. Оценка генеральных показателей по данным выборочного наблюдения
1. Выборочный метод. Точечная оценка генеральных параметров по выборке
2. Универсальные распределения и их роль в эконометрике. Распределение хи-квадрат.
3. Распределение Стьюдента и его свойства.
4. Распределение� Фишера.
5. Интервальная оценка параметров генеральной совокупности по выборке.
6. Многомерные статистические распределения и их использование в эконометрике.
7. Двумерное нормальное распределение. Ковариация и ковариационная матрица.
8. Что дает знание вида распределения случайной величины в эконометрике?
Тема 3. Парный корреляционный и регрессионный анализ
1. Понятие корреляционной связи.
2.��Линейный коэффициент корреляции Пирсона.
3. Интервальное оценивание коэффициента корреляции.
4. Статистическая проверка� гипотез.� Проверка гипотезы о равенстве нулю коэффициента корреляции.
�
Выборочный метод
Выборочная и генеральная совокупности
Одной из основных задач эконометрики является� проверка� пригодности экономической модели, полученная с использованием реальных статистических данных.
Однако проведение масштабных статистических исследований может быть невозможным� по целому ряду причин, например, недостаточности выделенных средств или слишком большой длительности полномасштабного наблюдения.
Поэтому широко используется так называемый выборочный метод, когда исследуется только часть статистической совокупности, а результаты исследования� обобщаются на статистическую совокупность в целом.
Генеральной совокупностью�называется множество всех возможных значений изучаемой случайной величины�� при данном комплексе условий.
Выборочной совокупностью� (выборкой) называется часть генеральной совокупности, отобранная для изучения
Числовые характеристики генеральной совокупности называются� генеральными� параметрами, а числовые характеристики выборочной совокупности –выборочными параметрами. В дальнейшем параметры генеральной совокупности мы будем снабжать дополнительным� нижним подстрочным индексом �0�: например, будет обозначать среднее значение случайной величины� в генеральной совокупности .
Поскольку в реальных условиях� всегда приходится делать заключение о качестве экономической модели на основании� выборочного наблюдения, остановимся на проблемах выборочного метода более подробно.
Чтобы по данным выборки можно было судить о� параметрах генеральной совокупности, она должна быть отобрана случайно. Случайность отбора� элементов в выборку достигается� соблюдением принципа равной возможности� для каждого элемента генеральной совокупности быть отобранным в выборку. Это условие является важнейшим для� применения выборочного метода, поскольку оно обеспечивает тождественность (одинаковость)�статистического�распределения случайной величины в генеральной совокупности и в выборке.
Различают повторную и бесповторную выборки.�При�повторной выборке� отобранный элемент возвращается в генеральную совокупность, и, таким образом, выборка не изменяет� статистических свойств генеральной совокупности.
При�бесповторной выборке�отобранный элемент в выборочную совокупность не возвращается, и число членов генеральной совокупности уменьшается� в результате� отбора� каждого нового объекта.� Случай повторной выборки значительно проще для анализа, и поэтому мы� в дальнейшем будем� считать выборку повторной, приведя лишь основные расчетные формулы, которые нужно� использовать при бесповторной выборке.
Если законы распределения случайной величины в выборке и генеральной совокупности разные, то�распространение выборочных результатов на генеральную совокупность� становится невозможным.
Несоответствие закона распределения случайной величины в генеральной и выборочной совокупности называется�ошибкой репрезентативности, которая неминуемо приводит к значительным ошибкам� выборочного наблюдения.
Пусть из генеральной совокупности� извлекают серию выборок. Естественно ожидать, что выборочные средние��могут различаться между собой. Если произвести достаточно много выборок, то можно получить и� закон распределения выборочных средних.��Таким образом, мы приходим к заключению, что�выборочные средние сами являются случайными величинами�(в отличие от генеральной средней, которая случайной величиной не является).
То же можно сказать и о других выборочных характеристиках, например дисперсии.
Точечная оценка генеральных параметров по выборке
Пусть из генеральной совокупности отобрана случайная выборка�� и требуется оценить по выборке некоторый параметр�� наблюдаемой случайной величины��. Поскольку� чаще всего� случайная величина в генеральной совокупности распределена по нормальному закону, то оцениваемыми параметрами являются математическое ожидание�� и среднее квадратическое отклонение��.Точечной� оценкой��параметра��называется числовое значение, полученное по выборке объемом n. Любую оценку�� называют� статистикой или статистической оценкой� параметра��.
Число�, равное,��называют�точностью оценки.�
Естественно таким образом определить оценку, чтобы она была наиболее точной при данном объеме выборки.�Приведем основные требования,� выполнимость которых желательна для удовлетворительной оценки.1.�Математическое ожидание для оценки должно быть равно истинному значению параметра�� Такая оценка называется�несмещенной.2.�Лучшей является�та�оценка, для которой дисперсия��является минимальной. Такая оценка называется�эффективной.
3.�Оценка должна быть�состоятельной. Это свойство оценки означает, что при� увеличении объема выборки оценка параметра�� сколь угодно близко приближается к истинному значению параметра�. Более строго:� оценка�� называется состоятельной, если она сходится по вероятности к значению оцениваемого параметра�� при безграничном возрастании объема выборки�т. е.�оценка �является состоятельной� тогда и только тогда, когда для любого положительного числа��,� справедливо предельное соотношение
HYPER13 HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET .
Выборочная средняя является несмещенной оценкой генеральной средней. Для доказательства этого положения� определим выборочную среднюю формулой
Будем рассматривать��как независимые случайные величины, взятые из генеральной совокупности (мы можем рассматривать�� как реализацию значения одной�случайной �величины или как реализацию значений��случайных величин, имеющих одно и то же распределение).
�Эти случайные величины имеют одинаковые параметры распределения (дисперсию и среднее значение).
Тогда, записывая формулу�математического ожидания выборочной средней получаем
� имеет то же распределение, что и случайная величина�� в генеральной совокупности.�� Отсюда и следует� результат��
HYPER13 HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET .
�Дисперсия выборочной средней
Найдем дисперсию выборочной средней�.�� Будем рассматривать выборочные средние� как случайные величины. Тогда дисперсию средней арифметической�� одинаково распределенных случайных величин�� можно найти по формуле
HYPER15�
В этом выражении символом��обозначена дисперсия аргумента, а��дисперсия в генеральной совокупности. Полученный результат пока не пригоден для практического использования, поскольку дисперсия в генеральной совокупности� сама является неизвестной величиной и ее нужно оценить по результатам выборочного наблюдения.Результат, приведенный в формуле (2.2), справедлив лишь для�повторной выборки, когда объем генеральной совокупности в результате отбора объектов в выборочную совокупность не меняется.
�В случае�бесповторной выборки� необходимо учесть уменьшение объема генеральной совокупности.� Можно показать, что в этом случае вместо формулы (2.2), получим�
HYPER13 HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET
Чтобы формулы (2.2) и (2.2а) можно было использовать на практике, нужно оценить� генеральную дисперсию. Самый простой способ получить такую оценку – это заменить генеральную дисперсию выборочной (такая оценка называется точечной (одним числом). Если объем выборки достаточно мал, то�точечная оценка� может оказаться слишком грубой, поскольку она занижает значение генеральной дисперсии, приводя к систематической ошибке (говорят, точечная оценка генеральной дисперсии по выборке является смещенной).�
Более правильно в этом случае для оценки генеральной дисперсии по выборке взять исправленную выборочную дисперсию, математическое ожидание которой совпадает с генеральной дисперсией. Для получения такой оценки найдем математическое ожидание выборочной дисперсии�
��. В результате получаем следующее выражение
� как независимые случайные величины��, имеющие один и тот же закон распределения с числовыми характеристиками��. Тогда математическое ожидание первого члена в правой части (2.4) равно
HYPER13 HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET
HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET
Найдем математическое ожидание второго члена в правой части (2.4):
HYPER13 HYPERLINK "" \o "TeX" INCLUDEPICTURE "" \* MERGEFORMATINET
При выводе формулы (2.6) мы учли, что дисперсия выборочной средней есть математическое ожидание квадрата отклонения выборочной средней от генеральной средней.
Окончательно, учитывая полученные результаты,� для математического ожидания выборочной дисперсии находим
.
Последнее выражение позволяет получить несмещенную оценку генеральной дисперсии по выборочной. Действительно, выражая�� из формулы (2.7), получаем
�– это исправленная выборочная дисперсия.Для� больших объемов выборки�� обычно не учитывают корректировочный множитель�, и для� оценки генеральной дисперсии просто полагают ее равной выборочной дисперсии. Отметим, что формула (2.8) справедлива для повторной и бесповторной выборок.
Вопрос
Ректорат академии хотел бы выяснить долю студентов дневного отделения, которые имеют� доступ к работе с персональным компьютером вне стен академии (например, дома). Случайная выборка 150 студентов выявила, что 105 из них имеют такой доступ. Чему равно среднеквадратическое�отклонение выборочной� доли студентов, имеющих компьютер вне стен академии�в этом случае, если� на дневном отделении числится� 1260 студентов?
Указание.�Для вычисления дисперсии числа студентов, имеющих компьютер дома,�используйте формулу расчета дисперсии доли.
Универсальные распределения и их роль в эконометрике
Понятие� универсального распределения
Рассмотрим несколько основных законов распределения, составляющих необходимый математический аппарат для построения в дальнейшем статистических критериев и оценок, применяемых в эконометрике.Причиной, по которой рассматриваемые� ниже распределения играют заметную роль в статистике, является универсальность.
�Универсальность распределений�проявляется в том, что для их построения не нужно задавать параметры, как для нормального распределения (напомним, что нормальное распределение задается двумя параметрами: – средним значением и дисперсией).
Универсальные распределения однозначно определяются лишь величинами, которые обычно известны и поэтому закон распределения такого рода случайных�величин известен в условиях проводимого исследования.
При изучении курса эконометрики мы столкнемся с достаточно большим числом различных распределений, которые используются для проверки� различного рода статистических гипотез.��В этой лекции мы не будем пытаться� рассмотреть� их все и�обсудим лишь� наиболее известные (распределения хи-квадрат,� Стьюдента и� Фишера), что позволит нам познакомиться с методом испытания статистических гипотез – одним из основных методов проверки достоверности получаемых результатов в эконометрике.
Распределение��(хи-квадрат)
Распределением��(хи-квадрат) с�k�степенями свободы� называется распределение суммы квадратов�k независимых случайных величин, распределенных по стандартному нормальному закону
�� имеют стандартное нормальное распределение с математическим ожиданием, равным 0, и дисперсией,� равной 1.
Случайные величины, распределенные по закону хи-квадрат, достаточно часто возникают в практике эконометрического моделирования.
В качестве примера рассмотрим такую ситуацию. Пусть��– случайная выборка объема�k�из нормально распределенной генеральной совокупности со средним значением��и дисперсией�.� Приведем эти величины к стандартному виду путем преобразования�
Очевидно, что величины�� подчиняются стандартному нормальному распределения, а величина,
распределена по закону��.
Функция плотности распределения хи-квадрат зависит лишь от одного параметра – числа степеней свободы�k.�Числом степеней свободы�k� распределения называется число независимых значений случайной величины. Это число равно числу наблюдений (числу значений случайной величины)�n� за вычетом числа уравнений связи�l,�которые накладываются на эти наблюдения.
Например, если�в формуле (2.11) все значения��независимы, то распределение имеет��k� степеней свободы. Если же c использованием этих же�k �наблюдений�делаются оценки параметров генеральной совокупности (точечная оценка генеральных параметров по выборке), то на�k наблюдений накладываются два уравнения связи:
HYPER15
и, следовательно число независимых наблюдений� будет� .
Пример 2.1
Менеджер компании� имеет бюджет 150 000 тыс. рублей на четыре проекта. Сколькими степенями свободы обладает распределение средств по четырем проектам?
РешениеОчевидно, что в данном случае� только бюджеты трех проектов являются независимыми величинами. Как только бюджеты трех проектов распределены, то у менеджера не остается выбора, и четвертому проекту будет выделен лишь остаток средств. Таким образом, это распределение имеет три степени свободы.На рисунке�ниже изображено� распределение��для� различных степеней свободы.
Рис. 2.1. Графики плотности случайной величины, распределенной по закону хи-квадрат, для различных значений числа степеней свободы�
Как видно из рисунка, это распределение асимметрично, но асимметрия уменьшается с ростом числа степеней свободы.�При неограниченном увеличении числа степеней свободы распределение�� приближается к нормальному распределению.Математическое ожидание и дисперсия этого распределения равны числу степеней свободы и удвоенному числу степеней свободы, соответственно:��
�.
Распределение Стьюдента
Предположим, что было произведено большое число выборок�� из нормально распределенной генеральной совокупности, и для каждой из выборок получены выборочные средние��.
Известно, что если объем выборок достаточно велик, то выборочные средние распределены по нормальному закону со средним значением,� равным генеральной средней��, и средним квадратическим отклонением��.� В этом случае�случайная�величина�
��
подчиняется стандартному нормальному закону.�
В� большинстве случаев значение генеральной дисперсии неизвестно. Поэтому естественно заменить генеральную дисперсию ее оценкой по выборке согласно формуле (2.8). В результате получим новую случайную величину
. Открыл и подробно изучил это распределение английский статистик� В. Госсет (Стьюдент) еще в 1908 г.
Формулу (2.13) для плотности распределения Стьюдента можно� с помощью алгебраических преобразований представить и в другом виде:
. В результате деления одной случайной величины на другую получается случайная величина, имеющая распределение Стьюдента.
Распределение Стьюдента� зависит от одного параметра – числа степеней свободы�k=n-1� . Одна степень свободы здесь теряется, поскольку�� наблюдений связаны одним уравнением, задающим среднее значение при вычислении дисперсии в формуле (2.14).
Генеральная средняя��и генеральная дисперсия ��в формуле (2.14) предполагаются известными величинами.
Уже по способу построения ясно, что распределение Стьюдента очень походит на стандартное нормальное распределение. Ниже представлены графики плотности распределения Стьюдента для двух разных значений числа степеней свободы
Рис. 2.2. Графики плотности распределения Стьюдента для�двух различных значений числа степеней свободы:�k�=1 и�k�=30
При значениях числа степеней свободы�k�>30�� график плотности распределения Стьюдента� практически не изменяется и совпадает по виду с графиком стандартного нормального распределения.
Математическое ожидание и дисперсия� случайной величины, распределенной по закону Стьюдента, �соответственно равны:
��
В этой формуле��k– число степеней свободы распределения Стьюдента.
Распределение Фишера
Часто возникает необходимость установить, являются ли дисперсии двух или более распределений равными. Для ответа на этот вопрос используется� так называемое�F�– распределение.
Предположим, что существуют две генеральные совокупности, в каждой из которых случайная величина распределена нормально. Пусть для первой совокупности речь идет о случайной величине��Xс дисперсией��, а для второй совокупности – о случайной величине�Y�с дисперсией�. Из этих совокупностей извлечены две выборки объема��и��.� Для каждой из выборок можно вычислить�исправленные выборочные дисперсии��и��. Тогда случайная величина��F, определенная� ниже,
�, с числами степенями свободы�� и��. Формулу (2.15)� поэтому можно переписать в виде
�и�,� распределения� с��и�� степенями свободы. F�-распределение имеет асимметричную функцию плотности распределения и зависит от двух параметров� –��и�.� Среднее значение и дисперсия случайной величины, имеющей��F�-распределение определяются выражениями:
Графики этого распределения для различных значений чисел степеней свободы�показаны на рисунке 2.3
Рис. 2.3. Плотность распределения Фишера�для различных значений параметров
Распределение Фишера широко используется в регрессионном анализе для проверки статистических гипотез о статистической значимости регрессионной модели в целом.
Вопрос
Из одной генеральной совокупности взяты две выборки, объемом�31 и 16 единиц. Исправленная дисперсия в первой выборке�, во второй —�. Какое распределение будет иметь случайная величина, равная отношению двух выборочных дисперсий? Чему будет равно значение этой случайной величины в приведенных выше условиях эксперимента?
Интервальное оценивание параметров генеральной совокупностиЗачем нужна интервальная оценка параметров генеральной совокупности?
Точечная� оценка может быть близка к оцениваемому параметру, а может и сильно отличаться� от него.� Кроме того, точечная оценка не несет информации о точности процедуры оценивания и, вообще, точечная оценка генеральных параметров по выборке является случайным числом. Поэтому эту величину нельзя выдавать как результат исследования.
�По этой причине в эконометрике, как правило,� используется интервальная оценка параметров генеральной совокупности по данным выборочного наблюдения; т. е. для каждого оцениваемого параметра определяется интервал значений (верхнюю и нижнюю границу) внутри которого он будет находиться с заданной вероятностью (доверительной вероятностью).� Доверительную вероятность можно задать по своему усмотрению, но нужно помнить, что чем выше доверительная вероятность, тем шире будет доверительный интервал.
Пусть имеется� выборка объемом�n� и величина�� является� статистической оценкой параметра��.
Величину�� называют предельной ошибкой выборки. Доверительной вероятностью оценки��называют� вероятность, с которой выполняется неравенство��. Иначе говоря,
�
Доверительную вероятность выбирают достаточно большой:��.�� Иногда вместо доверительной вероятности вводят понятие уровня значимости�, который равен вероятности� того,� что отклонение оцениваемого параметра� от истинного значения оказалось больше предельной оценки�.Можно дать следующее определение интервальной оценки.�Интервальной оценкой параметра�� называется числовой интервал (�), который с заданной вероятностью�� накрывает неизвестное значение параметра�. Важно отметить, что�� и�� определяются по выборочному наблюдению.
Интервальная оценка генеральной средней
Построим доверительный интервал для генеральной средней в случае, когда� генеральная дисперсия является неизвестной величиной и должна оцениваться по выборке. Если объем выборки достаточно велик, то для оценки генеральной дисперсии, как показано выше, можно использовать выборочную дисперсию, полагая��
Будем считать, что объем выборки�n�>30� и изучаемая случайная величина распределена в генеральной совокупности по нормальному закону. В этих условиях можно считать, что�случайная величина
�подчиняется стандартному нормальному закону распределения.
Зададим предельную допустимую ошибку�� (полуширину интервала оценки)� и доверительную вероятность��. Найдем� интервал значений��,��в который с заданной вероятностью�� попадет случайная величина (2.17), распределенная по� стандартному нормальному закону (рис.2.4).
Рис. 2.4. Интервал значений��, внутри которого с вероятностью��
будет находиться случайная величина, распределенная по закону (2.17)
Геометрический смысл поставленной задачи ясен из рисунка 2.4. Аналитическое решение может быть получено с помощью таблиц� функции Лапласа (фрагмент такой таблицы приведен на рис. 2.5).
Рис. 2.5 Фрагмент таблицы табулированных значений функции Лапласа.
В приведенной таблице затабулированы значения интеграла
который равен площади под графиком плотности стандартного нормального распределения между ординатами��(на рисунке 2.4 эти ординаты отмечены как�).
Используя таблицу функций Лапласа можно�найти значения�. Поскольку функция Лапласа симметрична, то всегда��. Поэтому в таблице приведены только положительные значения. Иногда такого рода�таблицы называют таблицами критических точек распределения (в данном случае стандартного нормального), имея в виду то, что в таблице приведены предельные значения�случайной величины, имеющей данное распределение, которые она может принять при заданной доверительной вероятности.
Как пользоваться�таблицами функции Лапласа? Допустим, что мы хотим узнать, в каких пределах будет�принимать свои�значения �случайная величин, распределенная по стандартному нормальному закону, с вероятностью 0,95. Для этого в таблице ищем это значение (или ближайшее к нему, если точно такого значения нет)�в массиве табличных данных. В нашем случае значение 0,9500 находим в третьей снизу строке таблицы. Критическая тока� стандартного нормального распределения с точностью до одной десятой приведена в крайнем левом столбце таблицы, а поправка,� позволяющая найти сотые доли значения критической точки, приведена во второй строке таблицы. Поэтому� находим, что при доверительной вероятности 0,95 критическая точка стандартного нормального распределения равна 1,96.Таким образом,� случайная величина� (2.17) с вероятностью 0,95 попадет в интервал значений (–1,96 — 1,96). Для� определения интервала� оценки будем считать, что� реализуется наихудшая ситуация, и�примем, что��.�� Тогда, учитывая, что в числители формулы (2.17) стоит величина�, равная ошибке выборочного метода, находим:
или, с учетом того, что�.
Учитывая формулы (2.18), (2.18а) можно��найти ширину доверительного интервала�� для неизвестного значения генеральной средней с�заданной доверительной вероятностью�
.
Напомним, что в формулах (2.18), (2,19)��– это среднеквадратическое отклонение выборочных средних, которое может быть оценено по результатам выборочного наблюдения:
Результаты (2.18), (2.19) справедливы лишь при большом числе наблюдений. При малом числе наблюдений, как уже отмечалось в разделе, посвященном распределению Стьюдента, случайными величинами�в формуле (2.17)�следует считать не только�выборочное среднее��, но и выборочная дисперсия��.� В этом случае случайная величина (2.17)�подчиняется не стандартному нормальному распределению, а распределению Стьюдента с числом степеней свободы��.
В�этом случае все рассуждения, приведшие нас от формулы (2.17) к результату (2.19), остаются в силе, но��теперь должно вычисляться с использованием критических точек распределения Стьюдента (фрагмент такой таблицы приведен на рисунке 2.6).
Рис. 2.6. Фрагмент таблицы критических точек распределения Стьюдента
Допустим, что мы столкнулись с ситуацией, когда число наблюдений невелико и��.� Тогда при доверительной вероятности��и��по приведенному выше фрагменту таблицы, находим��.�
Таким образом, если число наблюдений невелико и приходится использовать распределение Стьюдента для оценки параметров генеральной совокупности, ширина интервала оценки зависит от� числа наблюдений. Чем меньше число наблюдений, тем большим получается интервал для оценки.
Пример 2.2
Аналитик фондового рынка� оценивает среднюю доходность определенных акций.� Случайная выборка 15 дней показала, что средняя доходность�� со средним квадратическим отклонением�� . Предполагая, что доходность акций подчиняется� нормальному закону распределения, построить 95% - й доверительный интервал для средней доходности рассматриваемого вида акций.
РешениеПоскольку объем выборки� невелик, то для построения доверительного интервала следует использовать случайную величину (2.17), которая имеет распределение Стьюдента с числом степеней свободы��.
�Критическое значение�� статистики Стьюдента, соответствующее уровню значимости 0,05 (доверительная вероятность 0,95), найдем� по таблицам критических точек распределения Стьюдента:��. Этот же результат можно получить при использовании электронных таблиц Excel, если�вызвать функцию СТЬЮДРАСПОБР(0,05;14) с параметрами:� 0,05 – уровень значимости� и 14 – число степеней свободы распределения. Эта функция как раз возвращает критическую точку� распределения Стьюдента� при заданном уровне значимости и числе степеней свободы (здесь возвращается более точный результат, который с точностью до трех знаков после запятой, дает��.�Таким образом, 95% - й доверительный интервал для доходности� рассматриваемых активов будет
Производя необходимые вычисления, окончательно получаем, что ожидаемая доходность актива будет с вероятность 95%� находиться в интервале� от 8,363 % до 12,376 %.
�Доверительный интервал среднего квадратического отклонения
Пусть генеральная совокупность характеризуется нормальным распределением с параметрами�, которые предполагаются неизвестными. По выборке найдены точечные оценки этих параметров:
�.Требуется построить доверительный интервал, который с заданной доверительной вероятностью� накроет неизвестное значение дисперсии в генеральной совокупности.Для решения этой задачи рассмотрим случайную величину
которая имеет распределение хи-квадрат с��степенями свободы (сравните это выражение с формулой (2.11). Отметим, что распределение (2.20) имеет число степеней свободы на единицу меньше, нежели распределение (2.11), поскольку в формуле (2.11) генеральная средняя предполагалась известной величиной, а в формуле (2.20) используется выборочное среднее, которое вычисляется по данным той же выборки.
Для� построения интервальной оценки генеральной дисперсии следует найти интервал�,� внутрь которого с заданной вероятностью�� попадет значение случайной величины (2.20). На рисунке�2.7� показано как следует выбрать этот интервал.
Рис. 2.7. Определение квантилей распределения��уровней��при доверительной вероятности�
Величина�� на рисунке 2.7 является�квантилем уровня�, а величина��квантилем уровня��распределения хи-квадрат.
Квантилем�уровня��случайной величины�� называется такое значение этой�случайной величины, при котором интегральная функция�ее�распределения� принимает значение, равное�.
В частности, квантиль уровня��в нашей задаче� определяет вероятность того, что случайная величина, распределенная по закону��примет значение неньшее или равное�, а квантиль уровня��вероятность того, что случайная величина примет значение меньшее или равное�.
В принципе, не обязательно пользоваться понятием квантилей распределения.
Правую критическую точку�� выбираем, так чтобы вероятность того, что случайная величина�� примет значение большее, нежели��, была равной��(эта вероятность равна площади под кривой распределения справа от��). Правую критическую точку� легко можно найти по таблицам критических точек распределения��или с помощью функции�� ХИ2ОБР�электронных таблиц Excel. В этой формуле�� – число степеней свободы.�
Аналогично находится и левая критическая точка. Нас интересует такая точка�� распределения��, справа от которой площадь под кривой распределения оказалась бы равной��. Поэтому
ХИ2ОБР
После того, как левая и правая� критические точки распределения найдены,�используя формулу�(2.20), находим нижнюю и верхнюю границы интервальной оценки дисперсии в генеральной совокупности
Пример 2.3
Используя условия примера 2.2, найти доверительный интервал для среднего квадратического отклонения доходности акций с уровнем значимости 0,05.
РешениеНа основании результата (2.21), найдем интервальную оценку дисперсии доходности акций. Используя значения��, находим��ХИ2ОБР(,��ХИ2ОБР(.� Подставляя полученные значения в (2,21) и учитывая, что� выборочное значение дисперсии в условиях задачи�, получаем�
Извлекая квадратный корень, находим оценку для среднеквадратического отклонения:�
Вопрос
В рекламном проспекте утверждается, что месячная зарплата сотрудников фирмы составляет�1000 долларов� при стандартном отклонении�100 долларов. Выборка из 36 человек дала следующие результаты�средняя �зарплата по выборке 900 долларов, а среднеквадратическое отклонение 150 долларов.�Можно ли по результатам проведенных наблюдений с вероятностью 95% утверждать, что средняя зарплата сотрудников меньше� рекламируемой, а разброс� в зарплатах больше?
Для ответа на поставленные вопросы найдите� интервальную оценку для средней�значения и�среднеквадратического отклонения зарплаты. Если данные рекламного проспекта�оказываются внутри интервала оценки соответствующего параметра,�то данные� рекламы подтверждаются проверкой.�
Многомерные случайные величины.
Взаимосвязи экономических переменных
Одной из центральных задач экономического анализа является предсказание либо прогнозирование развития некоторого экономического объекта при созданиитех или иных условий. Поняв глубинные движущие силы исследуемого процесса, можно научиться рационально управлять его развитием.
Поведение и значение любого экономического показателя зависят практически от бесконечного количества факторов, и все их учесть нереально. Но в этом и нет необходимости. Обычно среди факторов, воздействующих на исследуемый экономический показатель, существует лишь ограниченное количество тех, влияние которых действительно существенно.�
Доля оставшихся факторов столь незначительна, что их игнорирование не может привести к существенным отклонениям в поведении исследуемого объекта. Выделение и учет в модели лишь ограниченного числа реально доминирующих факторов и является серьезной предпосылкой для качественного анализа, прогнозирования и управления ситуацией.
�В естественных науках большей частью имеют дело со строгими (функциональными) зависимостями, при которых каждому значению одной переменной соответствует единственное значение другой.
Однако в подавляющем большинстве случаев между экономическими переменными таких зависимостей нет. Например, нет строгой зависимости между доходом и потреблением, ценой и спросом, производительностью труда и стажем работы и т. д.� Это связано с целым рядом причин и, в частности, с тем, что, во-первых, при анализе влияния одной переменной на другую не учитывается целый ряд других факторов, влияющих на нее; во-вторых, это влияние может быть не�прямым, а проявляться через цепочку других факторов; в-третьих, многие такие воздействия носят случайный характер и т. д. Поэтому в экономике говорят не о функциональных, а о корреляционных, либо статистических зависимостях.� Нахождение, оценка и анализ таких зависимостей, построение формул зависимостей и оценка их параметров являются одним из важнейших разделов эконометрики.
Таким образом, изучая экономические явления, мы сталкиваемся с многомерными случайными величинами, а не с одномерными, которые мы изучали до сих пор.
Определение, способы задания и свойства многомерных случайных величин
Упорядоченный набор��случайных величин называется�многомерной (n-мерной) случайной величиной или�n-мерным случайным вектором.
Например погода в некотором месте может быть охарактеризована: временем года, временем суток, температурой,�давлением, влажностью,�силой ветра, облачностью, и т. д. Каждая из этих характеристик является случайной величиной, а все вместе они задают многомерную случайную величину.�
Многомерные случайные величины, также как и одномерные, задаются с помощью законов распределения. Для дискретной многомерной случайной величины законом распределения является таблица, в которой приведены, так называемые, совместные вероятности.�
Например, изучалась степень усвоения курса �Основы информатики и� вычислительной техники��учениками школ Москвы. Здесь одна случайная величина – тип школы, вторая – степень усвоения предмета. Статистическое распределение двумерной случайной величины, полученное в этом случае�приведено на рисунке 2.8.
�� Рис. 2.8. Двумерное�статистическое распределение учеников по типам школ и степени усвоения курса информатики
На пересечении строк, задающих тип школы, и столбцов, задающих градации степени усвоения курса, приведены�совместные вероятности�(вероятности данного сочетания признаков).
В столбце "Вероятность встретить ученика данного типа школы" приведена условная вероятность для случайной величины "Тип школы", представляющая собой сумму совместных вероятностей в каждой из строк таблицы.
В строке "Вероятность данной градации усвоения курса" приведена�условная вероятность��для случайной величины "Степень усвоения предмета".
Естественно, что сумма всех совместных вероятностей, и сумма условных вероятностей равны единице.
Непрерывное многомерное распределение, точно также, как и непрерывное одномерное, задается с помощью функции распределения или функции плотности распределения.
Функцией распределения��n–мерной случайной величины��называется функция�, задающая вероятность совместного выполнения�n�неравенств:��Иначе говоря,
Свойства многомерной функции распределения точно такие же, как и у одномерной. Главным из них является то, что это возрастающая с ростом аргументов функция, меняющаяся в пределах от нуля (когда все аргументы равны�) до единицы, (когда все аргументы равны�).
Как и в одномерном случае, значительно чаще используется на практике�не функция распределения, а функция плотности распределения.
В дальнейшем, для упрощения записи и более наглядного изложения ограничимся рассмотрением двумерной случайной величины�.
Плотностью распределения (плотностью вероятности или совместной плотностью)�двумерной случайной величины��называется ее вторая смешанная производная по аргументам от функции �распределения�:
Основные свойства многомерной случайной величины точно такие же, как и�у одномерной�случайной величины:
1. Функция плотности распределения нормирована на единицу. В двумерном случае это записывается так
�
2. Функция�распределения�может быть найдена интегрированием�функция плотности��распределения��
3. Плотность распределения одной из�одномерных составляющих� многомерной случайной величины�можно найти, �проинтегрировав плотность�многомерного�распределения� в бесконечных пределах (�) по всем другим переменным.�В двумерном случае�можно получить два�закона распределения��
Условным законом распределения�одной из одномерных составляющих двумерной случайной величины�� называется ее закон распределения, вычисленный при условии, что друга составляющая приняла определенное значение или ее числовое значение�находится внутри заданного интервала.
Для того, чтобы лучше понять смысл условного распределения, рассмотрим снова пример двумерной�дискретной случайной величины, закон распределения которой приведен на рисунке 2.9
Рис. 2.9. Пример распределения двумерной случайной величины
�Закон распределения случайной величины�X��при условии, что случайная величина�Y�приняла значение 2, получим, разделив совместные вероятности�� на вероятность того, что величина�Y�приняла значение 2 т. е. на 0,2. В итоге получаем следующее распределение
Рис. 2.10. Условное распределение��для двумерного распределения на рис. 2.9
Этот пример позволяет записать общие�правила для��записи условного распределения для�произвольного двумерного распределения��.�
Вероятности, с которыми случайная�� величина�X�будет принимать свои значения� при условии, что случайная величина�Y�оказалась�равной��определяется выражением
Аналогично, вероятности, с которыми случайная�� величина�Y�будет принимать свои значения� при условии, что случайная величина�X�оказалась�равной��определяется выражением
Для непрерывных распределений правила построения уловных распределений задаются аналогами формул (2.24), (2.25)
Числовые характеристики условных распределений: условное� математическое ожидание�� и условная дисперсия��находятся по обычным формулам математической статистики, нужно лишь� использовать условные вероятности или условные плотности вероятности.
Условное математическое ожидание случайной величины�Y�при условии, что�X�=�x �т. е.��называется функцией регрессии�Y�по�X�.�Следует подчеркнуть, что��является функцией неслучайной� величины�х.
Аналогично можно определить и функцию регрессии�X�по�Y�.
Графики этих функций называются линиями (кривыми) регрессии�Y�по�X� или�X�по�Y�.
Зависимость между двумя случайными величинами называется��вероятностной (стохостической или статистической), если каждому значению одной из них соответствует определенное (условное) распределение другой из них (например, зависимость между�урожайностью зерновых культур и количеством внесенных удобрений – статистическая.
Независимыми случайными величинами��называются такие величины для которых условное распределение одной величины не зависит от того, какое значение приняла другая величина. Очевидно, что в этом случае имеют место�следующие соотношения для функции распределения и плотности функции распределения
Можно утверждать также, что независимость двух случайных величин�X�и�Y�означает, что� условные плотности вероятности каждой из них совпадают с� соответствующими �безусловными� плотностями вероятности.
Вопрос
На рисунке 2.9 приведено двумерное распределение.�Найдите условное распределение случайной величины� Y, если случайная величина� X приняла значение, равное�1.�Чему равна условная�вероятность��при �?
Ковариация и корреляция. Ковариационная матрица. Двумерное нормальное распределение Коэффициенты ковариации и корреляции.
�Ковариационная и корреляционная матрицы и их свойства
Пусть имеется двумерная случайная величина (X,Y) распределение которой известно.
Тогда можно вычислить математические ожидания
.
и дисперсии
.
Однако математические ожидания и дисперсии случайных величин X и Y недостаточно полно характеризуют двумерную случайную величину�(Х, Y), так как не выражают степени зависимости ее составляющих�X�и�Y. Эту роль выполняют ковариация и коэффициент корреляции.
Определение. Ковариацией (или корреляционным моментом)��случайных величин�X�иY�называется математическое ожидание произведения отклонений этих величин от своих математических ожиданий, т. е.
Для дискретного двумерного распределения формула (2.27) будет иметь вид
а для двумерного непрерывного распределения
В случае n-мерной случайной величины, строго говоря, следует определять не коэффициент ковариации, а ковариационную матрицу, компоненты которой определяет силу взаимосвязи отдельных составляющих многомерной случайной величины.
В формуле (2.28) матричные элементы��– это коэффициенты ковариации, определенные для�i-той и�j-той составляющих многомерной случайной величины.
Диагональные элементы ковариационной матрицы�, как следует из формул (2.27а), (2.27b), представляют собой дисперсию�i-той компоненты многомерной случайной величины, а недиагональные компоненты��описывают взаимосвязь�i-той и�j-той составляющих многомерной случайной величины.
Элементы ковариационной матрицы являются размерными величинами и их численное значение зависит от единиц измерения случайной величины и поэтому пользоваться коэффициентами ковариации для определения силы взаимосвязи случайных величин крайне затруднительно.
Этого недостатка лишен�коэффициент корреляции, который определяет взаимосвязь стандартизованных случайных величин. Для коэффициента корреляции двух случайных величин, имеем
�
Для n-мерной случайной величины безразмерной характеристикой взаимосвязи является матрица коэффициентов корреляции
Или в матричной форме
Можно доказать несколько простых свойств для коэффициентов ковариации и корреляции (доказательство этих свойств следует получить самостоятельно).
1. Ковариационная и корреляционная матрицы являются симметричными относительно главной диагонали.
2. Для независимых случайных величин�матрицы коэффициентов ковариации и корреляции являются диагональными (все недиагональные элементы матрицы равны нулю).�
3. Если между двумя случайными величинами��, существует линейная взаимосвязь,� то их коэффициент корреляции, взятый по модулю, равен единице�.
4. Из независимости двух случайных величин следует, что их коэффициент корреляции равен нулю. Однако обратное утверждение не справедливо. Из равенство нулю коэффициента корреляции между двумя случайными величинами��не следует их независимость.
Многомерное�нормальное распределение
При рассмотрении различных моделей эконометрического анализа часто предполагается, что распределение всех или некоторых признаков в генеральной совокупности является нормальным. Каждый из признаков, как правило, принимает свои значения случайным образом, т. е.� является случайной величиной.
Если все признаки образуют независимые случайные величины, распределенные по нормальному закону, то многомерная случайная величина (для определенности�k-мерная) будет иметь распределение, которое представляет собой простое�произведение�k�одномерных�нормальных распределений, каждое из которых характеризуется своим средним значением��и дисперсией�.
Для зависимых случайных величин, каждая из которых имеет нормальный закон распределения, многомерным нормальным распределением называется распределение, имеющее следующий вид:
В формуле (2.32)��– определитель ковариационной матрицы,��обратная ковариационная матрица,�– вектор-столбец отклонений случайной величины��от соответствующего среднего значения�:
�– вектор-строка, получающаяся транспонированием вектор-столбца (2.33).
Число параметров, от которых зависит k-мерное нормальное распределение достаточно легко подсчитать, поскольку такими параметрами являются�k�средних значений и независимые компоненты ковариационной матрицы, число которых для симметричной�k-мерной матрицы равно�. Таким образом,�k-мерное нормальное распределение зависит от�.
Легко проверить, что в одномерном случае эта формула дает правильное значение, равное двум.
Покажем, что в одномерном случае формула (2.32) совпадает с формулой (1.13).
Действительно, в этом случае ковариационная матрица содержит всего лишь один элемент��.�Тогда и�определитель этой матрицы�, а обратная матрица�.
Подставляя полученные значения в выражение (2.32), получаем хорошо известный результат
�
Двумерное нормальное распределение
Используя выражение (2.32),� получим плотность нормального двумерного распределения.
Ковариационная матрица в этом случае, согласно (2.28) имеет вид
а определитель этой матрицы
При записи последнего выражения мы учли, что�
Элементы обратной матрицы, как известно, ищутся по правилу
где��это алгебраическое дополнение для элемента��ковариационной матрицы.
Применяя это правило� для нашего случая, получаем:
Для�записи выражения в показателе экспоненты формулы (2.32)� необходимо произвести последовательное перемножение матриц.
�
Напомним, что диагональные элементы ковариационной матрицы�, как следует из формул (2.27а), (2.27b), представляют собой дисперсии��соответствующей компоненты�двумерной �случайной величины�, а величина
�
Разделив числитель и знаменатель формулы� (2.38) на�, запишем это�выражение� в следующей форме
Нормировочный множитель перед экспонентой в формуле (2.32) с учетом того, что�k�= 2 и определитель ковариационной матрицы� определяется формулой (2.35), можно записать в виде
Учитывая результаты (2.32), (2.39), (2.40), можно записать результат для нормального двумерного распределения в следующем виде
Из выражения (2.41) следует, что плотность двумерного нормального распределения зависит от пяти параметров: двух средних значений, двух среднеквадратических отклонений и коэффициента корреляции;
�
При построении регрессионных моделей в эконометрике чаще приходится иметь дело с условными распределениями многомерной случайной величины.
Можно доказать, что если исходное многомерное распределение является нормальным то всевозможные условные распределения, получающиеся при фиксированных значениях компонент �распределения, также являются нормальными.�
Что дает знание закона распределения изучаемой случайной величины?
Строго говоря, вопрос, вынесенный в заголовок этого пункта, является риторическим, но поскольку его в той или иной форме студенты задают достаточно часто, следует, видимо, еще раз акцентировать внимание на этом моменте.
С одной стороны все достаточно просто. Закон распределения однозначно определяет и дает максимально� полное описание случайной величины. Иными словами, закон распределения это способ задания случайной величины. Если закон распределения изучаемой величины известен, то все возможные характеристики случайной величины� уже можно найти.
На практике исследователь сталкивается с массивом данных, полученных в результате статистического наблюдения. Числовые данные�этого массива�можно рассматривать как конкретную реализацию значений одной или нескольких случайных величин (например, данные о температуре, давлении, силе ветра, облачности� в некотором месте� в определенный день года�за 100 лет наблюдений).
Естественно, что заранее неизвестно какому распределению подчинены эти данные. Поэтому� одной из задач эконометрического анализа является установление закона распределения изучаемых случайных величин с помощью метода испытания статистических гипотез: выдвигается гипотеза, состоящая. например, в том, что изучаемая величина имеет нормальное распределение, и затем она проверяется с помощью статистических методов (подробнее метод испытания гипотез будет рассмотрен далее).
Знание того, какому распределению, хотя бы с определенной степени доверительной вероятности, подчиняется изучаемая случайная величина, позволяет более обоснованно применять статистические методы и процедуры и получать, в конечном счете, более достоверную информацию об изучаемом явлении.
Вопрос
Сколько независимых элементов имеет ковариационная матрица, если многомерная�случайная величина имеет девять независимых компонент (состоит из девяти независимых случайных величин)?
Корреляционная взаимосвязь. Коэффициент корреляции Пирсона.
Понятие о статистической и корреляционной связи
Различают два типа связей между различными явлениями и их признаками:�функциональную�или жестко детерминированную, с одной стороны, и�статистическую или стохастически детерминированную�- с другой.
Строго определить различие этих типов связи можно тогда, когда они получают математическую формулировку. Для простоты будем говорить о связи двух явлений или двух признаков, математически отображаемой в форме� связи двух переменных.
Если с изменением значения одной из переменных вторая изменяется строго определенным образом, т.е. значению одной переменной обязательно соответствует одно или несколько точно заданных значений другой переменной, связь между ними является�функциональной.
Стохастически детерминированная связь не имеет ограничений и условий, присущих функциональной связи. Если с изменением значения одной из переменных вторая может в определенных пределах принимать любые значения с некоторыми вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону - связь является статистической. Иными словами, при статистической связи разным значениям одной переменной соответствуют разные условные�распределения значений другой переменной.
В настоящее время наука не знает более широкого определения связи.�Все связи, которые могут быть измерены и выражены численно, подходят под определение �статистические связи�, в том числе и функциональные.
Корреляционной связью�называют важнейший частный случай статистической связи, состоящий в том, что разным значениям одной переменной соответствуют различные�средние�значения другой.
С изменением значения признака�х�закономерным образом изменяется среднее значение признака�у; в то время как в каждом отдельном случае значение признака�у�(с различными вероятностями) может принимать множество различных значений.
Если же c изменением значения признака�х��среднее значение признака�у�не изменяется закономерным образом, но закономерно изменяется другая статистическая характеристика (показатели вариации, асимметрии, эксцесса и т.п.), то связь является не корреляционной, хотя и статистической.
Статистическая связь между двумя признаками (переменными величинами) предполагает, что каждый из них имеет случайную вариацию индивидуальных значений относительно средней величины.
Если же такую вариацию имеет лишь один из признаков, а значения другого являются жестко детерминированными, то говорят лишь о регрессии, но не о статистической (тем более корреляционной) связи. Например, при анализе динамических рядов можно измерять регрессию уровней ряда урожайности (имеющих случайную колеблемость) на номера лет. Но нельзя говорить о корреляции между ними и применять показатели корреляции с соответствующей им интерпретацией.
Само слово корреляция ввел в употребление в статистику английский биолог и статистик Френсис Гальтон в конце XIX в. Тогда оно писалось как �corelation� (соответствие), но не просто �связь� (relation), а �как бы связь�, т. е. связь, но не в привычной в то время функциональной форме.
Корреляционная связь между признаками может возникать разными путями. Важнейший путь - причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, признак�х�- балл оценки плодородия почв, признак�у�-урожайность сельскохозяйственной культуры. Здесь совершенно ясно логически, какой признак выступает как независимая переменная (фактор)�х, какой - как зависимая переменная (результат)�у.
Совершенно иная интерпретация необходима при изучении корреляционной связи между двумя следствиями общей причины (так называемые ложные корреляции).
Известен классический пример, приведенный крупнейшим статистиком России начала XX в. А. А. Чупровым: если в качестве признака�х�взять число пожарных команд в городе, а за признака�у�- сумму убытков за год в городе от пожаров, то между признаками�х�и�у�будет наблюдаться�статистически значимая�прямая корреляция; в среднем, чем больше пожарников в городе, тем больше и убытков от пожаров!�
Это как раз пример ложной корреляции. Данную корреляцию нельзя интерпретировать как связь причины и следствия; оба признака - следствия общей причины - размера города: в� крупных городах больше пожарных частей, но больше и пожаров, и убытков от них за год, чем в мелких городах.
Третий путь возникновения корреляции - взаимосвязь признаков, каждый из которых и причина, и следствие. Такова, например, корреляция между уровнями производительности труда рабочих и уровнем оплаты 1 часа труда (тарифной ставкой).
С одной стороны, уровень зарплаты - следствие производительности труда: чем она выше, тем выше и оплата. Но с другой стороны, установленные тарифные ставки и расценки играют стимулирующую роль: при правильной системе оплаты они выступают в качестве фактора, от которого зависит производительность труда.
В такой системе признаков допустимы обе постановки задачи; каждый признак может выступать и в роли независимой переменной�х, и в качестве зависимой переменной�у.
Задачи корреляционно-регрессионного анализа
Корреляционно-регрессионный анализ� включает в себя установление факта корреляции факторных и результативных признаков и количественную оценку тесноты корреляции, которая определяется численным значением коэффициента корреляции. Определение коэффициента корреляции будет приведено позднее.
Цель корреляционного анализа — обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют (взаимосвязаны). В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной�x�произойдет одновременно с пропорциональным изменением значения y: если обе переменные растут то корреляция положительная, если одна переменная растёт, а вторая уменьшается, корреляция отрицательная.
Принято различать:
а)�парную корреляцию�– связь между� результативным и факторным признаками;
б)�частную корреляцию�– связь между результативным признаком� и одним факторным признаком при фиксированном значении всех других факторных признаков;
в)�множественную корреляцию�– связь между результативным признаком и двумя и более факторными признаками.
Коэффициент� корреляции Пирсона.
Наиболее полную характеристику взаимосвязи,�компонент многомерной случайной величины,�как указывалось выше, дает матрица коэффициентов корреляции,��которая определяет взаимосвязь стандартизованных случайных величин.�
�Мы начнем� изучение�взаимосвязи, когда имеется всего две случайных величины�X�и �Y.��Коэффициент корреляции в этом случае был определен ранее� формулой (2.29), которую мы еще раз воспроизвели ниже для удобства читателей.�
�
Расписывая �среднее значение произведения нормированных отклонений результативного и факторного признаков от их средних значений, получаем другое представление формулы (2.29):
Выражение (2.42)� известно в литературе�как��линейный коэффициент корреляции��Пирсона.
��Линейный коэффициент корреляции может принимать значения�� в пределах от� –1� до +1 .��При наличии линейной�функциональной связи коэффициент корреляции равен по модулю единице, а при отсутствии связи - нулю.
Коэффициент корреляции можно вычислять по формуле (2.42), но при наличии электронных таблиц Excel можно воспользоваться встроенной функцией КОРЕЛ(). Результаты при этом получаются совершенно одинаковыми.
Представляет еще выяснить, в каком случае корреляцию следует считать слабой, а в каком сильной. Существует эмпирическая таблица для оценки силы корреляционной связи (см. таблицу ниже).
Рис. 2.11. Таблица градаций коэффициента корреляции Пирсона
Коэффициент корреляции� Пирсона, определяемый формулой (2.42), достаточно хорошо оценивает взаимосвязь двух признаков только в том случае, когда их взаимосвязь близка к линейной.�
Если есть основания считать, что взаимосвязь нелинейная,� то лучше всего для определения взаимосвязи воспользоваться� эмпирическим корреляционным отношением, проведя предварительно группировку по факторному признаку и, вычислив межгрупповую дисперсию. Напомним, что эмпирическое корреляционное отношение� определяется формулой
Условия применения корреляционного анализа
Применение�корреляционного анализа оправдано�при��наличия достаточного большого числа наблюдений (более 30).
�Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость нелинейная (выражена, например, в виде� некоторого периодического закона).
Сам по себе факт корреляционной зависимости не даёт основания утверждать, какая из переменных� является причиной изменений (факторным признаком), �или что переменные вообще причинно связаны между собой, например,� может существовать третий фактор, от которого зависит и первая переменная�x�и вторая переменная�y�(ложная корреляция).
Область применения
Корреляционный анализ�весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера его�применения более широка: контроль качества промышленной продукции, медицина и т. д. Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения корреляционного�анализа привела к его широкому распространению в сфере анализа статистических данных.
Ложная корреляция
Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи, в частности корреляции могут быть ложными из за действия других, еще неизвестных факторов, которые выпали из поля зрения статистика.
Интервальная оценка коэффициента корреляции
�Вычисление и интервальное оценивание коэффициента корреляции Пирсона по данным выборочного наблюдения рассмотрим на основе данных конкретного примера.
Пример 2.4
По двадцати туристическим фирмам известны результаты затрат на рекламу (в условных единицах) – факторный признак�x� и� количество туристов, воспользовавшихся услугами� каждой фирмы, – результативный признак�y:
Рис. 2.12 Данные о взаимосвязи средств, истраченных на рекламу�и числа туристов, обслуженных туристической фирмой
Требуется найти выборочный коэффициент корреляции и�получить интервальную оценку коэффициента корреляции в генеральной совокупности.
Решение
Методика вычисления коэффициента корреляции по Пирсону для приведенного набора данных приведена в файле korel_3.xls, который можно загрузить по ссылке "Данные для интервального оценивания коэффициента Пирсона" из файлов ресурсов лекции.
Там же приведено и полученное по� выборочным данным�значение коэффициента корреляции�.
Как известно, выборочные показатели� являются случайными числами и их значения зависят от того, какие объекты попали в выборку.� Поэтому, хотя мы и получили некоторое отличное от нуля значение для коэффициента корреляции, в действительности он может оказаться равным нулю.�
По этой причине следует исследовать возможность того, что корреляции в действительности нет.
В связи с использованием выборки небольшого объема (20 предприятий в нашем примере с туристическими фирмами), встает вопрос о том, насколько возможно распространение� полученных� результатов (найденное значение выборочного коэффициента корреляции) на� генеральную совокупность.
Для значимого коэффициента корреляции��целесообразно найти доверительный интервал (интервальную оценку), который с заданной надежностью��содержит (точнее, �накрывает�) неизвестный генеральный коэффициент корреляции��.
Для� построения такого интервала необходимо знать выборочное� распределение коэффициента корреляции��, которое��при не равном нулю коэффициенте корреляции в генеральной совокупности� несимметрично и очень медленно (с ростом��) сходится к� нормальному распределению.
Поэтому прибегают к специально подобранным функциям от�, которые сходятся к хорошо� изученным распределениям.
Чаще всего для подбора функции� применяют�преобразование Фишера:
Распределение�случайной величины��уже при небольших��является приближенно нормальным с математическим ожиданием
и дисперсией
��
Найдем вначале доверительный интервал для величины�, которая имеет нормальное распределение с дисперсией, задаваемой формулой (2.45). Следовательно, величина
��
где��неизвестное значение показателя�� в генеральной совокупности,� имеет стандартное нормальное распределение, а в этом случае, как известно, интервальная оценка строится с использованием значений критических точек нормального распределения по формуле
��
После того, как мы нашли нижнюю и верхнюю границу интервала для��,� следует произвести обратное преобразование Фишера и найти нижнюю и верхнюю�границы интервала для��.
Обратное преобразование выполняется по формуле
��
В литературе можно найти и специальные таблицы для обратного преобразования Фишера.
Применим полученные результаты для получения интервальной оценки найденного в� рассмотренном выше примере коэффициента корреляции при уровне значимости 0,9545 (как известно в этом случае�).
Найдем вначале�значение�� по формуле (2.43) и��стандартное отлонение��по формуле (2.45).
Подставляя значение��в формулу (2.43) имеем
Найдем теперь среднеквадратическое отклонение��
�Поскольку в нашем случае�, получаем (с точностью до сотых)�
Используя формулу (2.47) находим интервальную оценку для��
��
�
Воспользуемся теперь обратным преобразованием Фишера, чтобы найти доверительный интервал для коэффициента корреляции.
Используя формулу (2.48), получаем
��
или, выполняя простые вычисления в�Excel
��
Аналогичный прием можно использовать и для интервальной оценки� других коэффициентов корреляции (Фехнера, Спирмена, коэффициента конкордации).
Вопрос
В файле "Данные для вычисления корреляции по Пирсону" приведены данные о прожиточном минимуме и доходах населения в�двух федеральных округах РФ. Откройте этот файл, вычислите коэффициент корреляции по� Пирсону для приведенного в файле набора данных. Чему численно равен коэффициент корреляции по Пирсону и какова связь между прожиточным минимумом и доходом в�этих двух федеральных округах?�
Статистическая проверка гипотез.
�
Что такое статистическая гипотеза?
�
Большинство эконометрических моделей требует тщательного анализа их состоятельности. Для этого необходимо проведение дополнительных расчетов, связанных с установлением выполнимости или невыполнимости� тех или иных предпосылок модели, анализом качества� найденных оценок, достоверностью полученных результатов.
Обычно эти расчеты проводятся по схеме статистической проверки гипотез. Поэтому знание основных принципов� статистической проверки гипотез является обязательным для эконометриста.
Под�статистической гипотезой�понимают различного рода предположения о характере или параметрах распределения случайной величины, которые можно проверить, опираясь на результаты выборочного наблюдения.
Статистическая проверка гипотез носит вероятностный характер и поэтому всегда существует риск совершить ошибку. Однако с помощью статистической теории можно оценить вероятность принятия ложного решения. Если эта вероятность мала, то решение можно считать статистически обоснованным.
Пусть, например, в результате выборочного обследования было установлено, что средняя жилая площадь, приходящаяся на одного жителя в регионе, составляет 16,8 м2. При выборочном обследовании через 5 лет было найдено, что жилая площадь в расчете на одного человека в этом же регионе составляет 17,6 м�2. Можно ли утверждать, что имеется положительная динамика обеспеченности населения жильем?
Для ответа на этот вопрос следует выдвинуть гипотезу о том, например, что найденные средние равны, а затем на основании статистических критериев принять или отвергнуть эту гипотезу.
Для проверки статистических гипотез, как правило, подбирается некоторая случайная величина, закон распределения которой при условии справедливости гипотезы является известным.
Гипотезу, подлежащую проверке, обычно называют�нулевой гипотезой�и обозначают символом�. Наряду с нулевой гипотезой рассматривают�альтернативную (конкурирующую) гипотезу(обозначается как��), которую придется принять, если будет отвергнута нулевая гипотеза.
Например, в качестве нулевой гипотезы� может быть выдвинуто предположение о равенстве нулю некоторого параметра��в генеральной совокупности. Тогда альтернативной будет гипотеза о том, что,�например,�� в генеральной совокупности.
Правило, по которому гипотеза��отвергается или принимается, называется�статистическим критерием или статистическим тестом.�
Сущность проверки статистической гипотезы заключается в том, чтобы установить, согласуются или нет данные выборочного наблюдения и выдвинутая гипотеза. Ясно, что расхождения между результатами� выборочного наблюдения и выдвинутой гипотезой будут практически всегда. Поэтому фактически решается� вопрос о том, можно ли с определенным уровнем доверительной вероятности считать, что эти расхождения обусловлены� действием случайных причин.
При проверке выборочные данные могут противоречить нулевой гипотезе�, и тогда она отклоняется, а принимается альтернативная гипотеза.
Статистическая проверка гипотез на основании выборочных данных неизбежно связана с риском принятия ложного решения. При этом ошибки могут быть двоякого рода.
Ошибка первого рода: проверяемая гипотеза�� является в действительности верной, но в результате статистической проверки принимается решение об отказе от нее (нулевая гипотеза отвергается).
Ошибка второго рода: нулевая гипотеза в действительности является ошибочной, но в результате статистической проверки она принимается.
Таким образом, множество возможных значений� критерия (критической статистики)� разбивается на два� непересекающихся подмножества: критическую область (область� отклонения гипотезы)� и область допустимых значений (область принятия гипотезы). Если фактически наблюдаемое значение� критерия попадает в критическую область,� то� гипотезу��отвергают. При этом возможны четыре случая, изображенные в таблице ниже�
Уровнем значимости� называют вероятность совершить ошибку первого рода, т. е. отвергнуть� гипотезу�� в результате статистических испытаний, когда она на самом деле верна. Уровень значимости��обычно� задают достаточно малым:�. Вероятность совершить�ошибку второго�рода обычно обозначают буквой��.
Пользуясь терминологией статистического контроля качества� продукции, можно сказать, что вероятность�� представляет �риск поставщика�, связанный с забраковкой по результатам� выборочного контроля изделий всей �партии, удовлетворяющей стандарту, а вероятность�— �риск потребителя�, связанный с принятием по анализу выборки партии, не удовлетворяющей стандарту.
Следует иметь в виду, что желательно обе эти вероятности сделать малыми. Это требование, однако, является противоречивым, поскольку уменьшение вероятности ошибки первого рода приводит к увеличению� вероятности ошибки второго рода.�
Продемонстрируем это положение на конкретном примере. Пусть нулевой гипотезой является утверждение, что в генеральной совокупности некоторая случайная величина�x�распределена по нормальному закону и имеет среднее значение��, равное нулю.� В качестве альтернативной гипотезы�� выдвинем предположение, что эта случайная величина имеет среднее значение��.
Распределения случайной величины в условиях справедливости��и в условиях справедливости��будут различаться, и если дисперсия распределений не слишком мала, то распределения частично перекроются, как показано на рисунке 2.13.
Рис. 2.13.�Графическая иллюстрация вероятностей�� и�
Из рисунка хорошо видно, что если уменьшать�вероятность ошибки первого рода (вероятность ошибки первого рода равна площади под кривой распределения, закрашенной однородным серым цветом), увеличивая критическое значение параметра��(на рисунке��), то это приведет к увеличению вероятности совершить ошибку второго рода (увеличится��).
Единственный способ уменьшить обе� ошибки сразу – это увеличение объема выборки. В этом случае дисперсия нулевого и альтернативного распределений станет меньше, что приведет к уменьшению перекрытия этих распределений, и тогда обе ошибки станут меньше.
При заданном уровне значимости��качество� критерия для оценки статистической гипотезы измеряется вероятностью отвергнуть��, когда верна��(или принять�, когда она верна). Эта вероятность называется�мощностью критерия, обычно обозначается� буквой��и она равна вероятности не допустить ошибку второго рода:�.
На рисунке 2.13 мощность критерия��равна площади под кривой альтернативного распределения� справа от линии, определяющей значение параметра��, выбранного в качестве критического.
Статистическая проверка гипотез, как уже указывалось,��осуществляется на основании некоторых критериев. Для построения такого критерия необходимо:
а) сформулировать нулевую гипотезу (ее обычно обозначают символом�);
б) сформулировать альтернативную гипотезу (ее обычно обозначают символом�);
в) выбрать уровень значимости��, контролирующей допустимую ошибку первого рода;
г) определить область допустимых значений и критическую область для анализируемой случайной величины;
д) принять то или иное решение на основании сравнения наблюдаемого и критического значения для выбранного критерия.
Важно подчеркнуть, что для проверки гипотезы подбирается такая� подходящая случайная величина, численное значение которой мы можем вычислить на основе выборочного наблюдения,� и статистическое распределение которой в условиях справедливости нулевой гипотезы�нам известно.
Подбор такой величины - это сложная задача и далеко не любую гипотезу� можно проверить.
�В этом курсе будут рассмотрено применение� достаточно большого числа�специально подобранных случайных величин, которые могут использоваться для проверки тех или иных гипотез.�
�В частности, достаточно часто в качестве критерия для проверки статистических гипотез используются случайные величины, имеющее стандартное нормальное распределение (z-критерий), распределение Стьюдента (t-критерий), распределение Фишера (F-критерий)� или распределение� хи-квадрат (-критерий).
При проверке статистических гипотезы��следует принимать во внимание формулировку альтернативной гипотезы, поскольку�то, какой выбрана� гипотеза��, в значительной степени�определяет критическую область.
Если, например,�проверяется гипотеза о равенстве нулю среднего значения в генеральной совокупности и выдвигается альтернативная гипотеза, что среднее нулю не равно,� то критическая� область t– критерия Стьюдента выбирается как двусторонняя� критическая� область (см. рис. 2.14),� поскольку� нас не интересует, больше или меньше нуля будет среднее значение.
�
Рис. 2.14. Правая и левая критические области и область принятия нулевой гипотезы
Две вертикальные линии на этом графике отмечают область значений��случайной величины t, которые�она�будет принимать, если справедлива нулевая гипотеза и распределение является действительно стандартным и нормальным. Вертикальные линии отмечают критическое значение критерия.
Если� tэмп�-эмпирическое значение критерия, попадает внутрь области, выделенной жирными линиями на графике (область принятие нулевой гипотезы), то это будет означать, что при заданной доверительной вероятности расхождение генеральной средней и выборочной средней �можно считать случайным.
Если же tэмп� попадает в левую или правую критические области, то это будет означать, что расхождение слишком велико и при заданной доверительной вероятности не может считаться случайным. Поэтому нулевую гипотезу придется отклонить и принять альтернативную, а именно, средние не равны.
Если же в качестве альтернативной гипотезы� выдвигается гипотеза о том, что в генеральной совокупности средняя больше нуля, то появление больших отрицательных значений случайной величины t не дает оснований принять альтернативную гипотезу. Поэтому критическая область в этом случае должна быть правосторонней (напоминаем, что площадь критической области� численно равна уровню значимости�).�
�Поскольку понятие уровня значимости для статистической оценки гипотез является ключевым, приведем еще одно определение этого понятия.
Уровнем значимости�называется такое малое значение вероятности попадания критерия в критическую область (при условии справедливости гипотезы��), что появление этого события можно расценивать как существенное расхождение выдвинутой гипотезы с результатом выборочного наблюдения.
Попадание критерия в критическую область является основанием для отказа от гипотезы�� и принятия гипотезы��.
По своему прикладному содержанию статистические гипотезы можно разделить на несколько основных типов:
-�о равенстве числовых характеристик генеральных совокупностей;-�о числовых значениях параметров;-�о виде закона распределения;-�об однородности выборок (т. е. принадлежности их одной и той же статистической совокупности).В эконометрике метод статистической проверки гипотез является основным при анализе соответствия эмпирических данных статистического наблюдения и модельных представлений экономической теории.Важно отметить, что принятие статистической гипотезы не дает логического доказательства ее верности. Принятие гипотезы следует рассматривать лишь как принятие весьма правдоподобного, не противоречащего опыту утверждения.
�
Проверка гипотезы о значимости коэффициента корреляции
Как известно, выборочные показатели� являются случайными числами и их значения зависят от того, какие объекты попали в выборку.� Поэтому,�если мы и получили некоторое отличное от нуля значение для коэффициента корреляции, в действительности он может оказаться равным нулю.�По этой причине следует исследовать возможность того, что корреляции в действительности нет.
Для решения этой задачи следует проверить гипотезу о значимости� выборочного коэффициента корреляции�.� Так как выборка отобрана случайно, то из полученного результата�� нельзя сделать вывод о том, что и для генеральной совокупности� коэффициент корреляции�� не будет равен нулю.
В конечном� счете� необходимо при� заданном уровне значимости�� проверить нулевую гипотезу�� (о равенстве нулю генерального коэффициента корреляции)� при конкурирующей гипотезе��.�� Если нулевая гипотеза будет отвергнута, то это означает, что выборочный коэффициент корреляции значимо отличается от нуля.Для проверки нулевой гипотезы� рассмотрим� величину
Отсюда следует простое правило: для� того, чтобы при� заданном уровне значимости�� проверить нулевую гипотезу�� о равенстве нулю генерального коэффициента корреляции при конкурирующей гипотезе��,�� следует вычислить расчетное�значение критерия�
и по таблице� критических точек распределения Стьюдента при заданном уровне значимости�� и числе степеней свободы��найти� критическую точку��. Если�
,��
то� нулевую гипотезу отвергают,� и это значит, что выборочный коэффициент корреляции значим и с доверительной вероятностью��нельзя утверждать, что отличие коэффициента от нуля можно объяснить действием случайных причин.
Если выполняется обратное неравенство
,�
то можно утверждать, что нулевую гипотезу можно принять с� заданной доверительной вероятностью, а отличие коэффициента корреляции от нуля можно объяснить действием случайных причин
�Пример 2.6
Анализируется доход фирм некоторой отрасли. Предполагается, что доход фирм распределен нормально, а средняя доходность фирм�� данной отрасли составляет не менее 1 млн. $. По выборке� из�50� фирм� получены следующие данные:�� млн. $,�� млн. $, где�–�выборочная дисперсия. Не противоречат ли эти результаты� выдвинутой гипотезе при уровне значимости��?
РешениеВ качестве� гипотезы�� примем предположение, что средняя доходность фирм не менее 1 млн. $. В качестве альтернативной выдвигаем гипотезу, что средняя прибыльность фирм� меньше 1 млн. $.Для проверки гипотезы используем��t�– критерий Стьюдента и рассмотрим случайную величину�
�закон распределения которой представлен на рисунке 2.15.
Рис. 2.15 Левосторонняя критическая�для t-критерия Стьюдента. Число степеней свободы��
�
��В данном случае критическая область должна быть левосторонней. Критическую точку левосторонней критической области при уровне значимости 0,01 найдем с помощью функции СТЬЮДРАСПОБР(�) электронных таблиц Excel.
Поскольку эта функция возвращает правую критическую точку для двусторонней критической области, а нас интересует критическая точка левосторонней критической области, то�СТЬЮДРАСПОБР(�).Дополнительная двойка в этом выражении появилась потому, что распределение Стьюдента симметрично,�а функция СТЬЮДРАСПОБР() возвращает площадь для�двусторонней критической области т. е. сумма площадей�левой и правой критических области будет равна�. Нас� же интересует ситуация, когда только левая критическая область имеет �имеет площадь�. Поэтому, чтобы найти правильно критическую точку для левосторонней области с помощью функции СТЬЮДРАСПОБР�и приходится производить дополнительное умножение уровня значимости на� два.
Эмпирическое значение критерия, найденное по выборочным данным
�.Поскольку эмпирическое значение критерия� попадает в критическую область, то нулевую гипотезу придется отклонить. Это означает, что эмпирические данные дают основания принять альтернативную гипотезу и считать, что средний доход не превышает 1 млн. долларов.
Другие примеры статистической проверки гипотез будут рассмотрены� позже, по ходу изложения соответствующего материала.
�
При формулировке статистического критерия критические области выбираются исходя из условия, чтобы ошибки первого и второго рода были приемлемыми.�В действительности чаще всего контролируется ошибка первого рода, полагая, что ошибка второго рода при этом тоже будет малой).
Вопрос
Средний вес конфет "Мишка на севере", сходящих с конвейера фабрики должен�составлять 20 грамм при стандартном отклонении 0,4 грамма. Для проверки настройки конвейера была произведена механическая выборка из� 500 конфет, средний вес которых составил 19, 2 грамма.
Требуется найти��tэмп�.� Сравнивая его с критическим значением, ответить также на вопрос:� �можно ли утверждать� при уровне значимости 0,05, �что конвейер не нуждается в� перенастройке? Указание. Нужно проверить нулевую гипотезу, что вес конфет в действительности составляет 20 г, а расхождение с выборочным средним можно считать случайным. Критическое значение статистики можно приближенно считать равным двум.
Можно ли переходить к тестированию?
Проверьте, знаете ли вы ответы�на поставленные ниже вопросы?
1. В чем преимущество выборочного метода по сравнению с другими видами статистического наблюдения?
2. Почему при выборочном наблюдении� возможны ошибки и как они классифицируются?
3. В чем различие повторной и бесповторной выборок?
4. Как производится точечная оценка параметров генеральной совокупности по выборке?
5. Какая оценка называется несмещенной?
6.� Какая оценка называется эффективной?
7.� Какая оценка называется состоятельной?
8. Как вычисляется исправленная выборочная дисперсия?
9. Роль универсальных статистических распределений в эконометрике. Как определяются� распределения Стьюдента, Фишера, хи-квадрат? Для каких целей они используются?
10. Как определяется число степеней свободы распределения?
11. Что представляет собой средняя ошибка выборки (для средней и доли)?
12. По каким� формулам производится расчет средней� ошибки� выборки? Какие здесь возможны случаи?
13. Как нужно изменить объем механической повторной выборки, если среднюю квадратическую ошибку следует уменьшить в 2� раза.
14. Какой смысл имеет доверительная вероятность?
15. Каким способом происходит распространение результатов выборочного наблюдения на всю совокупность? Что такое интервальное оценивание?
16. Как построить доверительный интервал для среднеквадратического отклонения?
17. Как задаются многомерные случайные величины?
18. Что такое условный закон распределения?. Как определяется плотность условного закона распределения?
19. Как определяются коэффициенты ковариации и корреляции? Какой смысл имеют элементы ковариационной и корреляционной матриц?
20. Многомерное и двумерное� нормальные распределения. способы их записи. Что дает знание� закона распределения для практики?
21. Коэффициент парной корреляции Пирсона и его интервальная оценка. Распределение Фишера.
22. Как проверить гипотезу о равенстве выборочной и генеральной средней? Какая гипотеза при этом выдвигается?
23. Как влияет формулировка альтернативной гипотезы на выбор критической области?
24. Как оценить существенность расхождений двух выборочных средних? Какая гипотеза при этом выдвигается?
25. В чем состоит различие в построении критерия для проверки гипотезы о равенстве двух выборочных средних для больших и малых�� выборок?
26. Дайте определение критической области� при статистической проверке гипотез.
27. Дайте определение ошибки первого и второго рода при проверке статистических гипотез.
28. Какова цель проверки статистических гипотез?
Если вы успешно отвечаете на поставленные вопросы, то можно переходить к тестированию на оценку.
Начало формы
Начало формы
2