Почему дисперсия в квадрате?
Jan. 27th, 2016 03:42 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Когда еще в курсе теорвера рассказывают о параметрах случайных величин, как-то стороной обходят причину того, что основным параметром разброса является дисперсия, то есть средний квадрат отклонения от среднего (да, точнее говорить про математическое ожидание, чем про среднее, но тут сойдет и так).
Вначале обычно бойко доказывается, что бессмысленно использовать среднее отклонение от среднего - ибо оно равно нулю для любой случайной величины (на то оно и среднее!). После чего говорится, что вот - чтобы положительные и отрицательные величины друг с другом не аннигилировали. Правда, в итоге показатель разброса оказывается несоизмерим с самой величиной и ее средним значением: меряете вы длину - а дисперсия оказывается площадью, меряете объемы - а дисперсия вообще шестимерными гиперобъемами оказывается! Да, из дисперсии извлекают корень и получают среднеквадратичное отклонение. Но почему исходно не взять, например, модуль?! Что за прихоть математиков?
Помнится, когда я спросил своего преподавателя Мамбы на биофаке, почему не модуль - он ушел от ответа. Ну я так и оставил это дело.
Потом как-то Николай Николаевич Константинов (если кто не знает: ссылка 1 ссылка 2) на беломорской практике биокласса обронил, что, мол, дисперсия в квадрате не потому, что надо положительные и отрицательные отклонения спасти от гарантированного взаимного уничтожения - а потому что "иначе у Гаусса теория не получилась"! Я тогда почему-то вдаваться в детали не стал, но сейчас уже несколько лет разъясняю школьникам и студентам пользу именно такой странной дисперсии (как Гаусс или кто еще из отцов теорвера до этого дошел - всё еще не знаю).
Есть у дисперсии замечательное свойство: дисперсия суммы независимых случайных величин равна сумме их дисперсий. Проще говоря, дисперсию можно раскладывать на компоненты, объясняющие ту или иную долю общей вариации. На это строится и дисперсионный анализ, и метод главных компонент, и количественная генетика - и много чего еще!
А ведь таким свойством не обладает ни гипотетический средний модуль отклонения от среднего, не соизмеримый со средним квадратный корень из дисперсии
Вначале обычно бойко доказывается, что бессмысленно использовать среднее отклонение от среднего - ибо оно равно нулю для любой случайной величины (на то оно и среднее!). После чего говорится, что вот - чтобы положительные и отрицательные величины друг с другом не аннигилировали. Правда, в итоге показатель разброса оказывается несоизмерим с самой величиной и ее средним значением: меряете вы длину - а дисперсия оказывается площадью, меряете объемы - а дисперсия вообще шестимерными гиперобъемами оказывается! Да, из дисперсии извлекают корень и получают среднеквадратичное отклонение. Но почему исходно не взять, например, модуль?! Что за прихоть математиков?
Помнится, когда я спросил своего преподавателя Мамбы на биофаке, почему не модуль - он ушел от ответа. Ну я так и оставил это дело.
Потом как-то Николай Николаевич Константинов (если кто не знает: ссылка 1 ссылка 2) на беломорской практике биокласса обронил, что, мол, дисперсия в квадрате не потому, что надо положительные и отрицательные отклонения спасти от гарантированного взаимного уничтожения - а потому что "иначе у Гаусса теория не получилась"! Я тогда почему-то вдаваться в детали не стал, но сейчас уже несколько лет разъясняю школьникам и студентам пользу именно такой странной дисперсии (как Гаусс или кто еще из отцов теорвера до этого дошел - всё еще не знаю).
Есть у дисперсии замечательное свойство: дисперсия суммы независимых случайных величин равна сумме их дисперсий. Проще говоря, дисперсию можно раскладывать на компоненты, объясняющие ту или иную долю общей вариации. На это строится и дисперсионный анализ, и метод главных компонент, и количественная генетика - и много чего еще!
А ведь таким свойством не обладает ни гипотетический средний модуль отклонения от среднего, не соизмеримый со средним квадратный корень из дисперсии
no subject
Date: 2016-01-27 01:21 pm (UTC)(Собственно, дисперсия и есть почти что скалярный квадрат. А "дисперсия суммы независимых случайных величин равна сумме их дисперсий" - теорема Пифагора в чистом виде:)
no subject
Date: 2016-01-27 01:27 pm (UTC)Наверное, за этой простотой что-то стоит - но я пока не понимаю, что.
no subject
Date: 2016-01-27 01:51 pm (UTC)А то есть целый ряд случаев, когда правильно среднее определять через дисперсию, а не наоборот. Когда не дисперсия - по определению среднеквадратичное отклонение от среднего, а среднее - по определению та точка из множества возможных значений, от которой среднеквадратичное отклонение наименьшее.
no subject
Date: 2016-01-27 02:52 pm (UTC)no subject
Date: 2016-01-27 03:49 pm (UTC)Например, пусть есть какая-то случайная величина со значениями на сфере. Скажем, координаты падения метеоритов на какую-то планету. Хочется найти, куда "в среднем" они падают.
Если просто взять среднее значение по обычной формуле, у нас почти всегда получится точка, лежащая под поверхностью планеты. Выходит, что "в среднем" метеориты падают внутрь планеты - что выглядит довольно странно. А вот если мы для всякой точки А на поверхности посчитаем среднеквадратичное отклонение M|X-A|^2, а потом найдем точку (или, иногда, точки), для которой(ых) оно минимально, то эта точка по определению будет лежать на поверхности. (И если вдруг каким-то чудом планета плоская, эта точка будет совпадать с обычным матожиданием)
no subject
Date: 2016-01-27 06:23 pm (UTC)Определение дисперсии, соотвественно, просто связано с нормальным распределением (распределением Гаусса). Другого смысла нет.
no subject
Date: 2016-01-28 06:52 am (UTC)И всё-таки скорее нормальное распределение связано с дисперсией, чем дисперсия - с нормальным распределением (в смысле, что ее можно определить и без нормального распределения, хотя в нем она становится нагляднее).
no subject
Date: 2016-01-28 06:30 pm (UTC)Все начинается с положения о существания случайной величины, которую можно представить себе в виде случайного генератора чисел. Только настоящего случайного генератора, а не компьютерного генератора псевдослучайных чисел. Ограничим обсуждение непрерывными случайными величинами. Соотвественно, существующая случайная величина характеризуется непрерывной функцией распределения, которая в свою очередь характеризуется моментами (интегральными характеристиками). Дисперсия случайной величины является одним из моментов.
В этом отношении дисперсия есть у всех случайных величин, хотя по-моему есть извращенные распределения, у которых дисперсия равняется бесконечности. Отличие нормального распределения заключается в том, что два момента (мат. ожидание и дисперсия) определяют все остальные моменты. У других распределений вполне возможно есть большее число независимых параметров.
Утверждения выше относятся к самой случайной величине, то есть к тому, что обычно неизвестно. Тем не менее, изначально утверждается, что вот такое существует. Теперь задачей становится определение параметров распределения из последовательности чисел, сгенерированных случайной величиной, или проверка других гипотез.
На этом пути вводятся оценки (по-моему в мат. статистике используют другой термин, сейчас не помню какой): некоторые функции от сгенерированных чисел. Обсуждаемая вами формула относится к одной из оценок. Оценки сами по себе также являются случайные величинами в том смысле, что их применение к другой сгенерированной последовательности даст другое численное значение.
Так вот, у оценок есть свои свойства и когда ищут оценки стараются найти наиболее оптимальные оценки. Обсуждаемая формула будет оптимальной в случае нормального распределения. В случае другие распределений ее свойства требуют отдельного изучения.
no subject
Date: 2016-01-29 08:44 am (UTC)Да, распределение Коши (может, и еще есть).
>>У других распределений вполне возможно есть большее число независимых параметров.
Возможно. Хотя мне привычнее распределения, определяемые двумя или одним параметром (хи-квадрат, ФИшера...).
>>На этом пути вводятся оценки (по-моему в мат. статистике используют другой термин, сейчас не помню какой)
Нет, именно "оценки".
А по сути: я обсуждал именно генеральную, а не выборочную дисперсию. Да, как средний квадрат отклонения от среднего она определяется только для дискретных распределений, но для непрерывных определение "аналогично", через интеграл.
>>Обсуждаемая формула будет оптимальной в случае нормального распределения.
Оптимальность (эффективность, несмещенность...) выборочной дисперсии (которая, кстати, считается по несколько иной формуле; впрочем, можно воспользоваться и формулой для генеральной дисперсии - если мы точно знаем мат.ожидание) доказывается для произвольного распределения, а не нормального.
no subject
Date: 2016-01-29 06:23 pm (UTC)В случае же нормального распределения дисперсия к тому же входит в явном видет в формулу нормального распределения.
Спасибо за пост!
Date: 2017-02-13 09:42 am (UTC)Из той же оперы. Зачем в методе наименьших квадратов двойка? Тоже не для того чтобы учитывать отрицательные и положительные расстояния без аннигиляции. А оказывается для того чтобы потом производная не обратилась в константу. По сути это следует из логики метода, но это тоже нигде не объясняется, а просто пишут "очевидно, что...". И что-то не совсем очевидно.