polenadisto: (hairs)
Прислали мне тут вчера из сообщества "Углубленный биолог" вконтаче картиночку:


Ну, лучший коммент под нею в сообществе был, на мой взгляд, следующий (и не зря набрал самым залайканным оказался):
"никто не заставит применять статистику, если вообще не делать рисеч"

А я что? А я ничё: не применять статистику там, где надо - такая же ошибка, как применять ее неправильно, или применять там, где не надо. Последнее осознается гораздо реже, но от того проблемой быть не перестает.
А вообще, статья эволюциониста (антидарвиниста при том), энтомолога и статистика А.А. Любищева "Об ошибках в применении математики в биологии", опубликованная аж в 1969 г. в ЖОБе, не зря состоит из двух частей: "Ошибки от недостатка осведомленности" и "Ошибки, связанные с избытком энтузиазма" (и спасибо выложившим ее томским биостатистикам!). Там далеко не только про статистику, что-то сейчас устарело, где-то можно с автором поспорить - но статьи, безусловно, душеполезны.
polenadisto: (hairs)
Читал тут на днях статью в одном отечественном медицинском журнале (имена авторов, журнала и статьи не суть важны*). И до того там была отвратно изложена статистическая обработка данных, что у меня прямо в полночь бомбануло и я на подвернувшейся салфетке пересчитывал за них критерий Стьюдента. Благо там хватало данных, чтобы его пересчитать (хоть на том спасибо). А то ведь непонятно, чему верить: таблице, где для всех сравниваемых параметров стоит р>0.05, или тексту, где про один из них пишется, что "обращает на себя внимание достоверность различий". Оставим за скобками, что, как часто водится, пишут не само р-значение, а только больше оно 0.05 или нет** - так же гораздо проще в четвертый круг научного ада попасть, n'est-ce pas?


______________________
*см. Мк., 5:9
**Кстати, биологов, по-моему, до сих пор учат, что у медиков-де применяется уровень значимости 0.01 как более суровый.
polenadisto: (bat)
Я уже как-то писал о том, что использование дисперсии в качестве основного показателя разброса, несмотря на ее несоизмеримость с описываемой величиной, основывается на том, что ее можно раскладывать на независимые компоненты. Так в дисперсионном анализе и факторном анализе вычленяют вклад отдельных факторов, в количественной генетике фенотипическую дисперсию разлагают на генетическую (а ту - на аддитивную, доминантную, эпистатическую...) и фенотипическую (ну еще и на взаимодействие генотип-среда, да).

Школьникам-"биологам" нелегко бывает понять, "зачем так". В итоге придумал им такую задачу, модифицировав известный им тип (услышав зачин, многие начинают выть):
К бассейну подсоединены две трубы: по одной вода втекает, по другой - вытекает. При этом пропускная способность труб переменна во времени: у вносящей трубы средняя составляет 4,5 л/мин, у выносящей - 4 л/мин, а дисперсии соответсвенно равны 1 л2/мин2 и 0,5 л2/мин2. Чему равна средняя скорость наполнения бассейна и ее дисперсия, если пропускные способности выносящей и вносящей труб меняются независимо?

Тут еще, исходя из свойств дисперсии, предполагается догадаться, что дисперсия разности независимых случайных величин равна сумме их дисперсий.
polenadisto: (bat)
Я уже писал о проекте уральского психостатистика Владимира Савельева "Статистика и котики". Деньги он собрал, книжку дописал, издал и разослал. Можно и на Литресе в электронном виде скачать.

А сам я вчера забрал с почты причитающийся мне экземпляр. Подробно не читал, только пролистал. И что же? Несколько раз наткнулся на описания собственных педагогических "находок" - наглядных и понятных объяснений, которые в учебниках не вычитаешь, но которые понимаешь, занимаясь статистикой и преподавая ее. А также указаний на неочевидные "подводные камни" (вроде беды с очень большими выборками, где в полный рост встает проблема различия между "статистически значимым" и "значительным"). В общем, как раз то, что я хотел в свое пособие по статистике включить. Что ж - значит, идея нужная, раз не только мне в голову пришла.
Так что, глядишь, буду ее в преподавании (особенно школьном) использовать - по прочтении точнее пойму, как лучше ее применить.
polenadisto: (hairs)
Наш кафедральный третий курс оказался весьма активным. В частности, устроил нам темную "тайного Санту" - это когда в произвольном порядке путем случайного выбора участвующие распределяются между друг другом и дарят подарки (с сохранением или без сохранения инкогнито) доставшемуся.

Мне на этом празднике жизни презентовали вязаный шарф, которым можно безудержно понтоваться в растяжку:



Кто не в курсе - там символические изображения моих увлечений: зима, статистика, рок-музыка, насекомые/мухи, лыжи. Ну а подписана упаковка подарка была на эсперанто.

P.S. За фото спасиюо [livejournal.com profile] shurupova
polenadisto: (hairs)
Осознал, что в заглавной строчке программной песни Леонарда Коэна First we take Manhattan можно прочитать и "вначале мы будем использовать манхеттенское [расстояние]". И в продолжении логично брать не Берлин, а евклидово расстояние: First we take Manhattan, then we take Euclid, вполне в строку ложится.
Желающие могут переделать и всю песню.
polenadisto: (bat)
Иногда сталкиваюсь с тем, что пользователи статистики путаются в данных. То есть - принимают данные одного типа за другой, что не всегда безопасно.

Причем путаться можно начать уже на этапе описания выборок, вычисляя центральную тенденцию, выражаемую средним, медианой или модой. Путаница тут в том, что не все эти функции можно применять к каждой выборке.

Данные,т.е. оцениваемые вами признаки, с точки зрения статистики бывают трех типов: количественные, порядковые и качественные*. Разница между ними - в количестве содержащейся информации.
Количественные - самые "информативные", их можно упорядочить и для них осмыслен вопрос "на сколько одно значение больше другого?". Это всякие "измеримые признаки": длины, массы, отношения, коэффициенты, количества... В них содержится информация о различии значений (6 см и 3 см - разные значения), о порядке различий (5 см больше 3 см) и о размере различий (6 см в два раза больше, чем 3 см).
Порядковые можно упорядочить, но нельзя сказать, насколько одно значение больше другого. Это обычно всякие балльные оценки: моим любимым примером тут являются школьные оценки, которые даже в идеальном мире не будут количественным признаком, ибо нельзя сказать, что получивший "пять" знает на 2/3 больше, чем получивший "три". То есть тут теряется информация о размере различий, но сохраняется о самих различиях и их порядке: "пять" в любом случае больше "трех", а "четыре" распологается между; такая же ситуация - с медицинскими состояниямми легким, средней тяжести, тяжелым и критическим. Часто за порядковым признаком скрывается недостаточное разрешение при взгляде на количественный признак (но не всегда - не уверен, что в медицинском примере можно заменить во всех случаях оценку состояния измерением какого-то параметра).
Наконец, качественные признаки несут только информацию о различии, их нельзя упорядочить. В биологии это могут быть виды, биотопы или цветовые морфы. Кстати, насчет последних. Если мы просто выделяем, например, масти коней - то это качественный признак. Если же мы выделяем оттенки внутри одной цветовой гаммы - черные, серые и белые, то это уже может быть и порядковый признак. Наконец, исхитрившись измерить альбедо, мы можем получить и количественный признак.

При этом ничто не запрещает трактовать признак как менее информативный: количественный как порядковый (так, например, происходит при использовании непараметрческих методов), порядковый как качественный. В этом случае вы теряете часть информации - и не более того. Но если двигаться в обратном направлении, то вы добавляете информацию, которой в исходных данных нет. Встречал я, например, такое: исследователь закодировал значения качественного признака числами, а потом начал работать с ними, как с настоящими числами, а не просто с обозначениями.

Эта неравноценность в количестве содержащейся информации хорошо заметна и на применении вышеупомянутых мер центральной тенденции: среднего арифметического, медианы и моды.
Среднее арифметическое в своем расчете использует информацию о размере различий - иначе расчет суммы значений лишен смысла. Соответственно, его можно применять только к количественным признакам.
Медиана использует информацию только о порядке различий - на то это и середина упорядоченного ряда значений. При этом насколько именно различаются соседние значения - не важно. Можно ее применять к количественным (с потерей части информации) и порядковым признакам.
Ну и мода, представляющая собой просто наиболее часто встречающееся значение, требует только информацию о том, что значения различаются. А как и насколько - неважно. Так что ее можно применять ко всем трем типам признаков.

Не страшно применить моду к количественному признаку и узнать, что больше всего в популяции собак с длиной хвоста 20 см (оставим за скобками точность измерения). Страшно занумеровать собачьи масти числами и узнать, что средняя масть равна 4,32 (или медианная - 4), а потом сравнить это с другой популяцией критерием Стьюдента - а я подобное встречал...

Итак, тип признака зависит не только от его сущности, но и от вашего интереса, но последний может только "убавлять" информацию, но не "добавлять" - потому что это добавление мнимо, ибо новой информации тут неоткуда взяться.

_________________________
*у них бывают и иные названия. Например - интервальные, шкальные и номинальные. Кроме того, иногда в отдельный тип можно выделять бинарные данные (да-нет, наличие-остутствие).
polenadisto: (bat)
Пока я медленно запихивал, а потом вытаскивал из долгого ящика идею своего пособия по статистике, с упором на разъяснение, такой же умученный преподаватель статистики (правда, для психологов) сделал подобное. То есть пока в виде сайта-блога "Статистика и котики", но сейчас собирает денежку на издание в виде книги.
Внезапно, это не сильно уменьшает целесообразность моего пособия (у меня там иной угол зрения и глубина), так что посмотрим. Вдруг оно реализуется.
polenadisto: (bat)
Аж шесть лет назад наткнулся на понравившуюся цитату Анри Пуанкаре:

Оригинал взят у [livejournal.com profile] polenadisto в post
Все верят в универсальность нормального распределения: физики верят, потому что думают, что математики доказали его логическую необходимость, а математики верят, так как считают, что физики проверили это лабораторными экспериментами. (с) Пуанкаре



И уже сколько ее использовал в преподавании и просто ради красного словца. Но вот попросили меня на биостанции краткий курс "Основ статистики" для американо-австралийской группы на биостанции - и решил выяснить, как это по-английски. В итоге нашел и французский оригинал. И там все... не совсем так:
Tout le monde y croit cependant, me disait un jour M. Lippmann, car les expérimentateurs s'imaginent que c'est un théorème de mathématiques, et les mathématiciens que c'est un fait expérimental.

Everyone is sure of this [that errors are normally distributed], Mr. Lippman told me one day, since the experimentalists believe that it is a mathematical theorem, and the mathematicians that it is an experimentally determined fact.

Calcul des probabilités (2nd ed., 1912), p. 171
polenadisto: (hairs)
Мой Курс молодого биостатистика, как я писал, в том году наконец-то принял форму, которая по нраву и мне, и студентам. В этом году "голосование попами ногами" продолжилось - в июне ходила чуть ли не четверть курса, так что неудивительно, что в июле всего несколько человек.
Но вот что интересно. Я сделал курс максимально "для биологов", с разъяснением самых основных моментов "на пальцах". Но, говорят, кто-то из студентов жалуется, что не хватает математической строгости...
polenadisto: (hairs)
Нормальному распределению не очень повезло с названием. "Ну да, нормальное, а чё?" - отвечали мне школьники, когда я показывал им равномерное распределение и спрашивал, нормальное ли оно.

Но коллеги-медики тут вышли на новый уровень! "Как понять - правильное распределение или нет?"
polenadisto: (Default)
Еду в Москву к школьничкам, никого не трогаю - и при выходе из лёгкой дрёмы в голове рождается простенькая, но полезная задачка по теорверу "на понимание". Странно, что раньше не придумал - и вроде нигде не встречал.

Пусть вероятности событий А и В равны 20% и 30% соответственно. Каковы минимально и максимально возможные вероятности события АВ, т.е. пересечения событий А и В? Решить эту же задачу, если вероятности А и В составляют 60% и 70%.

И ведь в этом учебном году теорвкр не вёл, только матстаттолько хардкор. Ну ничего, для следующего года пригодится...
polenadisto: (bat)
Когда еще в курсе теорвера рассказывают о параметрах случайных величин, как-то стороной обходят причину того, что основным параметром разброса является дисперсия, то есть средний квадрат отклонения от среднего (да, точнее говорить про математическое ожидание, чем про среднее, но тут сойдет и так).
Вначале обычно бойко доказывается, что бессмысленно использовать среднее отклонение от среднего - ибо оно равно нулю для любой случайной величины (на то оно и среднее!). После чего говорится, что вот - чтобы положительные и отрицательные величины друг с другом не аннигилировали. Правда, в итоге показатель разброса оказывается несоизмерим с самой величиной и ее средним значением: меряете вы длину - а дисперсия оказывается площадью, меряете объемы - а дисперсия вообще шестимерными гиперобъемами оказывается! Да, из дисперсии извлекают корень и получают среднеквадратичное отклонение. Но почему исходно не взять, например, модуль?! Что за прихоть математиков?
Помнится, когда я спросил своего преподавателя Мамбы на биофаке, почему не модуль - он ушел от ответа. Ну я так и оставил это дело.
Потом как-то Николай Николаевич Константинов (если кто не знает: ссылка 1 ссылка 2) на беломорской практике биокласса обронил, что, мол, дисперсия в квадрате не потому, что надо положительные и отрицательные отклонения спасти от гарантированного взаимного уничтожения - а потому что "иначе у Гаусса теория не получилась"! Я тогда почему-то вдаваться в детали не стал, но сейчас уже несколько лет разъясняю школьникам и студентам пользу именно такой странной дисперсии (как Гаусс или кто еще из отцов теорвера до этого дошел - всё еще не знаю).

Есть у дисперсии замечательное свойство: дисперсия суммы независимых случайных величин равна сумме их дисперсий. Проще говоря, дисперсию можно раскладывать на компоненты, объясняющие ту или иную долю общей вариации. На это строится и дисперсионный анализ, и метод главных компонент, и количественная генетика - и много чего еще!
А ведь таким свойством не обладает ни гипотетический средний модуль отклонения от среднего, не соизмеримый со средним квадратный корень из дисперсии
polenadisto: (hairs)
О, это прекрасное "Я посмотрела, что вы там статистически обсчитали - это никуда не годится. В смысле, мне не подходят эти результаты."
polenadisto: (hairs)
Замучившись читать одно и то же (вплоть до грамматических ошибок) в присылаемых мне домашках по статистике (доходило просто до смешного), я в этом году решил озвереть и реализовать-таки возникавшую и ранее идею об индивидуальных заданиях. Раньше у меня такое было только по паре тем ("Анализ мощности" и "Выбор критерия") - там, где не нужны большие массивы данных.
Теперь же текст задания у всех одинаков, а вот цифры - у всех разные. Соответственно, есть некоторые различия и в результатах.
Но каково же составлять эти задания! Генератор случайных чисел мне в помощь, но не все так просто. Сейчас несколько часов ушло на продумывание заданий для факторного анализа - с непривычки (никогда раньше так не делал) не все продумал сразу (и то всего один фактор существенный выявляется, то матрица ill-conditioned) - но, что характерно, в конце понял (а не просто методом тыка нашел и запомнил), что надо делать именно так.
В общем, довольно ценный опыт. Если когда-нибудь где-нибудь буду вести очень большой курс статистики - сделаю задание по придумыванию данных для многомерных статистик.
А пока - прежние заготовки домашек насмарку, надо делать новые (куда потом только новые результаты генерации случайных чисел вставлять). Но время приготовления заданий возрастет (хотя и не так, как в этом, первом, году), да и проверки тоже.
Впрочем, подождем результаты сего педагогического эксперимента.
polenadisto: (глазъ)
Бывают научные статьи с очень большим количеством соавторов. Физики - так те вообще для простоты коллаборациями подписываются. Но бывает, что и списки авторов чуть ли не с саму статью размером и вообще в конце, а не в начале приводится.
Если авторов расположить по алфавиту, то у первого фамилия начинается, что и понятно, с А.

Так вот. Сколько должно быть авторов, чтобы вероятность того, что фамилия первого автора начнется с А, достигла а)50%, б)95%?

P.S. Не то, чтоб я ответа и решения ждал - тем паче, что надо еще искать данные, нужные для.
polenadisto: (bat)
В 2012 году, насмотревшись на мучения студентов на самостоятельных работах со статистикой, я, тогда еще более энтузиаст, провел свой первый КМБ (курс молодого биостатистика). Проводил его и в 2013, а в 2014 решил не проводить, ибо осознал его безблагодатность и почти нулевую полезность - как-то мало что студенты из него выносили, как мне казалось, и мне сильно не нравилось то, как я рассказывал всё это. Но директор биостанции поставил меня перед фактом: сказал студентам, что сотрудник кафедры эволюции расскажет им о статистике. И я рассказал, аж два раза, в июне и июле, перед первым и вторым блоком самостоятельных (кто-то же после первого мог осознать, что ему что-то такое надо).
Но опять остался недоволен. Все-таки уместить в пять занятий по 45 минут рассказ об основных методах - задача чуть ли не нерешаемая.
В этом году опять дважды провел КМБ. И впервые он мне понравился!!! Кажется, я нашел подходящую форму изложения. Даже студенты "проголосовали попами ногами: обычно стабильных слушателей было человек пять, а тут - раза в три-четыре больше!
И вопросы задавались гораздо активнее, в том числе были прям которых я давно ждал. В общем, будем продолжать.
Надеюсь, прослушанные занятия помогут студентам и при освоении биофаковской ММБ, которая страдает излишней неосознаваемостью.
polenadisto: (bat)
Первый предмет на биофаке, который поразил меня в самый мозг - это первая серия матметодов в биологии, которая про теорвер и матстат. Я продолжаю считать, что преподают его отвратно у нас (хотя есть там и хорошие преподаватели) и вскоре после зачета у меня почти всё улетучилось - но осталось "ощущение", которое я и считаю основным результатом обучения предметам. То, что остается, когда исчезают частности о остается лишь очередной кирпичик в картине мира. И вот то "ощущение" было каким-то принципиально иным: мир для меня действительно стал другим, "вероятностным".
С тех пор утекло много воды, и я теорвер и матстат преподаю, как известно (краткие основы азов, ага) - но это мое нынешнее знание уже результат последующего моего (во многом само)обучения.
Вся эта телега нужна мне была, только чтобы рассказать о хорошей книжке. Прикупил я ее прошлым летом в Берлине.
Написана она известным немецким научным журналистов Геро фон Рандовом, а называется она "Козья задача. Мышление в вероятностях":

"Козья задача" - это он так про знаменитый "парадокс" Монти-Холла, а книжка посвящена тому, что наше мышление не заточено под работу с вероятностями и часто дает тут сбои (откуда эти парадоксы и возникают).
Книжка оказалась действительно интересной. Конечно, откровений в области самого теорвера там нету, но вот всякие сопутствующие психологические проблемы (имеющие и педагогическое значение, мда) разобраны неплохо. Там не только всякие "вероятностные парадоксы" собраны (которые чаще всего довольно легко объясняются и проистекают исключительно из-за присущих нам проблем с "вероятностным мышлением"), но и рассказано о работах психологов, которые специально изучали, как люди воспринимают то, что описывается с помощью вероятностей. Парадок Монти-Холла по ходу книжки несколько раз разбирается (каждый раз - новым подходом), причем разжевывается там очень-очень хорошо, остается только проглотить.
В конце книжки фон Рандов начинает рассуждать вообще о природе случайного, причем более-менее держится на научной почвы, в лихую философию не скатываясь. В принципе, некоторые его пассажи тут можно было бы опустить, а некоторые - явно сократить, но это мелочи. Ну и завершает весь этот рассказ эволюционно-психологическая сентенция (тут уже без глубокого обоснования, к сожалению) о том, что все эти наши проблемы с вероятностным мышлением - из-за того, что тогда, когда наш мозг формировался, оно нашим предкам было не нужно. Мне вообще не очевидно.
Кстати, некоторые моменты из книжки я в этом году даже в школе на уроках использовал. И еще буду, думаю.
polenadisto: (bat)
Частенько ко мне обращались с вопросом "Помоги со статистикой" люди, у которых всей "матобработки" были разнообразные коэффициенты сходства сообществ (Жаккары и прочие Сьёренсены). И обычно мне оставалось только развести руками. Ибо коэффициенты эти внутри себя неразложимы и каких-то там критериев статистической достоверности к ним не прилагается. Хотя бы потому, что законы распределения их - тайна, покрытая мраком (или даже тайны). Поэтому только и остается, что решать, что вводить "с потолка" (или не очень с потолка, а попытавшись понять, что получается при сравнении сообществ, которые мы сами считаем схожими, а какие нет - и попытавшись не увидеть тут "порочный круг").
Но, к счастью, не только я от этих коэффициентов неловкость испытывал (в конце концов, я синэкологией такой не занимаюсь).

В ЗИНе мне тут подогнали забавную книжицу "Эталон сходства. Использование при сравнении состава и структуры сообществ" за авторством Н.А. Кузнецовой (кстати, моего оппонента на диссере) и В.Н. Максимова.

Если кратко, то авторы предлагают следующее. Надо посмотреть, какие значения коэффициентов встречаются в случае заведомо схожих сообществ: проб, взятых из одного и того же сообщества (ибо любому понятно, что и в одном сообществе разные пробы будут неидентичны по видовому составу, не говоря об обилии). И посмотреть, какие значения оказываются наименее вероятными - и там-то и провести границу. Эту идею они проверяют на нескольких примерах, где она дает неплохие результаты (наперед неочевидные, по большей части).
Подход мне нравится. Нет теоретического распределения (и не будет) - так строй эмпирическое. И если пробы из разных сообществ различаются не более, чем пробы из одного сообщества - то с какой стати их считать различными, даже если значение коэффициента низкое?

Методика еще пока сыровата и требует доработки, но начинание со своей колокольни я не могу не приветствовать.
polenadisto: (bat)
Как-то традиционно противопоставление закономерности и случайности.
При этом случайность представляется как нечто далее нерасчленимое: эдакая всеобщая нулевая гипотеза, смешанная с первозданной материей первого дня Творения.
Но если мы говорим про что-то "Это происходит чисто случайно" - то следующим вопросом должно быть "А как именно?". Ибо знание о том, что интересующее нас явление представляет собой случайную величину, не дает никакой дополнительной информации о том, какому распределению эта величина подчиняется.
Например: результат подбрасывания правильного кубика случаен и подчиняется равномерному дискретному распределению. А погрешность измерений какого-либо исправного прибора также случайна, но имеет совсем другое, нормальное, распределение. При этом как то, так и другое распределение не отличается особой замудренностью и возникают именно что как простейший вариант, когда на процесс действует только случай. Случай, правда, оказывается зависимым от условий - но он от этого не перестает быть случаем, просто принимая разные облики, имеющие в теорвере название "распределения". Так что внезапно(?) у случайности есть свои закономерности.

Да, абсолютная случайность - это нулевая гипотеза. Но в каждом конкретном случае она будет выглядеть по-своему.

April 2017

S M T W T F S
      1
23 45 678
9101112131415
16171819202122
23242526272829
30      

Syndicate

RSS Atom

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 25th, 2017 08:53 am
Powered by Dreamwidth Studios