Вчера пришла в голову мысль -- парадокс количества участников.
Может уже придуман такой, но я не встречал. Когда я подсчитывал вероятность того, что мой ответ будет выбран (проект Ответы mail.ru) заметил такую аномалию. Суть:
Человек задает вопрос. На этот вопрос приходит несколько ответов (в среднем до 5--10 ответов). Затем вопрос закрывается. Допустим, в среднем на один вопрос приходит 7 ответов. Я подсчитал, так как в среднем на один вопрос отвечают 7 независимых пользователей, то в тех вопросах на которые отвечаю я будет в среднем 7+1=8 ответов, так как независимое (предположим) событие (мой ответ на вопрос) УЖЕ произошло со 100% вероятностью. Так это получается, что среднее количество ответов в тех вопросах в которых отвечал я будет 8, а среднее количество где я не отвечал подсчитано как 7. ПАРАДОКС: у наблюдаемых независимых пользователей, которые ответили на вопрос в среднем 7 ответов, а у меня в среднем -- 8. Но пользователи точно такие же участники, как и я, но у них получается в среднем 7, а у меня 8.
Можно пойти дальше. Вы приходите в группу. Группа в среднем насчитывает 10 человек. Но так как независимое событие произошло -- вы пришли, то группа в среднем будет насчитывать 11.
(парадокс решается не с помощью подсчета среднего, а спомощью подсчета вероятности нахождения участника в той или иной группе, чем больше группа тем больше вероятность нахождения участника в ней)
Он решается.
N_A личная фото-галерея 2011-05-17 14:51:45 |
"... в среднем на один вопрос отвечают 7 независимых пользователей.." В множество независимых пользователей себя включить не забыл? |
Constryctor личная фото-галерея 2011-05-17 18:22:50 |
>>В множество независимых пользователей себя включить не забыл? Среднее количество пользователей -- 7. Среднее количество ответов на вопросы в которых я не учавствую 7. В которых я учавствую -- 7+1 (вместе с моим ответом). Так так почему же для независимого участника средняя величина ответов на вопрос -- 7, а для меня -- 8 ответов. |
N_A личная фото-галерея 2011-05-17 20:30:35 |
"Среднее количество пользователей -- 7." - это с тобой или без тебя? упростим для ясности: пусть всегда 7 ответов на любой вопрос. среднее равно 7, дисперсия 0. такое вот у нас вырожденное распределение. назовем это множество "случайных" значений А. твои ответы участвуют в формировании значений этого множества. подмножество вопросов, где участвовал ты, назовем Б. Очевидно, что среднее там тоже 7. И оно не меняется от того на какой процент вопросов ты отвечал. такой же результат среднего даст подмножество вопросов, где ты не участвовал. или я чего-то не уловил.
|
Constryctor личная фото-галерея 2011-05-21 00:44:00 |
График Диаграмма отражает распределение вопросов по признаку количества ответов. Зеленым выделен столбик вопросов с 11 ответами. Таких вопросов на которые даны 11 ответов всего 8. А сумма ответов во всех вопросах в которых есть 11 ответов 11*8=88. Подвох в том, что было ДВЕ разных средних виличины: 1. Среднее количество ответов на вопросы (7), это же значение является модальным (наиболее популярным). 2. Среднее количество ответов других пользователей в вопросах в которых они отвечали. Все эти значения вычисляются как средние взвешенные, вот только веса разные. Первое значение (Среднее количество ответов на вопросы) будет вычисляться так (X0*Q0+X1*Q1+...+X11*Q11)/(Q0+Q1+...+Q11) где Xn -- количество ответов на вопрос содержащих n ответов. Собственно Xn=n Qn --количество таких вопросов, которые отражены высотой столбика диаграммы. Вторая влеичина (Среднее количество ответов других пользователей в вопросах в которых они отвечали) будет вычисляться по-другому. (X0*S0+X1*S1+...+X11*S11)/(S0+S1+...+S11) Где Sn=Qn*Xn -- сумма ответов на вопросы получившие n ответов. Как видно, разные веса. Т.е. мы вычисляли принципиально разные величины и среднее количество ответов на вопрос это совершенно иная величина по сравнению со средним количеством ответов других пользователей в вопросах в которых они отвечали. То есть если я ответил на 4 вопроса, которые получили 4, 8, 6 и 6 ответов, то эта величина будет (4+8+6*2)/4=6 ответов. Т.е. это две разные средние принятый в парадоксе за одну. С точки зрения здравого смысла все понятно. Если есть 10 вопросов с таким распределением ответов:0,0,0,0,2,3,10,5,5,9, то вопросы в которых 0 ответов считаются только при вычислении среднего количества ответов (0*4+2+3+10+5*2+9)/10, а при вычислении второго показателя они роль не играют.
|
Finarfin 2011-05-30 23:09:51 |
новая иллюстрация парадокса брадобрея |
Constryctor личная фото-галерея 2011-06-01 10:15:22 |
новая иллюстрация парадокса брадобрея Нет, не то. Здесь статистика. Решу на вскидку: УТВЕРЖДЕНИЕ: Брадобрей брил всех, кто не брил себя. ИЛИ: Тот кто брил себя, тот не брился у брадобрея. Тот, кто себя не брил -- брился у брадобрея. ВОПРОС: Брил ли он сам себя. СУТЬ ПРОТИВОРЕЧИЯ: Если он брил себя, то получается, что он бреет того, кто бреет себя. Если он не брил себя, то получается, что он не бреет тех, кто не бреет себя. Противоречие в обоих утверждениях. РЕШЕНИЕ: Нужно признать, что не верно само утверждение. Множество тех, кто брился сам пересекается со множеством тех, кто брился у брадобрея. А в утверждении это отрицается. |