средняя тенденция порядковых переменных определяется модой

Меры центральной тенденции. (мода, медиана, среднее. Свойства среднего)

К описательным статистикам обычно относят числовые характеристики распределения

измеренного на выборке признака. Основное назначение каждой из первичных описательных

Существуют три способа определения «центральной тенденции», каждому из которых

соответствует своя мера: мода, медиана и выборочное среднее.

Наиболее просто получаемой мерой центральной тенденции является мода. Мода— это такое значение из множества измерений, которое встречается наиболее часто. Моде,или модальному интервалу признака, соответствует наибольший подъем (вершина) графикараспределения частот. Если график распределения частот имеет одну вершину, то такоераспределение называется унимодальным.

Если распределение имеет несколько мод, то говорят, что оно мультимодально или многомодально (имеет два или более «пика»). Мультимодальность распределения дает важнуюинформацию о природе исследуемой переменной.

Мультимодальность также служит индикатором того, что выборка не является однородной и

наблюдения, возможно, порождены двумя или более «наложенными» распределениями.

Медиана— это такое значение признака, которое делит упорядоченное (ранжированное)

множество данных пополам так, что одна половина всех значений оказывается меньше

— если данные содержат нечетное число значений (8, 9, 10, 13, 15), то медиана есть центральное

— если данные содержат четное число значений (5, 8, 9, 11), то медиана есть точка, лежащая

посередине между двумя центральными значениями.

Среднее (выборочное среднее, среднее арифметическое)— определяется как сумма всехзначений измеренного признака, деленная на количество суммированных значений.

Среднее множества данных предполагает в основном арифметические операции. На величинусреднего влияют значения всех результатов.Каждая мера центральной тенденции обладает характеристиками, которые делают ее ценной вопределенных условиях.

Для номинальных данных, разумеется, единственной подходящей мерой центральной

Для порядковых и метрических переменных, распределение которых унимодальное и

симметричное, мода, медиана и среднее совпадают. Чем больше отклонение от

симметричности, тем больше расхождение между значениями этих мер центральной тенденции.По этому расхождению можно судить о том, насколько симметрично или асимметрично

экстремально малым или большим значениям переменной.

5. Меры изменчивости: дисперсия, стандартное отклонение, асимметрия, эксцесс.

Дисперсия выборки, или выборочная дисперсия (термин впервые введен Фишером), мера изменчивости для метрических данных, пропорциональная сумме квадратов отклонений

измеренных значений от их арифметического среднего. Чем больше изменчивость в данных,

тем больше отклонения значений от среднего, тем больше величина дисперсии.

Мерой изменчивости, тесно связанной с дисперсией, является стандартное отклонение.

Стандартное отклонение(сигма, среднеквадратическое отклонение) – положительное значение квадратного корня из дисперсии. Использование сигмы необходимо при составлениитаблиц средних для ваших приложений или для таблиц непосредственно находящихся в «теле» диплома, диссертации или статьи. Так как использование только среднего значения некорректно, то принято обозначать так: 5.62±1.97, где 5.62 – среднее, а 1.97 – стандартное

отклонение от среднего или сигма.

Для симметричного распределения асимметрия равна 0. Если чаще встречаются значения

меньше среднего, то говорят о левосторонней, или положительной асимметрии (Ас > 0). Если

Источник

Анализ порядковых переменных

При порядковом уровне измерения мы имеем больше информации, так как позиции упорядочены, т. е. проранжированы. Поэтому, с одной стороны, можно при желании, конечно, использовать понятие моды. Рассмотрим данные табл. 13.3. Очевидно, что модой здесь будет строка «Скорее положительно, чем отрицательно», так как ей соответствует наибольшее количество случаев – 430. Но, с другой стороны, упорядоченность позиций позволяет использовать более сложные понятия, такие, как медиана и дисперсия, обозначим их Ме и δ.

Медиана − значение (строка), выражающее среднюю тенденцию для порядковых переменных. Чтобы пояснить, как определяется медиана, обратимся к табл. 13.3.

Как Вы сегодня оцениваете состояние медицинского обслуживания?Абс. числаКумуляты
1. Положительно
2. Скорее положительно, чем отрицательно
3. Скорее отрицательно, чем положительно
4. Отрицательно

Здесь мы имеем упорядоченное распределение значений переменной: от «Положительно» через промежуточные значения до «Отрицательно».

Чтобы узнать медиану, нужно в каждую строку, двигаясь сверху (или, наоборот, снизу) вписывать сумму числовых значений предыдущих строк плюс числовое значение данной строки. Такая сумма с нарастанием называется кумулятой (накоплением). На табл. 13.3 кумуляты (они показаны в третьем столбце) определяются через движение от верхней строки вниз. Нам нужно определить строку, кумулята которой включает 50%. Это строка и будет медианой.

В нашем примере 50% выборки равны 571, так как вся выборка равна 1142. Число 571 входит в кумуляту третьей строки (949), которая, следовательно, является медианой. Итак, медианой в данном случае является значение «Скорее отрицательно, чем положительно»[25].

Теперь по аналогии с номинальным распределением мы должны выяснить, насколько медиана репрезентативна, в данном случае – насколько близко вокруг медианы группируются остальные значения переменной. Для этого нужно определить дисперсию распределения.

Мы делим всю выборку на шаги, их называют квантили (от слова «квант» – порция). Величина квантиля, вообще говоря, зависит от нашего выбора. Эти шаги-квантили могут быть равны 20% выборки (квинтельный шаг), или 25% (квартильный шаг), или 10% (децильный шаг), или 1% (персентильный шаг).

Общее правило таково: дисперсия равна разности между номером строки предпоследнего шага и номером строки первого шага. Запишем правило в виде формулы:

Здесь q – номер строки.

Возьмем в качестве шага 20% выборки. Вся выборка в таком случае исчерпывается в пять шагов. Первый шаг равен 228,4 (20% от 1142). Это число входит во вторую строку. Предпоследний, четвертый шаг равен 913,6 (80% от 1142), ему соответствует третья строка. Определяем дисперсию: 3 – 2 = 1.

Малая величина дисперсии говорит о том, что значения переменной достаточно близко группируются вокруг медианы и, следовательно, медиана репрезентативна.

Предположим теперь несколько иное распределение значений порядковой переменной (табл. 13.4).

Как Вы сегодня оцениваете состояние медицинского обслуживания?Абс. числаКумуляты
1. Положительно
2. 2. Скорее положительно, чем отрицательно
3. 3. Скорее отрицательно, чем положительно
4. Отрицательно

Здесь медиане будет соответствовать снова третья строка, то есть значение переменной «Скорее отрицательно, чем положительно».

Но первому шагу (228,4) будет соответствовать уже первая строка, а предпоследнему шагу (913,6) будет соответствовать четвертая строка. Дисперсия теперь равна 3 (4 – 1).

Большая дисперсия означает, что медиана не очень репрезентативна.

И действительно, мы видим, что основные числовые показатели (430 и 390) теперь не группируются вокруг медианы, они рассредоточены в крайних значениях переменной: первой и последней строках.

Попробуем выяснить, как должно выглядеть распределение переменной при нулевой дисперсии. В этом случае и первый и предпоследний шаги должны содержаться в одной строке.

Пусть это будет вторая строка. Это означает, что числовое значение первой строки должно быть меньше 228,4, а кумулята второй строки должна быть больше или равна 913,6. Строим соответствующую табл. 13.5.

Как Вы сегодня оцениваете состояние медицинского обслуживания?Абс. числаКумуляты
1. Положительно
2. Скорее положительно, чем отрицательно
3. Скорее отрицательно, чем положительно
4. Отрицательно

Мы видим, что при нулевой дисперсии вторая строка, которая одновременно соответствует медиане, сосредоточивает в себе подавляющее большинство значений переменной – около 80%.

Посмотрим теперь, как изменятся дисперсии, если мы выберем шаг в 25% выборки. Теперь должно быть всего четыре шага. Вернемся к табл. 13.3. Здесь первый шаг равен 285,5 (25% от 1142). Он снова оказывается во второй строке. Предпоследний, третий шаг равен 856,5 (75% от 1142). Он тоже оказывается в третьей строке. Дисперсия тоже равна 1.

В табл. 13.4 первый шаг в 25% оказывается в первой строке, а предпоследний шаг – в четвертой строке. Дисперсия равна 3 (4 – 1). Получается, что в табл. 13.4 медиана тоже менее репрезентативна, чем в табл. 13.3.

Выясним, чему будут равны дисперсии при децильном шаге, то есть 10% от выборки. Здесь вся выборка исчерпывается в 10 шагов.

В табл. 13.3 первый шаг будет равен 114,2 (10% от 1142), ему соответствует первая строка, предпоследний шаг будет равен 1027,8 (90% от 1142), ему соответствует четвертая строка. Дисперсия будет равна 3 (4 – 1).

В табл. 13.4 первому шагу будет соответствовать первая строка, предпоследнему шагу будет соответствовать четвертая строка. Дисперсия будет снова равна 3 (4 – 1).

Итак, можно считать, что в общем и целом медиана табл. 13.3 репрезентативней медианы табл. 13.4, хотя обе медианы находятся в одной и той же строке.

средняя тенденция порядковых переменных определяется модой

Рассмотрим случай, когда значений переменной больше 4. Допустим, мы заинтересовались распределением работников различного уровня квалификации в случайной выборке из 100 любителей подледного лова. Здесь мы имеем пять значений порядковой переменной (см. табл. 13.6).

Начинаем с определения медианы. Исследуя столбец с кумулятами, обнаруживаем, что 50% выборки, так сказать, экватор, находится между второй и третьей строками. Действительно, двигаясь сверху, мы набираем 50% выборки во второй строке, а двигаясь снизу (четвертый столбец), получаем 50% выборки в третьей строке. Это означает, что медианой будут одновременно значения переменной «Рабочий средней квалификации» и «Рабочий высокой квалификации».

Любители подледного ловаАбс. числаКумуляты сверхуКумуляты снизу
1. Рабочие низкой квалификации
2. Рабочие средней квалификации
3. Рабочие высокой квалификации
4. Инженеры среднего звена
5. Инженеры высшего звена

Определяем дисперсию при шаге 20%. Первый шаг соответствует числу 20, которое входит в числовое значение первой строки. Предпоследний шаг соответствует числу 80, которое входит в кумуляту четвертой строки. Дисперсия равна 3 (4 – 1).

Получается, что наиболее типичной фигурой среди любителей подледного лова является рабочий средней или высокой квалификации, причем типичность этой фигуры не так уж велика ввиду большой дисперсии.

Определим дисперсию при шаге 10%. Первый шаг соответствует числу 10, которое входит в числовой значение первой строки. Предпоследний шаг соответствует числу 90, которое входит в кумуляту пятой строки. Дисперсия равна 4 (5 – 1).

Следует заметить, что при больших дисперсиях, так как медиана является мало репрезентативной, распределение лучше рассматривать по аналогии с номинальным уровнем.

Например, в последнем случае можно принять в качестве моды значение переменной «Рабочий низкой квалификации» с коэффициентом вариации 0,7 (1 – 30/100).

Или в случае табл. 13.4, где тоже большая дисперсия, можно определить в качестве моды значение переменной «Положительно» с коэффициентом вариации 0,62 (1 – 430/1142) или рассматривать распределение как бимодальное (моды – первая и последняя строки).

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Источник

Меры центральной тенденции

Меры центральной тенденции (measures of central tendency) — способы осмысления центральной или средней позиции множества наблюдений, оценок, группы чисел и т.д.

На практике существуют большое разнообразие мер центральной тенденции (например, взвешенное, винсоризованное, гармоническое, геометрическое средние, среднее Колмогорова и др), но чаще всего встречаются:

Мода — типичность — максимальная частота — наиболее часто встречающееся значение в совокупности наблюдений. Применяется, например, для определения размера одежды, обуви, калибра патронов, пользующихся популярностью у покупателей, анализа технических экспериментов, а также определение часто встречающегося значения среди данных, имеющих не числовую природу происхождения (например, цвета: синий, красный, желтый, синий, зеленый…).

средняя тенденция порядковых переменных определяется модой

Давайте найдем моду — максимально встречающееся значение в данной совокупности:

средняя тенденция порядковых переменных определяется модой

Рассчитаем значение моды в Excel

средняя тенденция порядковых переменных определяется модой

У нас получилось 13. Т.е. максимально часто встречающееся значение в данной совокупности является значение 13.

Но если построить график, то получается такая картина

средняя тенденция порядковых переменных определяется модой

Видим, что на анализируемый показатель влияет 2 значения: это значения показателей 6, который встречается 16 раз и 13, встречающийся 17 раз. Например, такая ситуация может возникнуть при выборе кандидата в президенты: первая вершина — отданные голоса городского населения, вторая — сельского. Такой эффект называется мультимодальностью и, как правило, указывает что набор данных не подчиняется нормальному распределению.

Среднее арифметическое

Среднее арифметическое — сумма всех чисел, деленное на их количество, зависимое от разброса наблюдений.

средняя тенденция порядковых переменных определяется модой

Например, среднее арифметическое чисел 3, 7, 11 будет:
(3+7+11) /3 = 7.

Недостатком данной меры является чувствительность к различным отклонениям и неоднородностям в выборке, другими словами, оно подвержено существенным искажениям со стороны «отщепенцев» (значений) резко отклоняющихся от центра распределения. Для распределений с большим коэффициентом асимметрии может не соответствовать понятию среднего.

средняя тенденция порядковых переменных определяется модой

В приведенном примере аномальные значения («отщепенцы») будут наращивать среднее значение: если считать среднее арифметическое число проблем с качеством на 1 принтер, то получим 9,1. Впечатляющая цифра! Медиана проблем равняется 1.

Чтобы уяснить эту концепцию представьте 3-х мужчин, сидящих за барной стойкой.

средняя тенденция порядковых переменных определяется модой Пример искажения среднего

Предположим, что у каждого из мужчин годовой доход составляет 42 000 долларов. Но тут, с попугаем на плече, к ним подсаживается Роман Абрамович, с годовым доходом 955 000 000 долларов.

Если подсчитать средний доход 4-х сидящих мужчин за барной стойкой (т.е. с Романом Абрамовичем), то мы ошибочно будем полагать что он составляет 238 781 500 долларов. Что на самом деле не соответствует действительности.

Медиана

Медиана — середина — уровень показателя, который делит набор данных на 2 равные половины (50/50). Она не присваивает наблюдениям весовые коэффициенты исходя из того, на сколько они отдалены от средней точки, а лишь оценивает их в зависимости от расположения.

Развивая мысль можно также делить медиану на четверти — квартили:

Еще один вариант разделить на децили, каждый из которых включает в себя 10% наблюдений. Например, если ваш расход топлива бензинового двигателя автомобиля в верхнем дециле общего распределения расходов топлива всех бензиновых двигателей, то это означает, ваш двигатель сжигает топлива больше, чем 90% остальных двигателей.

Разбив распределение на сотые доли получим процентили — 1% распределения: первый процентиль представляет нижний 1% данного распределения, а 99-й — его верхний 1%.

Рассмотрим набор нормально распределенных случайных чисел.

средняя тенденция порядковых переменных определяется модой

В данном примере видим идеальную ситуацию когда медиана, среднее арифметическое и мода совпадают. Но, если рассмотреть ассиметричное распределение, которое может возникать при проведении технических замеров, например, скорости, может сложиться такая ситуация

средняя тенденция порядковых переменных определяется модой

Как видим из графика у нас присутствуют аномальные значения («отщепенцы»): 23, 28, 30, влияющие на среднее арифметическое, но никак не затрагивающие медиану.

Медиана — альтернатива среднему арифметическому, устойчивая к аномальным отклонениям («отщепенцам»).

Вывод

При выборе меры центральной тенденции нужно учитывать ее устойчивость к значениям, резко отклоняющихся от центра применяемых в каждом конкретном случае. Нужно определить какое влияние оказывают «отщепенцы»: искажают его или наоборот играют важную роль.

Окончательный выбор меры центральной тенденции всегда лежит за исследователем.

Источник

Меры центральной тенденции

Меры центральной тенденции указывают на расположение среднего, или типичного, значения признака, вокруг которого предположительно сгруппированы остальные наблюдения. Для каждого типа шкал существует свой, наиболее предпочтительный способ вычисления меры центральной тенденции: для номинальных переменных – это мода, для порядковых – медиана, для числовых – среднее. Также среднее арифметическое можно считать для дихотомических переменных закодированных нулями и единицами. Ниже мы более подробно рассмотрим данные три меры центральной тенденции.

Мода (номинальные переменные). Мода – это такое значение признака,

которое встречается чаще всего. Для номинальных переменных мода – единственный способ указать наиболее типичное, распространенное значение. Например, в числовом ряде 3, 4, 5, 3, 3, 3, 4, 4, 5, 3, 3 модальным будет являться значение 3. Естественно, числовой ряд может содержать не обязательно одну, но и две, и три моды. Например, вариационный ряд 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4,

4 содержит две моды «1» и «2». Моду или наиболее часто встречающееся значение можно считать для любого типа шкал.

Медиана (порядковые или ординальные переменные). Медиана – это значение признака, которое делит вариационный ряд пополам, так что одна

половина наблюдений оказывается меньше медианы, другая – больше. Иными

словами медиана – это 50-й процентиль распределения. Например, у нас имеется ряд чисел: 1, 2, 3, 1, 1, 1, 2, 2, 2, 3, 2, 2, 3. Чтобы найти медиану мы должны сначала его упорядочить: 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3. Далее можно уже сказать, что медианой будет 2. Если число переменных в группе наблюдений четное, то медианой будет среднее двух центральных значений. Следует отметить, что на медиану не влияют величины «крайних» очень больших или малых значений. Так как для того, чтобы найти медиану, мы должны сначала упорядочить числовой ряд, надо изначально иметь переменные подлежащие упорядочиванию, то есть порядковые или числовые.

Среднее арифметическое (числовые, интервальные переменные). Для количественных переменных самая важная и распространенная мера центральной тенденции – среднее арифметическое. Процедура вычисления среднего следующая: нужно просуммировать все значения наблюдений и разделить полученную сумму на число наблюдений:

где Хi – наблюдаемые значения, n – число наблюдений.

Суть данной меры в том, что сумма расстояний от среднего арифметического

до объектов, имеющих большее значение, равна сумме расстояний до объектов,

имеющих меньшее значение. Поэтому, естественно, что мы можем ее использовать только для шкал, где вычисление расстояний между объектами имеет смысл, то есть для числовых шкал.

Далее следует отметить, что для номинальных дихотомических признаков, закодированных нулями и единицами, можно считать среднее арифметическое (и соответственно дисперсию), нужно лишь уметь правильно интерпретировать

полученный результат. Например: 0 – мужчины; 1 – женщины. Тогда ⎯Х в нашем

случае будет равно k/n, где k – число женщин (или признаков равных 1).

Если ⎯Х = 0, значит в нашей выборке одни мужчины.

Если ⎯Х = 1, значит в нашей выборке одни женщины.

Если ⎯Х = 0,5, значит половина женщин и половина мужчин.

Источник

Меры центральной тенденции: мода, медиана, среднее.

Мера центральной тенденции (Central Tendency) — ^то число, характеризую­щее выборку по уровню выраженности измеренного признака. ч Существуют три способа определения «центральной тенденции», каждо­му из которых соответствует своя мера: мода, медиана и выборочное среднее.

Мода (Mode) — это такое значение из множества измерений, которое встре­чается наиболее часто. Моде, или модальному интервалу признака, соответ­ствует наибольший подъем (вершина) графика распределения частот. Если график распределения частот имеет одну вершину, то такое распределение Называется унимодальным.

Когда два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений.

Распределение может иметь и не одну моду. Когда все значения встреча­ются одинаково часто, принято считать, что такое распределение не имеет моды.

Бимодальное распределение имеет на графике распределения две вершины, даже если частоты для двух вершин не строго равны. В последнем случае вы­деляют большую и меньшую моду. Во всей группе может быть и несколько локальных вершин распределения частот. Тогда выделяют наибольшую моду и локальные моды.

Еще раз отметим, что мода — это значение признака, а не его частота.

Медиана (Median) — это такое значение признака, которое делит упорядо­ченное (ранжированное) множество данных пополам так, что одна половина всех значений оказывается меньше медианы, а другая — больше. Таким обра­зом, первым шагом при определении медианы является упорядочивание (ран­жирование) всех значений по возрастанию или убыванию. Далее медиана определяется следующим образом:

если данные содержат нечетное число значений (8, 9, 10, 13, 15), то ме­диана есть центральное значение, т. е. Md=10;

если данные содержат четное число значений (5, 8, 9, 11), то медиана есть точка, лежащая посередине между двумя центральными значения­ми, т. е. Md =(8+9)/2 = 8,5.

Среднее (Mean) (Мх — выборочное среднее, среднее арифметическое) — определяется как сумма всех значений измеренного признаку, деленная на 1 количество суммированных значений.

Если некоторый признак X измерен в группе испытуемых численностью N, мы получим значения: х1, х2,. xi . хn (где i — текущий номер испытуе­мого, от 1 до N). Тогда среднее значение Мx определяется по формуле:

средняя тенденция порядковых переменных определяется модой

Назначение критерия

Критерий используется для оценки различий между двумя вы­борками по уровню какого-либо признака, количественно измеренного. В каждой из выборок должно быть не менее 11 испытуемых.

Гипотезы

H0: Уровень признака в выборке 1 не превышает уровня признака в выборке 2.

H1: Уровень признака в выборке 1 превышает уровень признака в вы­борке 2.

Ограничения критерия Q

1. В каждой из сопоставляемых выборок должно быть не менее 11 на­блюдений. При этом объемы выборок должны примерно совпадать. Е.В. Гублером указываются следующие правила:

а) если в обеих выборках меньше 50 наблюдений, то абсолютная ве­личина разности между n1 и n2 не должна быть больше 10 на­блюдений;

б) если в каждой из выборок больше 51 наблюдения, но меньше 100, то абсолютная величина разности между щ и Л2 не должна быть больше 20 наблюдений;

в) если в каждой из выборок больше 100 наблюдений, то допуска­ется, чтобы одна из выборок была больше другой не более чем в 1,5-2 раза (Гублер Е.В., 1978, с. 75).

2. Диапазоны разброса значений в двух выборках должны не совпадать между собой, в противном случае применение критерия бессмыслен­но. Между тем, возможны случаи, когда диапазоны разброса значе­ний совпадают, но, вследствие разносторонней асимметрии двух рас­пределений, различия в средних величинах признаков существенны.

17. Uкритерий Манна-Уитни

Назначение критерия

Критерий предназначен для оценки различий между двумя вы­борками по уровню какого-либо признака, количественно измеренного. Он позволяет выявлять различия между малыми выборками, когда n1•n23 или n1=2, n2≥5, и является более мощным, чем критерий Ро­зенбаума.

Чем меньше область перекрещивающихся значений, тем более ве­роятно, что различия достоверны. Иногда эти различия называют раз­личиями в расположении двух выборок.

Эмпирическое значение критерия U отражает то, насколько вели­ка зона совпадения между рядами. Поэтому чем меньше Uэмп, тем более вероятно, что различия достоверны.

Гипотезы

Н0: Уровень признака в группе 2 не ниже уровня признака в группе 1.

H1: Уровень признака в группе 2 ниже уровня признака в группе 1.

Ограничения критерия U

1. В каждой выборке должно быть не менее 3 наблюдений: n1•n2≥3; допускается, чтобы в одной выборке было 2 наблюдения, но тогда во второй их должно быть не менее 5.

2. В каждой выборке должно быть не более 60 наблюдений; n1•n2≤60. Однако уже при n1•n2>20 ранжирование становиться достаточно трудоемким.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *