Учебники по программированию - страница 11

 

Типы данных


Типы данных

Всем привет! Сегодня мы обсудим классификацию данных, которая включает два основных типа: количественные и категориальные данные.

Количественные данные состоят из числовых измерений или подсчетов. Он имеет дело с данными, которые могут быть измерены или выражены в числовом выражении. Примеры количественных данных включают рост женщин в Южной Америке, вес новорожденных в британских больницах и количество безработных в каждой стране мира.

С другой стороны, категориальные данные, также известные как качественные данные, состоят из меток или дескрипторов. Он включает данные, которые можно сгруппировать в категории или классы. Примеры категориальных данных включают цвет глаз кошек, принадлежность избирателей к политическим партиям и предпочитаемые потребителями марки безалкогольных напитков.

Иногда может быть сложно определить тип данных, особенно когда они представлены в виде чисел. Быстрый способ провести различие между категориальными и количественными данными состоит в том, чтобы рассмотреть, имеют ли смысл числовые операции, такие как вычисление средних значений. Если данные просто помечены и не соответствуют значимым измерениям или подсчетам, их следует считать категоричными. Например, номера на бейсбольных футболках не имеют количественного значения и должны классифицироваться как категориальные данные.

Категориальные данные можно разделить на два типа: порядковые и номинальные. Порядковые данные используют категории, которые имеют значимый порядок. Знакомым примером является шкала Лайкерта, которая предлагает такие варианты, как «категорически не согласен», «не согласен», «нейтрально», «согласен» и «полностью согласен». Эти категории можно ранжировать в естественном порядке. Напротив, номинальные данные используют категории, которые не имеют значимого порядка. Примеры включают политическую принадлежность, пол и любимые безалкогольные напитки. Хотя мы могли бы наложить порядок на номинальные данные, это было бы произвольно и основано на личном мнении.

Точно так же количественные данные можно разделить на два типа: отношение и интервал. Данные соотношения позволяют использовать значимые соотношения и кратные числа. В эту категорию попадают такие переменные, как доход, вес и возраст. Имеет смысл сказать, что один человек вдвое старше другого или что кто-то зарабатывает вдвое меньше денег, чем другой. С другой стороны, интервальные данные не поддерживают соотношения и кратные числа. Переменные, такие как температура и календарный год, являются примерами интервальных данных. Было бы неуместно говорить, что одна температура в два раза горячее другой, поскольку выбор нуля на шкале произволен и не свидетельствует об отсутствии измеряемого признака.

Чтобы определить уровень измерения, можно быстро проверить, соответствует ли ноль на шкале ничему или отсутствию. Если ноль означает отсутствие атрибута, это указывает на уровень отношения измерения. Например, ноль килограммов, 0 долларов или 0 лет означают, что нет ни веса, ни денег, ни возраста. Напротив, если ноль не означает отсутствие в каком-либо реальном смысле, он указывает на интервальный уровень измерения. Например, ноль градусов по Фаренгейту или ноль градусов по Цельсию — это просто произвольные точки на соответствующих шкалах.

Давайте рассмотрим несколько примеров, чтобы попрактиковаться в классификации и уровне измерения. Мы определим, являются ли переменные количественными или категориальными, и определим их уровень измерения:

  1. Время ожидания в банке: эти данные состоят из чисел и имеют смысл говорить о коэффициентах и мультипликаторах. Следовательно, это количественные данные на уровне измерения отношения.

  2. Пол лауреатов премии «Оскар» за лучшую режиссуру: эти данные являются категоричными и представляют собой идентификаторы, а не числа. Его нельзя ранжировать значимым образом, поэтому это категориальные данные на номинальном уровне.

  3. Названия книг в списке бестселлеров New York Times: поскольку это имена, данные категоричны. Кроме того, имена могут быть естественным образом упорядочены как первый, второй, третий бестселлеры и т. д., указывая порядковые данные.

  4. Время ударов молнии в Эмпайр-стейт-билдинг: эти данные количественные, поскольку они включают измерение времени между ударами молнии. Однако он подпадает под интервальный уровень измерения, поскольку отсутствует нулевая точка, отражающая отсутствие ударов молнии. Временные интервалы можно измерять и сравнивать, но ноль не означает отсутствие забастовок.

Таким образом, классификация данных включает в себя различие между количественными и категориальными данными. Количественные данные состоят из числовых измерений или подсчетов, а категориальные данные состоят из меток или дескрипторов. Важно учитывать, применяются ли числовые операции и значимые соотношения для определения типа данных.

Категориальные данные могут быть дополнительно классифицированы как порядковые или номинальные, в зависимости от того, существует ли значимый порядок среди категорий. Порядковые данные имеют естественное ранжирование, а номинальные — нет. Точно так же количественные данные могут быть классифицированы как отношения или интервалы в зависимости от того, существуют ли значимые отношения и множители. Данные об отношениях позволяют использовать отношения и кратные, а данные об интервалах — нет.

Понимание уровня измерения имеет решающее значение для выбора подходящего статистического анализа и правильной интерпретации данных. Уровень измерения определяет математические операции, которые можно выполнять с данными, и значение нуля на шкале.

Точно классифицируя и определяя уровень измерения данных, статистики и исследователи могут выбирать подходящие статистические методы и извлекать значимые выводы из своего анализа.

Types of Data
Types of Data
  • 2020.07.01
  • www.youtube.com
Quantitative vs. categorical data, and the levels of measurement of each. This is some of the fundamental vocabulary of science! If this vid helps you, pleas...
 

Аккуратные данные


Аккуратные данные

Привет всем, сегодня мы обсудим аккуратные данные, которые являются особенно удобным и распространенным форматом в приложениях для обработки данных. Несмотря на то, что существуют различные способы записи информации в электронную таблицу, аккуратные данные следуют трем простым принципам, обеспечивающим их организацию и полезность.

Во-первых, каждая строка аккуратных данных представляет одно и только одно наблюдение. Это означает, что каждая строка фиксирует все измерения и детали для одной экспериментальной единицы.

Во-вторых, каждый столбец представляет одну и только одну переменную. Переменные — это измеренные атрибуты во всех экспериментальных единицах, и каждый столбец фокусируется на определенной характеристике или аспекте.

Наконец, вся электронная таблица должна состоять только из одного типа наблюдений. Это гарантирует, что все данные в электронной таблице относятся к одному и тому же типу эксперимента или исследования.

Одним из существенных преимуществ аккуратных данных является простота их расширения. Если вы получаете новые наблюдения или точки данных, например новых субъектов в медицинском испытании, вы можете просто добавить новую строку внизу электронной таблицы. Точно так же, если вы хотите включить дополнительные переменные, вы можете добавить новые столбцы справа от существующих.

Давайте посмотрим на пару примеров. Набор данных «mtcars», доступный в R, представляет собой аккуратный набор данных. Каждая строка представляет отдельный автомобиль, а каждый столбец представляет определенную характеристику автомобилей. В идеале аккуратные наборы данных должны сопровождаться словарем данных, объясняющим значение каждой переменной и предоставляющим информацию о единицах измерения. Словарь данных может также включать в себя метаданные о наборе данных, такие как детали записи.

С другой стороны, набор данных «алмазы» в пакете «ggplot2» является еще одним примером аккуратных данных. Каждая строка соответствует одному бриллианту круглой огранки, а каждый столбец представляет характеристику бриллиантов.

Однако не все наборы данных аккуратны. Например, набор данных «строительство» в пакете «tidyverse» не является аккуратным, потому что две переменные, количество единиц и регион, распределены по нескольким столбцам.

Важно отметить, что неаккуратные данные не обязательно плохи, поскольку в реальных электронных таблицах часто используются свои собственные соглашения для конкретных целей. Однако, когда дело доходит до науки о данных и изучения взаимосвязей между переменными среди большого количества наблюдений, аккуратные данные часто более удобны для визуализации и моделирования.

В завершение я хочу упомянуть таблицы непредвиденных обстоятельств, которые являются распространенным форматом для неаккуратных данных. Таблицы непредвиденных обстоятельств отображают количество различных комбинаций категориальных переменных. Хотя они могут быть полезны, преобразование их в аккуратные данные с отдельными столбцами для каждой переменной и их соответствующими значениями может сделать данные более управляемыми и более легкими для анализа.

Таким образом, аккуратные данные следуют принципам одного наблюдения в строке, одной переменной в столбце и одного типа наблюдения во всей электронной таблице. Придерживаясь этих принципов, аккуратные данные обеспечивают структурированный и организованный формат, облегчающий исследование, визуализацию и моделирование данных в приложениях для обработки данных.

Tidy data
Tidy data
  • 2022.06.08
  • www.youtube.com
Tidy data is just the best. Let's learn all about it!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, cr...
 

Эксперименты и наблюдательные исследования


Эксперименты и наблюдательные исследования

Всем привет, сегодня мы обсудим эксперименты и наблюдательные исследования, которые являются двумя основными типами исследований в статистике. Понимание разницы между ними имеет решающее значение. Давайте рассмотрим каждый тип и их основные характеристики.

Эксперименты: в ходе эксперимента к разным частям образца применяются разные виды обработки, и наблюдают полученные в результате изменения. Основная задача – установить причину и следствие. Если между группами лечения есть разные результаты, мы стремимся отнести эти различия к конкретным методам лечения. Экспериментальные исследования предполагают активное влияние и манипулирование переменными.

Наблюдательные исследования. С другой стороны, наблюдательные исследования предполагают, что исследователи измеряют характеристики интересующей нас популяции, не пытаясь каким-либо образом повлиять на ответы. Наиболее распространенным типом наблюдательного исследования является выборочное обследование, при котором исследователи собирают данные, наблюдая и записывая информацию. Основное внимание уделяется пониманию взаимосвязей и закономерностей в наблюдаемых данных.

Давайте рассмотрим несколько примеров, чтобы отличить эксперименты от наблюдений:

Группа врачей изучает действие нового лекарства для снижения уровня холестерина, назначая его своим пациентам с высоким кровяным давлением. Это эксперимент, так как врачи применяют лечение и анализируют результаты.

Приматолог наблюдает за 10 шимпанзе в их естественной среде обитания, делая подробные записи об их социальном поведении. Это наблюдательное исследование, поскольку приматолог просто наблюдает и записывает поведение, не влияя на него.

Обойщик связывается с 500 мужчинами и 500 женщинами, спрашивая каждого о предпочтительном кандидате на предстоящих выборах. Это еще один пример наблюдательного исследования. Опросник собирает данные, не манипулируя участниками или их ответами.

Наблюдательные исследования могут быть сравнительными, как в предыдущем примере, когда мужчины и женщины контактируют отдельно для целей анализа. Однако, поскольку лечение не применяется, это остается обсервационным исследованием.

Определенные характеристики определяют хороший эксперимент. Он должен быть рандомизированным, контролируемым и воспроизводимым:

  • Рандомизация гарантирует, что испытуемые случайным образом распределяются по разным группам лечения. Ни исследователи, ни испытуемые не решают, кто какое лечение получает. Это помогает свести к минимуму систематическую ошибку и смешанные переменные.
  • Контроль подразумевает, что лечебные группы максимально идентичны, за исключением специфического лечения, которое они получают. Создание контрольной группы позволяет проводить точные сравнения и помогает установить причинно-следственные связи.
  • Репликация означает возможность повторить эксперимент и получить аналогичные результаты. Воспроизводимые эксперименты необходимы для проверки результатов и обеспечения надежности исследования.

В экспериментах часто сравнивают две или более лечебных групп, причем одна группа служит контролем. Контрольная группа обеспечивает базовый уровень для сравнения с группами, получающими определенные вмешательства.

Чтобы устранить эффект плацебо, когда субъекты реагируют на лечение, даже если оно не дает измеримого эффекта, экспериментаторы включают плацебо в контрольную группу. Плацебо — это лечение, которое, как известно, не имеет реального эффекта, например, сахарная таблетка или несвязанный урок для образовательных исследований.

В дополнение к рандомизации и контролю желательно, чтобы испытуемые распределялись по группам лечения по возможности дважды слепо. Это означает, что ни субъекты, ни сборщики данных не знают, кто находится в какой группе лечения. Двойной слепой метод помогает устранить систематическую ошибку и обеспечивает беспристрастные наблюдения и измерения.

Следует рассмотреть три важных плана эксперимента:

  • Полностью рандомизированный дизайн: Субъекты случайным образом распределяются по разным группам лечения без учета каких-либо дополнительных группировок или характеристик.
  • Рандомизированный дизайн блоков: Субъекты сначала делятся на группы на основе определенных характеристик, таких как возраст или пол, а затем случайным образом распределяются по группам лечения в каждом блоке. Этот дизайн позволяет исследователям анализировать, как лечение влияет на разные группы по отдельности.
  • Схема подбора пар: Субъекты объединяются в пары на основе сходства, а затем случайным образом распределяются по разным группам лечения. Этот дизайн позволяет проводить прямое сравнение между парами для оценки эффектов лечения.

Понимание этих типов дизайна помогает исследователям эффективно планировать эксперименты и делать осмысленные выводы на основе данных. Внедряя соответствующие экспериментальные планы, исследователи могут повысить достоверность и надежность своих выводов.

Таким образом, эксперименты и наблюдательные исследования - это два основных типа исследований в статистике. Эксперименты включают применение различных методов лечения и наблюдение за их эффектами для определения причины и следствия. С другой стороны, наблюдательные исследования сосредоточены на наблюдении и измерении характеристик без активного влияния на ответы.

Хороший эксперимент должен включать рандомизацию, контроль и воспроизводимость. Рандомизация обеспечивает беспристрастное распределение субъектов по группам лечения, контроль сводит к минимуму смешанные переменные, а повторение позволяет проверить результаты. Кроме того, включение контрольной группы и учет эффекта плацебо являются важными аспектами планирования эксперимента.

Различные экспериментальные планы, такие как полностью рандомизированный дизайн, рандомизированный план блоков и дизайн подобранных пар, обеспечивают гибкость при решении конкретных вопросов исследования и приспосабливании к различным сценариям исследования.

Понимая различия между экспериментами и наблюдательными исследованиями и используя соответствующие схемы экспериментов, исследователи могут проводить тщательные исследования, делать содержательные выводы и вносить свой вклад в развитие знаний в соответствующих областях.

Помните, что при планировании исследования тщательно продумайте вопрос исследования, природу переменных и доступные ресурсы, чтобы определить наиболее подходящий подход — будь то эксперимент или наблюдательное исследование.

Experiments and Observational Studies
Experiments and Observational Studies
  • 2020.07.02
  • www.youtube.com
Some essential ideas in statistical research. We discuss randomization, control, blinding, placebos, and more. If this vid helps you, please help me a tiny b...
 

Введение в статистическую выборку


Введение в статистическую выборку

Всем добрый день! Сегодня мы погружаемся в увлекательный мир статистической выборки. В идеальном сценарии проведение исследования включало бы сбор данных обо всем интересующем нас населении, подобно переписи населения. Однако на практике это часто нецелесообразно или невозможно. Рассмотрите следующие исследовательские вопросы: Какова средняя продолжительность жизни голубей в Нью-Йорке? Эффективен ли новый препарат для снижения уровня холестерина ЛПНП у пациентов старше 45 лет? Какой процент избирателей одобряет деятельность президента? В каждом случае сбор данных по всему населению невозможен. Поэтому мы обращаемся к более управляемому подходу: выборке.

Выборка включает выбор подмножества или выборки из совокупности для представления и получения выводов обо всей совокупности. Однако не все методы выборки одинаково надежны. Давайте обсудим пару некорректных подходов к выборке. Во-первых, следует скептически относиться к неофициальным свидетельствам, состоящим из личных свидетельств лиц, известных исследователю. Например, опора исключительно на такие утверждения, как «Эта таблетка помогла всей моей семье» или «Сегодня я разговаривал с тремя людьми, которые одобряют президента», может привести к предвзятым результатам. Точно так же удобная выборка, когда данные собираются из легкодоступных источников, таких как политический опрос, проведенный в близлежащем парке, или психологическое исследование с участием студентов профессора, может внести систематическую ошибку из-за неслучайного выбора участников.

Чтобы гарантировать достоверность наших выводов, крайне важно использовать случайную выборку. В случайной выборке случайный процесс определяет, какие лица из населения включены, при этом каждый член имеет равные шансы быть выбранным. Цель случайной выборки состоит в том, чтобы избежать систематической ошибки выборки, которая возникает, когда статистика, полученная из выборки, систематически завышает или занижает параметр генеральной совокупности. Важно отметить, что статистические данные, полученные из случайных выборок, по-прежнему демонстрируют изменчивость, поскольку отдельные выборки могут отличаться от генеральной совокупности из-за процесса случайного отбора. Однако в среднем статистика будет равна параметру населения.

Давайте рассмотрим некоторые типы случайной выборки. Самый простой и интуитивно понятный подход — это простая случайная выборка (SRS), где каждая выборка одинакового размера имеет равные шансы быть выбранной. Обычно это достигается путем получения списка членов населения, присвоения им номеров и использования генератора случайных чисел для выбора желаемого количества людей. В стратифицированной выборке население делится на группы или страты на основе важных характеристик, таких как возраст, пол или раса. Затем из каждой группы берется простая случайная выборка, что позволяет проводить отдельный анализ различных подгрупп в совокупности. В кластерной выборке население делится на естественные или подобные группы или кластеры. Выбирается случайная выборка кластеров, и каждый член выбранных кластеров включается в выборку. Многоступенчатая выборка объединяет эти методы путем выбора кластеров, затем случайных выборок в каждом кластере, при необходимости повторяя процесс.

Теперь давайте применим эти концепции к некоторым примерам и определим используемые методы выборки. В первом примере социолог случайным образом связывается с 400 мужчинами и 400 женщинами, спрашивая их об их предпочтительном кандидате на предстоящих выборах. Это пример стратифицированной выборки, поскольку она собирает информацию как о мужчинах, так и о женщинах, а в каждой группе делается простая случайная выборка. Во втором примере исследователи случайным образом выбирают 50 средних школ и проводят экзамен по математике для всех учащихся этих школ. Это кластерная выборка, где рандомизация происходит на уровне школы, а перепись проводится в выбранных школах.

В третьем примере автосалон использует список клиентов для случайного выбора 200 предыдущих покупателей автомобилей и связывается с каждым из них для опроса удовлетворенности. Это типичный пример простой случайной выборки, поскольку каждая группа из 200 клиентов имеет равные шансы быть выбранной. Наконец, медицинская группа случайным образом выбирает 35 больниц США, а затем берет случайную выборку из 50 пациентов из каждой больницы, чтобы изучить стоимость их лечения. Этот сценарий демонстрирует многоступенчатую выборку. Первоначально кластеры (больницы) выбираются случайным образом, после чего проводится простая случайная выборка в каждой выбранной больнице.

В заключение стоит упомянуть еще один метод выборки, известный как систематическая выборка. Хотя это и не форма случайной выборки, ее можно использовать в качестве замены при определенных обстоятельствах. В систематической выборке члены совокупности отбираются по заранее определенному образцу. Например, продуктовый магазин может опросить каждого 20-го человека, выходящего из магазина, чтобы оценить степень удовлетворенности покупателей. Систематическая выборка может быть столь же эффективной, как и случайная выборка, когда совокупность однородна, то есть в ней нет соответствующих закономерностей. Однако необходимо проявлять осторожность, чтобы убедиться, что модель выборки не совпадает с какой-либо существующей моделью в генеральной совокупности, поскольку это может привести к систематической ошибке.

Подводя итог, можно сказать, что статистическая выборка является жизненно важным инструментом, когда нецелесообразно или невозможно собрать данные по всей совокупности. Методы случайной выборки, такие как простые случайные выборки, стратифицированные выборки, кластерные выборки и многоступенчатые выборки, помогают снизить систематическую ошибку выборки и повысить вероятность получения репрезентативных и непредвзятых результатов. Хотя случайные выборки вносят изменчивость, полученные на их основе статистические данные в среднем совпадают с параметрами генеральной совокупности. Понимание сильных и слабых сторон различных методов отбора проб имеет решающее значение для проведения надежных и точных исследований.

Introduction to Statistical Sampling
Introduction to Statistical Sampling
  • 2020.07.06
  • www.youtube.com
Let's talk about sampling techniques! What is a random sample, and why are they desirable? What is sampling bias, and what are some of the ways it can creep ...
 

Систематическая ошибка и изменчивость в статистике


Систематическая ошибка и изменчивость в статистике

Всем привет! Сегодня мы углубимся в концепции предвзятости и изменчивости в статистике. Главной целью статистического вывода является получение выводов о совокупностях на основе выборочных данных. Для этого мы часто используем статистику, которая представляет собой числовое описание выборки, для оценки соответствующих параметров, которые являются числовым описанием совокупности.

Чтобы проиллюстрировать это, давайте рассмотрим пример. Предположим, опрос 1200 избирателей показал, что кандидат А опережает кандидата Б на 8 процентных пунктов. Мы можем рассматривать эту разницу в 8 очков как статистику, оценку ожидаемой победы Кандидата А. С другой стороны, фактический результат выборов, который представляет собой истинную разницу в поддержке между кандидатами, представляет собой параметр.

В некоторых случаях статистика и параметр будут идеально совпадать. Однако чаще всего они будут в некоторой степени отличаться. Например, фактический результат выборов может показать, что кандидат А выигрывает с преимуществом в 7,8 процентных пункта. Хотя такие отклонения могут возникать из-за случайности, они могут создавать проблемы при оценке качества статистики.

Это приводит нас к понятию предвзятости. Статистика, представленная как P-шляпа, считается несмещенной, если в среднем она равна соответствующему параметру, обозначенному как P. Другими словами, хорошая статистика не должна систематически завышать или занижать параметр. Важно отметить, что здесь мы используем термин «предвзятость» в техническом смысле, не связанном с предрассудками или дискриминацией.

Несколько распространенных источников систематической ошибки могут повлиять на опросы. Систематическая ошибка выборки возникает, когда не все члены совокупности имеют равные шансы быть отобранными в случайной выборке. Например, если телефонный опрос исключает сотовые телефоны, он может исказить результаты в пользу пожилых людей, что потенциально может отличаться от взглядов населения в целом. Систематическая ошибка, связанная с отсутствием ответов, возникает, когда те, кто отказывается от участия в опросе, отличаются от тех, кто это делает, что может привести к систематической ошибке в собранных данных.

Асимметричные вопросы или предвзятые формулировки могут повлиять на ответы респондентов определенным образом, внося предвзятость в результаты. Предвзятость социальной желательности возникает, когда респонденты склонны давать ответы, которые являются социально приемлемыми или рассматриваются положительно. Например, если людей спросят об их практике гигиены полости рта, они могут переоценить количество раз, когда они чистили зубы, из-за предвзятости социальной желательности.

В экспериментальных исследованиях систематическая ошибка может быть связана с такими факторами, как отсутствие контроля или ослепление. Если экспериментальные группы отличаются не только применяемым лечением, это может привести к систематической ошибке в результатах. Рандомизация имеет решающее значение для обеспечения единообразия и уменьшения систематической ошибки.

В то время как несмещенная статистика направлена на точную оценку параметра, изменчивость объясняет тенденцию статистики варьироваться в разных случайных выборках. Даже при использовании метода беспристрастной выборки каждая случайная выборка, скорее всего, даст разные статистические данные только благодаря случайности. Важно отметить, что изменчивость не является формой предвзятости. Тот факт, что опрос не предсказал точно исход выборов, не обязательно означает, что он был ошибочным.

Чтобы наглядно представить разницу между предвзятостью и изменчивостью, представьте, что вы бросаете дротики в яблочко. Низкая изменчивость и низкая погрешность означают, что ваши дротики постоянно попадают в цель, плотно сгруппировавшись вокруг мишени. Высокая изменчивость, но низкая погрешность привели бы к разбросанным дротикам, все еще сосредоточенным вокруг яблочка. И наоборот, высокая изменчивость и высокая предвзятость привели бы к широко разбросанным дротикам, которые постоянно не попадали бы в яблочко. Однако даже при наихудшем сценарии исследование может один раз попасть в яблочко, что указывает на то, что иногда могут возникать правильные результаты, несмотря на высокую предвзятость и изменчивость.

Понимание предвзятости и изменчивости необходимо для оценки качества статистики и точной интерпретации результатов исследований.

Bias and Variability in Statistics
Bias and Variability in Statistics
  • 2020.07.02
  • www.youtube.com
Often, a statistic doesn't exactly match up with the parameter it's supposed to be estimating. How can we tell whether it's a good statistic or not? If this ...
 

Построение частотных распределений


Построение частотных распределений

Всем привет! Сегодня мы углубимся в построение частотных распределений, чтобы обобщить и проанализировать количественные данные. Когда у нас есть набор числовых наблюдений, важно понимать форму, центр и разброс данных. Для этого недостаточно просто смотреть на данные. Нам нужно осмысленно обобщить это, и именно здесь в игру вступают частотные распределения.

Частотное распределение включает в себя разделение данных на несколько классов или интервалов, а затем определение того, сколько наблюдений попадает в каждый класс. Давайте рассмотрим пример, где у нас есть диапазон значений от 11 до 25. Чтобы создать частотное распределение, мы можем разделить этот диапазон на пять классов и подсчитать количество наблюдений в каждом классе.

В нотации, используемой для обозначения интервала, жесткая скобка слева [ указывает, что левая конечная точка включена в каждый интервал, а мягкая скобка справа ) указывает, что правая конечная точка не включена. Это означает, что граничные значения, такие как 14, 17, 20 и 23, всегда относятся к следующему более высокому классу. Кроме того, все ширины классов равны, в данном случае по три единицы каждый.

Изучая частотное распределение, мы уже можем получить некоторое представление о данных. Центр данных, кажется, составляет около 18, попадая в класс от 17 до 20, который имеет более высокую частоту. Остальные данные показывают относительную симметрию вокруг этого центрального шипа.

Теперь давайте рассмотрим пошаговый процесс построения частотного распределения. Во-первых, нам нужно решить, сколько классов использовать. Хотя строгого правила нет, хорошей отправной точкой обычно является от 5 до 20 занятий. Если мы будем использовать слишком мало классов, мы не сможем получить достаточно подробностей в распределении, что помешает нам понять данные. С другой стороны, использование слишком большого количества классов приводит к низкому количеству на класс, что затрудняет определение формы данных.

Определив количество классов, мы приступаем к расчету ширины класса. Для этого мы вычисляем диапазон данных, вычитая минимальное значение из максимального значения. Затем мы делим диапазон на количество классов. Крайне важно округлить ширину класса, чтобы гарантировать, что все наблюдения попадают в один из классов. Округление в меньшую сторону может привести к тому, что некоторые точки данных будут исключены из распределения.

Далее находим нижние границы для каждого класса. Начнем с минимального значения как нижней границы первого класса. Затем мы добавляем ширину класса, чтобы получить нижнюю границу второго класса, и так далее. Верхняя граница каждого класса находится чуть ниже нижней границы следующего класса.

Наконец, мы подсчитываем, сколько наблюдений попадает в каждый класс, изучая набор данных. Например, давайте рассмотрим сценарий, в котором мы строим частотное распределение, используя восемь классов для заданного набора данных. Мы рассчитываем диапазон данных, который составляет 115,5 - 52,0 = 63,5. Разделив этот диапазон на восемь, мы получим ширину класса 7,9, которую округлим до 8,0. Начиная с минимального значения 52, мы добавляем 8,0, чтобы получить нижние границы для каждого класса: 52, 60, 68 и так далее.

Просматривая набор данных и подсчитывая наблюдения, попадающие в каждый класс, мы получаем частоты. Важно отметить, что классы не должны перекрываться, а их ширина должна оставаться одинаковой. Это гарантирует, что каждое наблюдение относится к одному классу.

Чтобы улучшить наше понимание распределения частот, мы можем расширить таблицу, добавив столбцы для средних точек классов, относительных частот и кумулятивных частот. Средние точки класса представляют собой среднее значение в пределах каждого интервала. Мы вычисляем их, взяв среднее значение нижней и верхней границ каждого класса. Например, средняя точка для класса от 52 до 60 равна (52 + 60)/2 = 56, а для класса от 60 до 68 это (60 + 68)/2 = 64 и так далее.

Относительные частоты дают представление о доле наблюдений в каждом классе по отношению к общему размеру набора данных. Чтобы рассчитать относительную частоту, мы делим частоту каждого класса на общий размер набора данных. Например, разделив частоту 11 на размер набора данных 50, мы получим относительную частоту 0,22. Точно так же деление 8 на 50 дает относительную частоту 0,16.

Кумулятивные частоты получаются путем суммирования частот для каждого интервала и всех интервалов, предшествующих ему. Совокупная частота для первого интервала, от 52 до 60, остается такой же, как и его частота, равная 11. Чтобы найти кумулятивную частоту для следующего интервала, мы добавляем его частоту (8) к кумулятивной частоте предыдущего интервала. Например, кумулятивная частота для второго интервала, от 60 до 68, равна 11 + 8 = 19. Мы продолжаем этот процесс для каждого интервала, суммируя частоты и предыдущие кумулятивные частоты, чтобы получить кумулятивные частоты для последующих интервалов.

Важно отметить, что сумма всех частот должна равняться общему размеру набора данных (в данном случае 50). Сумма относительных частот всегда должна быть равна 1, что указывает на полноту набора данных. Наконец, последнее значение в столбце кумулятивных частот должно соответствовать размеру набора данных.

Расширение таблицы распределения частот столбцами для средних значений классов, относительных частот и кумулятивных частот помогает получить более полное представление о распределении данных. Это позволяет нам наблюдать основные тенденции, пропорции и кумулятивные пропорции данных более организованным и проницательным образом.

Таким образом, построение частотного распределения включает в себя разделение данных на классы, определение ширины классов, вычисление нижних границ, подсчет наблюдений в каждом классе и анализ полученных частот. Расширение таблицы дополнительной информацией, такой как средние точки классов, относительные частоты и кумулятивные частоты, может еще больше улучшить наше понимание характеристик набора данных.

Constructing Frequency Distributions
Constructing Frequency Distributions
  • 2020.07.04
  • www.youtube.com
Let's learn to construct frequency distributions! We compute class widths, count frequencies, then determine relative and cumulative frequencies. All the goo...
 

Гистограммы, частотные полигоны и огивы


Гистограммы, частотные полигоны и огивы

Привет всем, сегодня мы погружаемся в мир графических данных. Мы будем изучать гистограммы, многоугольники частот и оживы, которые являются визуальными представлениями распределений с одной переменной. Изучая эти различные типы дисплеев, мы будем использовать в качестве примера расширенное частотное распределение, которое мы создали в предыдущем видео. Чтобы освежить вашу память, мы начали с набора данных, состоящего из 50 значений в диапазоне примерно от 52 до 116. Мы разделили набор данных на восемь классов одинаковой ширины и определили количество значений в каждом классе для построения частотного распределения.

Начнем с наиболее важного и часто используемого визуального представления набора данных с одной переменной: гистограммы частоты. На гистограмме мы откладываем значения данных по горизонтальной оси, а частоты по вертикальной оси. В частности, мы помечаем средние точки классов, такие как 56, 64, 72 и т. д., на горизонтальной оси. Над каждой средней точкой мы рисуем полосу, высота которой соответствует частоте этого класса. Например, если частоты для первых нескольких классов равны 11, 8, 9 и т. д., столбцы будут иметь соответствующую высоту.

Важно отметить, что гистограммы представляют частоту с использованием площади. Большая площадь указывает на больший объем данных. Когда мы смотрим на график, наш взгляд естественным образом притягивается к областям с большим количеством данных, что дает нам интуитивное понимание формы, центра и распространения набора данных. Например, на этой гистограмме мы видим, что данные с большей вероятностью группируются вокруг 56, а не 112. Кроме того, стоит упомянуть, что при построении гистограммы мы не оставляем пробелов между соседними классами, в отличие от гистограммы. где обычно присутствуют промежутки между столбцами, представляющими категориальные переменные.

Иногда гистограммы рисуются с горизонтальной осью, помеченной конечными точками классов, а не средними точками, и это вполне приемлемо. График передает одну и ту же информацию независимо от того, какой подход к маркировке используется. Другой вариант — отображать относительную частоту вместо частоты на гистограмме, которая должна давать аналогичную форму. Единственным отличием будет изменение масштаба горизонтальной оси для соответствия значениям относительной частоты.

Еще один метод визуального отображения, аналогичный гистограмме, — полигон частот. Здесь мы по-прежнему отображаем значения данных по горизонтальной оси и представляем частоты по вертикальной оси. Однако вместо того, чтобы рисовать столбцы, мы наносим точку для каждого класса. Эти точки соответствуют средним точкам на горизонтальной оси и их соответствующим частотам на вертикальной оси. Затем мы соединяем эти точки линиями. Чтобы убедиться, что многоугольник выглядит завершенным, мы добавляем дополнительную точку ниже первой средней точки и еще одну выше последней средней точки, каждая из которых расширяется на одну ширину класса.

Наконец, мы можем представить данные с помощью оживала, который отображает кумулятивные частоты. При построении оживала мы откладываем границы высшего класса по горизонтальной оси и совокупные частоты по вертикальной оси. Начнем с точки на горизонтальной оси, соответствующей первой границе нижнего класса. Цель оживала — показать для любого заданного значения x, сколько точек данных в нашем распределении падает ниже этого значения.

Я надеюсь, что это проясняет концепции построения графиков данных с использованием гистограмм, частотных полигонов и оживов. Эти визуальные дисплеи дают ценную информацию о распределении наборов данных с одной переменной.

Histograms, Frequency Polygons, and Ogives
Histograms, Frequency Polygons, and Ogives
  • 2020.07.05
  • www.youtube.com
Let's plot some data! Histograms, frequency polygons, and ogives are three of the most fundamental sorts of single-variable plots available to us. If this vi...
 

Ваша первая сессия RStudio


Ваша первая сессия RStudio

Привет всем, на сегодняшней сессии мы рады впервые открыть нашу студию. Наше основное внимание будет сосредоточено на изучении основных функций и обеспечении комфортной работы в этой среде. Когда вы впервые откроете нашу студию, вы заметите три разные панели, но в этом видео мы в первую очередь сосредоточимся на вкладке консоли на самой левой панели. Тем не менее, мы кратко упомянем другие панели по мере продвижения, сохранив более подробное обсуждение для будущих видео.

Для начала давайте рассмотрим вкладку консоли, которая действует как научный калькулятор в R. Вы можете выполнять основные арифметические операции, такие как сложение, вычитание, умножение и деление. Например, если мы посчитаем 8 плюс 12, ответ будет 20. Важно отметить, что ответ отображается без квадратных скобок, что мы объясним позже в этом видео. Кроме того, вы можете добавить пробелы для удобства чтения, так как R игнорирует пробелы при вводе в командной строке.

R предоставляет широкий спектр встроенных функций, таких как функция извлечения квадратного корня. Например, квадратный корень из 9 равен 3. Точно так же вы можете выполнять тригонометрические операции, вычисления абсолютных значений и многое другое. Имена функций обычно интуитивно понятны, но если вы не уверены, быстрый поиск в Google поможет вам найти правильный синтаксис.

Одной из полезных функций RStudio является возможность вызывать предыдущие команды с помощью клавиши со стрелкой вверх. Это позволяет вам получить предыдущую команду и внести изменения, если это необходимо. Например, если вы хотите вычислить квадратный корень из 10 вместо 9, вы можете нажать клавишу со стрелкой вверх, удалить 9 и ввести 10, чтобы получить примерно 3,162278.

По умолчанию R отображает шесть цифр точности справа от десятичной точки. Однако вы можете настроить этот параметр в меню настроек в соответствии с вашими потребностями.

Теперь перейдем к определению переменных. В R вы можете присваивать значения переменным с помощью оператора присваивания, который представляет собой стрелку влево (<-) или знак равенства (=). Для заданий рекомендуется использовать стрелку влево. Например, давайте определим переменную с именем «x» и установим ее равной 3. После назначения на вкладке среды в верхней правой панели будет отображаться «x = 3», чтобы напомнить нам о назначении. Если мы просто введем имя переменной «x» в консоли и нажмем Enter, R напечатает ее значение, которое в данном случае равно 3.

Вы можете выполнять арифметические операции с переменными, как и с числовыми значениями. Например, если мы вычисляем 3 плюс х, результатом будет 6. R соблюдает порядок операций, поэтому такие выражения, как 1 плюс 2, умноженные на х, дадут результат 7, а не 9.

R становится более мощным, когда мы назначаем переменные как векторы. Чтобы создать вектор, мы используем функцию конкатенации (c), за которой следуют круглые скобки и значения, которые мы хотим включить. Например, давайте присвоим вектору «y» значения 1, 5, 6 и 9. После определения вектора введите «y» и нажмите клавишу ввода, чтобы отобразить его значения: 1, 5, 6 и 9. Теперь мы может выполнять арифметические операции над вектором, такие как добавление 2 к каждому элементу (y + 2) или применение математических функций, таких как квадратный корень (sqrt(y)).

Помимо арифметических операций, мы также можем суммировать векторы. Например, мы можем вычислить медиану (median(y)) или сумму (sum(y)) вектора. R предоставляет множество функций для управления векторами, и если вы не уверены в какой-либо конкретной функции, быстрый поиск в Google предоставит необходимую информацию. В RStudio есть две дополнительные функции, о которых я хотел бы упомянуть, прежде чем двигаться дальше. Первый из них

Вкладка История расположена в верхней части консоли. Нажав на нее, вы можете получить доступ к списку ваших последних команд. Вы можете прокручивать историю, чтобы просмотреть и повторно использовать предыдущие команды, что может сэкономить время. Даже если вы выйдете из RStudio и вернетесь позже, история команд все равно будет доступна.

Чтобы повторно использовать команду из истории, просто дважды щелкните по ней, и она появится в консоли. Затем вы можете внести необходимые изменения и переоценить команду. Эта функция позволяет вам легко вернуться к предыдущим командам и изменить их.

Вторая особенность, которую я хочу выделить, — это возможность давать переменным имена, состоящие более чем из одной буквы. Например, предположим, что мы хотим создать переменную с именем «числа» и присвоить ей значения 1, 2, 3, 4, 5 и 6. Мы можем сделать это, введя «числа <- c(1, 2, 3 , 4, 5, 6)" в консоли. После того, как присвоение выполнено, мы можем выполнять различные операции над переменной, например, вычислять квадратный корень из «чисел» (sqrt(numbers)).

Теперь давайте перейдем к загрузке набора данных и изучению некоторых действий, которые мы можем предпринять с загруженными данными. В нижней правой панели RStudio вы найдете файловый браузер. Перейдите к расположению вашего набора данных и выберите его. Например, давайте выберем набор данных «тело». Нажмите кнопку «Импорт набора данных», чтобы импортировать набор данных в RStudio.

В процессе импорта вы увидите предварительный просмотр формата электронной таблицы набора данных. В верхней правой панели на вкладке среды отобразится новый объект под названием «body_data». Этот объект представляет собой фрейм данных с 300 наблюдениями и 15 переменными. По сути, это таблица с 300 строками и 15 столбцами. Вы можете взаимодействовать с набором данных, сортируя столбцы, прокручивая их по горизонтали для просмотра большего количества столбцов и обрабатывая его так же, как файл Excel.

Чтобы работать с определенными переменными во фрейме данных, нам нужно указать их, используя нотацию со знаком доллара ($). Например, если нас интересует переменная «возраст», мы можем ввести в консоли «body_data$age». Когда вы начнете печатать, RStudio предоставит список доступных переменных. Нажав клавишу ввода, вы увидите список всех возрастов в наборе данных в порядке их появления.

Как только мы выделили конкретную переменную, например body_data$age, мы можем выполнять над ней операции, как и над любой другой переменной. Например, мы можем рассчитать средний возраст всех людей в наборе данных, введя «mean(body_data$age)» в консоли. В этом случае средний возраст определяется как 47,0 лет.

В дополнение к среднему вы можете исследовать другие статистические данные, такие как стандартное отклонение, медиана, сумма, минимум, максимум и т. д., используя соответствующие функции. Мы углубимся в эти методы манипулирования данными в будущих видеороликах, исследуя возможности R для статистического анализа.

На этом мы завершаем обзор открытия нашей студии, основных функций и работы с переменными и наборами данных. Следите за будущими видеороликами, в которых мы рассмотрим более продвинутые функции и методы RStudio.

Your First RStudio Session
Your First RStudio Session
  • 2020.08.16
  • www.youtube.com
Let's get started with R and RStudio! This vid shows some of the most basic functions that you'll need in order to start working with data in this environmen...
 

Гистограммы и частотные полигоны в R


Гистограммы и частотные полигоны в R

Всем привет, в сегодняшнем видео мы будем создавать визуально привлекательные гистограммы и полигоны частот в R с помощью команды qplot. Существуют различные способы создания графики в R, но я лично считаю, что пакет ggplot2 создает самые красивые изображения. Для начала мы будем использовать команду qplot в ggplot2.

Для нашей демонстрации мы будем работать с «верным» набором данных, который встроен в R. Этот набор данных состоит из 272 наблюдений времени извержения и времени ожидания между извержениями в минутах от гейзера Old Faithful в Йеллоустонском национальном парке, США. .

Чтобы построить гистограммы и полигоны частот для переменной «ожидание», нам нужно сначала установить пакет ggplot2. Если вы еще не установили его, вы можете сделать это, набрав «install.packages('ggplot2')». После установки вам необходимо загружать пакет каждый раз, когда вы начинаете новый сеанс, набрав «библиотека (ggplot2)».

Теперь сосредоточимся на сюжете. Чтобы создать гистограмму, мы указываем переменную по оси x, используя аргумент «x», например: «qplot (x = ожидание, данные = достоверно, geom = 'гистограмма')». Это сгенерирует гистограмму, которая выглядит лучше, чем та, которую создает команда base R hist.

Тем не менее, есть несколько улучшений, которые мы можем сделать. Начнем с добавления меток и основного заголовка к графику. Мы можем использовать аргументы «xlab» для метки оси X, «ylab» для метки оси Y и «main» для основного заголовка. Например: «qplot(x = ожидание, данные = верный, geom = 'гистограмма', xlab = 'время ожидания', ylab = 'частота', main = 'старый верный')».

Далее, давайте обратимся к внешнему виду баров. По умолчанию может показаться, что столбцы идут вместе. Чтобы различать их, мы можем добавить цвет границы, используя аргумент «цвет», например «цвет = 'темно-синий'». Кроме того, мы можем изменить цвет заливки столбцов с помощью аргумента «fill», например «fill = 'lightblue'».

Теперь, если мы хотим создать полигон частот вместо гистограммы, мы можем изменить аргумент «geom» на «geom = 'freqpoly'». Это построит полигон частот, используя ту же переменную на оси x. Не забудьте удалить аргумент «заполнить», так как в данном случае он неприменим.

Вы также можете настроить количество бинов в гистограмме, используя аргумент «бины». По умолчанию R использует 30 бинов, но вы можете изменить его на другое значение, например «bins = 20», чтобы иметь больше или меньше бинов.

Наконец, я хочу упомянуть об альтернативном способе указания данных. Вместо использования нотации «$» вы можете напрямую указать набор данных, используя аргумент «данные», например «qplot (x = ожидание, данные = верный, geom = 'гистограмма')». Это может быть полезно при работе с несколькими переменными.

На этом мы завершаем наше руководство по созданию гистограмм и полигонов частот в R с помощью команды qplot. Не стесняйтесь исследовать и экспериментировать с различными настройками для создания визуально привлекательной и информативной графики.

Histograms and Frequency Polygons in R
Histograms and Frequency Polygons in R
  • 2020.07.09
  • www.youtube.com
Let's learn about qplot(), the easiest way to produce beautiful graphics in R. This video is suitable for introductory statistics students - those with codin...
 

Графики «стебель-и-листья»


Графики «стебель-и-листья»

Привет всем, в сегодняшнем обсуждении мы рассмотрим концепцию диаграмм ствола и листа. Диаграммы «стебли и листья» предлагают простой и информативный способ визуализации распределения одной переменной. Они особенно эффективны для небольших наборов данных, поскольку сохраняют всю информацию без потерь при визуализации. Чтобы лучше понять их, давайте погрузимся в некоторые примеры.

Типичный базовый график состоит из вертикальной полосы, где каждая цифра справа от полосы представляет точку данных. Эти цифры представляют собой последнюю значащую цифру каждого наблюдения, в то время как значения слева от столбца представляют цифры старшего разряда. Например, в данном распределении начальные значения равны 27, 29 и 32.

Обратите внимание на клавишу вверху, где десятичная точка находится на одну цифру справа от косой черты. Графики «стебель-лист» не включают десятичные дроби напрямую; вместо этого ключ указывает разрядное значение. Таким образом, мы можем различать 27, 2,7 или 0,27.

Теперь давайте построим график ствола и листьев для следующего набора данных. Здесь десятый разряд будет служить листьями, а две цифры слева от запятой — стеблями. Таким образом, первые несколько записей будут 34,3, 34,9, а затем перейдем к следующему основанию, 35/1 (десятичная точка совпадает с косой чертой).

Полный сюжет выглядит следующим образом: 34,3 34/9 и так далее.

Важно отметить, что каждый стебель между первым и последним включен, даже если нет соответствующих листьев. Это позволяет нам беспристрастно наблюдать за формой данных. Например, значения 39,0 и 39,1 не находятся непосредственно рядом с 37,5, оставляя между ними некоторое пространство.

Однако при построении делянки «стебли и листья» могут возникнуть две потенциальные трудности. Во-первых, если данные содержат слишком много значащих цифр, как в данном примере, использование последней цифры в качестве листа приведет к более чем 400 стеблям. Во избежание этого рекомендуется округлять данные. В этом случае округление до ближайшей сотни дает разумное количество стеблей.

Вторая проблема возникает, когда на основу приходится слишком много точек данных, как показано в другом примере. Чтобы решить эту проблему, использование тысячных разрядов для листьев и десятых и сотых долей для стеблей кажется уместным. Однако это приведет только к трем стеблям (2.1, 2.2 и 2.3). Несмотря на то, что этот график технически точен, он не отображает желаемую форму распределения.

Чтобы решить эту проблему, мы можем разделить стебли. Дублируя каждый стебель и назначая первую половину последним цифрам (листьям) от 0 до 4, а вторую половину цифрам от 5 до 9, мы можем получить лучшее представление. Например, основа 2.1 будет разделена на части от 2,10 до 2,14 (первая половина) и от 2,15 до 2,18 (вторая половина). Это устраняет предыдущую трудность и обеспечивает более информативное представление данных.

Эта дополнительная деталь может быть показательной, как видно в этом примере, где разделенные основы подчеркивают симметричное распределение, в отличие от предыдущего отображения, которое было искажено вправо. Графики «стебли и листья» дают ценную информацию о распределении данных, сохраняя при этом всю важную информацию.

Stem-and-Leaf Plots
Stem-and-Leaf Plots
  • 2020.07.10
  • www.youtube.com
Stem plots are an easy way to visualize small-ish data sets.If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...