Tutoriais de programação - página 11

 

dados organizados


dados organizados

Olá a todos, hoje discutiremos dados organizados, que é um formato particularmente conveniente e comum em aplicativos de ciência de dados. Embora existam várias maneiras de registrar informações em uma planilha, os dados organizados seguem três princípios simples para garantir sua organização e utilidade.

Em primeiro lugar, cada linha em dados organizados representa uma e apenas uma observação. Isso significa que cada linha captura todas as medições e detalhes para uma única unidade experimental.

Em segundo lugar, cada coluna representa uma e apenas uma variável. As variáveis são os atributos medidos em todas as unidades experimentais, e cada coluna se concentra em uma característica ou aspecto específico.

Por fim, toda a planilha deve consistir em exatamente um tipo de observação. Isso garante que todos os dados na planilha estejam relacionados ao mesmo tipo de experimento ou estudo.

Uma vantagem significativa dos dados organizados é sua facilidade de expansão. Se você obtiver novas observações ou pontos de dados, como novos assuntos em um ensaio médico, basta adicionar uma nova linha na parte inferior da planilha. Da mesma forma, se quiser incluir variáveis adicionais, você pode adicionar novas colunas à direita das existentes.

Vamos dar uma olhada em alguns exemplos. O conjunto de dados "mtcars", disponível em R, é um conjunto de dados organizado. Cada linha representa um único carro e cada coluna representa uma característica específica dos carros. Idealmente, conjuntos de dados organizados devem ser acompanhados por um dicionário de dados que explique o significado de cada variável e forneça informações sobre as unidades de medida. O dicionário de dados também pode incluir metadados sobre o conjunto de dados, como os detalhes da gravação.

Por outro lado, o conjunto de dados "diamonds" no pacote "ggplot2" é outro exemplo de dados organizados. Cada linha corresponde a um único diamante de corte redondo e cada coluna representa uma característica dos diamantes.

No entanto, nem todos os conjuntos de dados são organizados. Por exemplo, os dados de "construção" definidos no pacote "tidyverse" não são organizados porque duas variáveis, o número de unidades e a região, estão espalhadas por várias colunas.

É importante observar que dados desordenados não são necessariamente ruins, pois as planilhas do mundo real costumam ter suas próprias convenções para fins específicos. No entanto, quando se trata de ciência de dados e exploração de relações entre variáveis entre um grande número de observações, dados organizados costumam ser mais convenientes para visualização e modelagem.

Para finalizar, quero mencionar as tabelas de contingência, que são um formato comum para dados não organizados. As tabelas de contingência exibem contagens para diferentes combinações de variáveis categóricas. Embora possam ser úteis, transformá-los em dados organizados com colunas separadas para cada variável e suas respectivas contagens pode tornar os dados mais gerenciáveis e fáceis de analisar.

Em resumo, os dados organizados seguem os princípios de uma observação por linha, uma variável por coluna e um tipo de observação em toda a planilha. Ao aderir a esses princípios, dados organizados fornecem um formato estruturado e organizado que facilita a exploração, visualização e modelagem de dados em aplicativos de ciência de dados.

Tidy data
Tidy data
  • 2022.06.08
  • www.youtube.com
Tidy data is just the best. Let's learn all about it!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, cr...
 

Experimentos e Estudos Observacionais


Experimentos e Estudos Observacionais

Olá a todos, hoje discutiremos experimentos e estudos observacionais, que são os dois tipos fundamentais de estudos de pesquisa em estatística. Entender a diferença entre eles é crucial. Vamos explorar cada tipo e suas principais características.

Experimentos: Em um experimento, diferentes tratamentos são aplicados a diferentes partes da amostra e as variações resultantes são observadas. O objetivo principal é determinar causa e efeito. Se houver resultados distintos entre os grupos de tratamento, pretendemos atribuir essas diferenças aos tratamentos específicos. Os estudos experimentais envolvem influenciar e manipular ativamente as variáveis.

Estudos observacionais: Por outro lado, os estudos observacionais envolvem pesquisadores que medem as características da população de interesse sem tentar influenciar as respostas de forma alguma. O tipo mais comum de estudo observacional é uma pesquisa por amostragem, em que os pesquisadores coletam dados observando e registrando informações. O foco está na compreensão de relacionamentos e padrões dentro dos dados observados.

Vamos explorar alguns exemplos para distinguir entre experimentos e estudos observacionais:

Um grupo de médicos estuda o efeito de um novo medicamento para baixar o colesterol, administrando-o a seus pacientes com pressão alta. Este é um experimento, pois os médicos estão aplicando um tratamento e analisando os resultados.

Um primatologista observa 10 chimpanzés em seu habitat natural, fazendo anotações detalhadas sobre seu comportamento social. Este é um estudo observacional, pois o primatologista está apenas observando e registrando o comportamento sem influenciá-lo.

Um estofador contata 500 homens e 500 mulheres, perguntando a cada indivíduo sobre seu candidato preferido nas próximas eleições. Este é outro exemplo de um estudo observacional. O pesquisador está coletando dados sem manipular os participantes ou suas respostas.

Estudos observacionais podem ser comparativos, como no exemplo anterior, onde homens e mulheres são contatados separadamente para fins de análise. No entanto, como não há tratamento aplicado, continua sendo um estudo observacional.

Certas características definem um bom experimento. Deve ser randomizado, controlado e replicável:

  • A randomização garante que os sujeitos da pesquisa sejam designados aleatoriamente para diferentes grupos de tratamento. Nem os pesquisadores nem os sujeitos decidem quem recebe quais tratamentos. Isso ajuda a minimizar o viés e as variáveis de confusão.
  • O controle implica que os grupos de tratamento sejam os mais idênticos possíveis, exceto pelos tratamentos específicos que recebem. Estabelecer um grupo de controle permite comparações precisas e ajuda a estabelecer relações de causa e efeito.
  • A replicação refere-se à capacidade de repetir o experimento e obter resultados semelhantes. Experimentos replicáveis são essenciais para validar os resultados e garantir a confiabilidade do estudo.

Em experimentos, muitas vezes são feitas comparações entre dois ou mais grupos de tratamento, com um grupo servindo como controle. O grupo de controle fornece uma linha de base para comparação com os grupos que recebem intervenções específicas.

Para abordar o efeito placebo, onde os indivíduos respondem aos tratamentos mesmo que não tenham efeito mensurável, os experimentadores incluem um placebo no grupo de controle. Placebos são tratamentos conhecidos por não terem efeito real, como uma pílula de açúcar ou uma lição não relacionada para estudos educacionais.

Além da randomização e do controle, é vantajoso que a atribuição dos sujeitos aos grupos de tratamento seja duplo-cega sempre que possível. Isso significa que nem os sujeitos nem os coletores de dados estão cientes de quem está em qual grupo de tratamento. O duplo-cego ajuda a eliminar o viés e garante observações e medições imparciais.

Existem três projetos experimentais importantes a serem considerados:

  • Design completamente aleatório: Os indivíduos são designados aleatoriamente para diferentes grupos de tratamento sem qualquer agrupamento ou características adicionais levadas em consideração.
  • Projeto de bloco randomizado: os indivíduos são primeiro divididos em grupos com base em características específicas, como idade ou sexo, e depois atribuídos aleatoriamente a grupos de tratamento dentro de cada bloco. Esse design permite que os pesquisadores analisem como os tratamentos afetam diferentes grupos separadamente.
  • Design de pares combinados: os indivíduos são emparelhados com base na similaridade e, em seguida, designados aleatoriamente para diferentes grupos de tratamento. Este projeto permite comparações diretas entre pares para avaliar os efeitos do tratamento.

Compreender esses tipos de design ajuda os pesquisadores a planejar experimentos de forma eficaz e tirar conclusões significativas dos dados. Ao implementar projetos experimentais apropriados, os pesquisadores podem aumentar a validade e a confiabilidade de suas descobertas.

Em resumo, experimentos e estudos observacionais são dois tipos fundamentais de estudos de pesquisa em estatística. Os experimentos envolvem a aplicação de diferentes tratamentos e a observação de seus efeitos para determinar causa e efeito. Por outro lado, os estudos observacionais concentram-se em observar e medir características sem influenciar ativamente as respostas.

Um bom experimento deve incorporar randomização, controle e replicabilidade. A randomização garante a atribuição imparcial de indivíduos a grupos de tratamento, o controle minimiza as variáveis de confusão e a replicação permite a verificação dos resultados. Além disso, a inclusão de um grupo controle e a consideração do efeito placebo são aspectos importantes do desenho experimental.

Diferentes designs experimentais, como design completamente aleatório, design de blocos aleatórios e design de pares combinados, oferecem flexibilidade para abordar questões de pesquisa específicas e acomodar diferentes cenários de estudo.

Ao entender as distinções entre experimentos e estudos observacionais e empregar projetos experimentais apropriados, os pesquisadores podem realizar estudos rigorosos, tirar conclusões significativas e contribuir para o avanço do conhecimento em seus respectivos campos.

Lembre-se, ao planejar um estudo de pesquisa, considere cuidadosamente a questão da pesquisa, a natureza das variáveis e os recursos disponíveis para determinar a abordagem mais adequada – seja um experimento ou um estudo observacional.

Experiments and Observational Studies
Experiments and Observational Studies
  • 2020.07.02
  • www.youtube.com
Some essential ideas in statistical research. We discuss randomization, control, blinding, placebos, and more. If this vid helps you, please help me a tiny b...
 

Introdução à Amostragem Estatística


Introdução à Amostragem Estatística

Bom dia a todos! Hoje, estamos mergulhando no fascinante mundo da amostragem estatística. Em um cenário ideal, a realização de um estudo de pesquisa envolveria a coleta de dados de toda a população de interesse, semelhante a um censo. No entanto, na prática, isso muitas vezes é impraticável ou impossível. Considere as seguintes questões de pesquisa: Qual é a expectativa de vida média dos pombos em Nova York? Um novo medicamento é eficaz na redução do colesterol LDL em pacientes com mais de 45 anos? Que porcentagem de eleitores aprova o desempenho do presidente? Em cada caso, coletar dados de toda a população não é viável. Portanto, nos voltamos para uma abordagem mais gerenciável: amostragem.

A amostragem envolve a seleção de um subconjunto, ou amostra, da população para representar e tirar conclusões sobre toda a população. No entanto, nem todos os métodos de amostragem são igualmente confiáveis. Vamos discutir algumas abordagens incorretas para amostragem. Primeiro, evidências anedóticas, que consistem em depoimentos pessoais de pessoas conhecidas do pesquisador, devem ser encaradas com ceticismo. Por exemplo, basear-se apenas em declarações como "Esta pílula funcionou para toda a minha família" ou "Conversei com três pessoas hoje que aprovam o presidente" pode levar a resultados tendenciosos. Da mesma forma, uma amostragem conveniente, em que os dados são coletados de fontes facilmente acessíveis, como uma pesquisa política realizada em um parque próximo ou um estudo psicológico com os alunos do professor, pode introduzir viés devido à seleção não aleatória dos participantes.

Para garantir a validade de nossas descobertas, é crucial empregar uma amostra aleatória. Em uma amostra aleatória, um processo aleatório determina quais indivíduos da população são incluídos, com cada membro tendo a mesma chance de ser selecionado. O objetivo de uma amostra aleatória é evitar viés de amostragem, que ocorre quando a estatística derivada da amostra superestima ou subestima sistematicamente o parâmetro da população. É essencial observar que as estatísticas derivadas de amostras aleatórias ainda apresentam variabilidade, pois amostras individuais podem diferir da população devido ao processo de seleção aleatória. No entanto, em média, a estatística será igual ao parâmetro populacional.

Vamos explorar alguns tipos de amostragem aleatória. A abordagem mais simples e intuitiva é uma amostra aleatória simples (SRS), onde cada amostra do mesmo tamanho tem a mesma chance de ser selecionada. Isso geralmente é obtido obtendo-se uma lista dos membros da população, atribuindo-lhes números e usando um gerador de números aleatórios para selecionar o número desejado de indivíduos. Em uma amostra estratificada, a população é dividida em grupos ou estratos com base em características importantes como idade, sexo ou raça. Em seguida, uma amostra aleatória simples é retirada de cada grupo, permitindo a análise separada de diferentes subgrupos dentro da população. Em uma amostra de conglomerados, a população é dividida em grupos ou conglomerados de ocorrência natural ou semelhantes. Uma amostra aleatória de clusters é selecionada e cada membro dos clusters selecionados é incluído na amostra. A amostragem em vários estágios combina essas técnicas selecionando clusters e, em seguida, obtendo amostras aleatórias dentro de cada cluster, repetindo o processo, se necessário.

Agora, vamos aplicar esses conceitos a alguns exemplos e identificar os métodos de amostragem empregados. No primeiro exemplo, um pesquisador contata 400 homens e 400 mulheres aleatoriamente, perguntando sobre seu candidato preferido em uma próxima eleição. Este é um exemplo de amostragem estratificada, pois reúne informações sobre homens e mulheres enquanto coleta uma amostra aleatória simples dentro de cada grupo. No segundo exemplo, os pesquisadores selecionam aleatoriamente 50 escolas de ensino médio e aplicam um exame de proficiência matemática a todos os alunos dessas escolas. Isso representa uma amostra por conglomerado, onde a randomização ocorre no nível da escola e um censo é realizado nas escolas selecionadas.

No terceiro exemplo, uma concessionária de carros usa uma lista de clientes para selecionar aleatoriamente 200 compradores de carros anteriores e contata cada um deles para uma pesquisa de satisfação. Este é um exemplo típico de amostra aleatória simples, pois cada grupo de 200 clientes tem chances iguais de ser selecionado. Por fim, um grupo médico escolhe aleatoriamente 35 hospitais americanos e, em seguida, coleta uma amostra aleatória de 50 pacientes de cada hospital para examinar o custo de seus cuidados. Este cenário demonstra uma amostra de vários estágios. Inicialmente, os conglomerados (hospitais) são selecionados aleatoriamente, seguido de uma amostra aleatória simples dentro de cada hospital escolhido.

Antes de concluir, vale mencionar outro método de amostragem, conhecido como amostra sistemática. Embora não seja uma forma de amostragem aleatória, pode ser usada como substituta em circunstâncias específicas. Em uma amostra sistemática, os membros da população são selecionados usando um padrão predeterminado. Por exemplo, uma mercearia poderia pesquisar cada 20ª pessoa que sai da loja para avaliar a satisfação do cliente. Uma amostra sistemática pode ser tão eficaz quanto uma amostra aleatória quando a população é homogênea, ou seja, não há padrões relevantes dentro dela. No entanto, deve-se ter cuidado para garantir que o padrão de amostragem não se alinhe com nenhum padrão existente na população, pois isso pode introduzir viés.

Para resumir, a amostragem estatística é uma ferramenta vital quando é impraticável ou impossível coletar dados de uma população inteira. Métodos de amostragem aleatória, como amostras aleatórias simples, amostras estratificadas, amostras de conglomerados e amostras de vários estágios, ajudam a atenuar o viés de amostragem e aumentam a probabilidade de obter resultados representativos e imparciais. Enquanto as amostras aleatórias introduzem variabilidade, as estatísticas derivadas delas, em média, se alinham com os parâmetros da população. Compreender os pontos fortes e as limitações dos diferentes métodos de amostragem é crucial para conduzir estudos de pesquisa confiáveis e precisos.

Introduction to Statistical Sampling
Introduction to Statistical Sampling
  • 2020.07.06
  • www.youtube.com
Let's talk about sampling techniques! What is a random sample, and why are they desirable? What is sampling bias, and what are some of the ways it can creep ...
 

Viés e variabilidade nas estatísticas


Viés e variabilidade nas estatísticas

Olá pessoal! Hoje, estamos mergulhando nos conceitos de viés e variabilidade nas estatísticas. O objetivo geral da inferência estatística é tirar conclusões sobre populações com base em dados de amostra. Para conseguir isso, muitas vezes usamos estatísticas, que são descrições numéricas de amostras, para estimar os parâmetros correspondentes, que são descrições numéricas de populações.

Para ilustrar isso, vamos considerar um exemplo. Suponha que uma pesquisa com 1.200 eleitores revele que o Candidato A está 8 pontos percentuais à frente do Candidato B. Podemos ver essa diferença de 8 pontos como uma estatística, uma estimativa de quanto se espera que o Candidato A ganhe. Por outro lado, o resultado real da eleição, que é a verdadeira diferença de apoio entre os candidatos, representa o parâmetro.

Em alguns casos, a estatística e o parâmetro se alinharão perfeitamente. No entanto, na maioria das vezes, eles diferem até certo ponto. Por exemplo, o resultado real da eleição pode mostrar que o Candidato A vence por 7,8 pontos percentuais. Embora tais desvios possam ocorrer devido ao acaso, eles podem representar um problema ao avaliar a qualidade de uma estatística.

Isso nos leva ao conceito de viés. Uma estatística, representada como P-hat, é considerada imparcial se, em média, for igual ao parâmetro correspondente, denotado como P. Em outras palavras, uma boa estatística não deve superestimar ou subestimar sistematicamente o parâmetro. É importante observar que estamos usando o termo "viés" aqui em um sentido técnico, não relacionado a preconceito ou discriminação.

Várias fontes comuns de viés podem afetar as pesquisas. O viés de amostragem ocorre quando nem todos os membros da população têm a mesma chance de serem selecionados em uma amostra aleatória. Por exemplo, se uma pesquisa por telefone exclui telefones celulares, ela pode distorcer os resultados para indivíduos mais velhos, diferindo potencialmente das opiniões da população em geral. O viés de não resposta surge quando aqueles que se recusam a participar de uma pesquisa diferem daqueles que o fazem, levando a possíveis vieses nos dados coletados.

Perguntas assimétricas ou palavras tendenciosas podem influenciar os respondentes a responder de uma determinada maneira, introduzindo viés nos resultados. O viés de desejabilidade social ocorre quando os entrevistados estão inclinados a fornecer respostas socialmente aceitáveis ou vistas de forma positiva. Por exemplo, se os indivíduos forem questionados sobre suas práticas de higiene dental, eles podem superestimar o número de vezes que escovaram os dentes devido ao viés de conveniência social.

Em estudos experimentais, o viés pode resultar de fatores como falta de controle ou cegueira. Se os grupos experimentais diferirem além do tratamento aplicado, isso pode introduzir viés nos resultados. A randomização é crucial para garantir a uniformidade e reduzir o viés.

Enquanto uma estatística imparcial visa estimar o parâmetro com precisão, a variabilidade é responsável pela tendência das estatísticas de variar em diferentes amostras aleatórias. Mesmo com um método de amostragem imparcial, cada amostra aleatória provavelmente produzirá uma estatística diferente devido apenas ao acaso. É importante observar que a variabilidade não é uma forma de viés. Só porque uma pesquisa não previu com precisão o resultado de uma eleição não significa necessariamente que ela foi falha.

Para ajudar a visualizar a diferença entre viés e variabilidade, imagine jogar dardos na mosca. Baixa variabilidade e baixo viés significariam que seus dardos acertam consistentemente o alvo, bem agrupados em torno do centro do alvo. Alta variabilidade, mas baixa tendência resultaria em dardos dispersos, ainda centrados em torno do centro do alvo. Por outro lado, alta variabilidade e alto viés levariam a dardos amplamente dispersos, errando o centro do alvo de forma consistente. No entanto, mesmo no pior cenário, é possível que um estudo acerte na mosca uma vez, indicando que resultados corretos ocasionais podem ocorrer apesar do alto viés e variabilidade.

Compreender o viés e a variabilidade é essencial para avaliar a qualidade das estatísticas e interpretar os resultados da pesquisa com precisão.

Bias and Variability in Statistics
Bias and Variability in Statistics
  • 2020.07.02
  • www.youtube.com
Often, a statistic doesn't exactly match up with the parameter it's supposed to be estimating. How can we tell whether it's a good statistic or not? If this ...
 

Construindo Distribuições de Frequência


Construindo Distribuições de Frequência

Olá pessoal! Hoje, vamos nos aprofundar na construção de distribuições de frequência para resumir e analisar dados quantitativos. Quando temos um conjunto de observações numéricas, é essencial entender a forma, o centro e a distribuição dos dados. Para conseguir isso, simplesmente olhar para os dados não será suficiente. Precisamos resumi-lo de maneira significativa, e é aí que as distribuições de frequência entram em ação.

Uma distribuição de frequência envolve dividir os dados em várias classes ou intervalos e, em seguida, determinar quantas observações se enquadram em cada classe. Vamos considerar um exemplo onde temos um intervalo de valores de 11 a 25. Para criar uma distribuição de frequência, podemos dividir esse intervalo em cinco classes e contar o número de observações em cada classe.

Na notação usada para notação de intervalo, um colchete rígido à esquerda [ indica que o ponto final esquerdo está incluído em cada intervalo, enquanto um colchete flexível à direita ) indica que o ponto final direito não está incluído. Isso significa que os valores de limite, como 14, 17, 20 e 23, sempre vão para a próxima classe superior. Além disso, as larguras de classe são todas iguais, neste caso, três unidades cada.

Ao examinar a distribuição de frequência, já podemos obter alguns insights sobre os dados. O centro dos dados parece estar em torno de 18, enquadrando-se na classe 17 a 20, que possui maior frequência. O restante dos dados mostra simetria relativa em torno desse pico central.

Agora, vamos passar por um processo passo a passo para construir uma distribuição de frequência. Em primeiro lugar, precisamos decidir sobre o número de classes a serem usadas. Embora não haja uma regra estrita, um bom ponto de partida geralmente é entre 5 e 20 aulas. Se usarmos poucas classes, não capturaremos detalhes suficientes na distribuição, prejudicando nossa capacidade de entender os dados. Por outro lado, o uso de muitas classes resulta em baixas contagens por classe, tornando difícil discernir a forma dos dados.

Depois de determinar o número de classes, procedemos ao cálculo da largura da classe. Para fazer isso, calculamos o intervalo dos dados subtraindo o valor mínimo do valor máximo. Então, dividimos o intervalo pelo número de classes. É crucial arredondar a largura da classe para garantir que todas as observações caiam em uma das classes. Arredondar para baixo pode fazer com que alguns pontos de dados sejam excluídos da distribuição.

Em seguida, encontramos os limites inferiores para cada classe. Começamos com o valor mínimo como o limite inferior da primeira classe. Em seguida, adicionamos a largura da classe para obter o limite inferior da segunda classe e assim por diante. O limite superior de cada classe está logo abaixo do limite inferior da próxima classe.

Finalmente, contamos quantas observações se enquadram em cada classe examinando o conjunto de dados. Por exemplo, vamos considerar um cenário em que construímos uma distribuição de frequência usando oito classes para um determinado conjunto de dados. Calculamos o intervalo dos dados, que é 115,5 - 52,0 = 63,5. Dividindo esse intervalo por oito, obtemos uma largura de classe de 7,9, que arredondamos para 8,0. Partindo do valor mínimo de 52, adicionamos 8,0 para obter os limites inferiores de cada classe: 52, 60, 68 e assim por diante.

Percorrendo o conjunto de dados e contando as observações pertencentes a cada classe, obtemos as frequências. É importante observar que as classes não devem se sobrepor e suas larguras devem permanecer as mesmas. Isso garante que cada observação seja atribuída a uma única classe.

Para melhorar nossa compreensão da distribuição de frequência, podemos expandir a tabela adicionando colunas para pontos médios de classe, frequências relativas e frequências cumulativas. Os pontos médios da classe representam o valor médio dentro de cada intervalo. Nós os calculamos tomando a média dos limites inferior e superior de cada classe. Por exemplo, o ponto médio para a classe de 52 a 60 é (52 + 60) / 2 = 56 e para a classe de 60 a 68 é (60 + 68) / 2 = 64 e assim por diante.

As frequências relativas fornecem informações sobre a proporção de observações dentro de cada classe em relação ao tamanho total do conjunto de dados. Para calcular frequências relativas, dividimos a frequência de cada classe pelo tamanho total do conjunto de dados. Por exemplo, dividindo a frequência 11 pelo tamanho do conjunto de dados de 50 nos dá uma frequência relativa de 0,22. Da mesma forma, dividindo 8 por 50 produz uma frequência relativa de 0,16.

Frequências cumulativas são obtidas somando as frequências para cada intervalo e todos os intervalos que vieram antes dele. A frequência cumulativa do primeiro intervalo, de 52 a 60, permanece a mesma que sua frequência, que é 11. Para encontrar a frequência cumulativa do próximo intervalo, somamos sua frequência (8) à frequência cumulativa do intervalo anterior. Por exemplo, a frequência cumulativa para o segundo intervalo, de 60 a 68, é 11 + 8 = 19. Continuamos esse processo para cada intervalo, somando as frequências e as frequências cumulativas anteriores para obter as frequências cumulativas dos intervalos subsequentes.

É importante observar que a soma de todas as frequências deve ser igual ao tamanho total do conjunto de dados (neste caso, 50). A soma das frequências relativas deve ser sempre 1, indicando a totalidade do conjunto de dados. Finalmente, o último valor na coluna de frequências cumulativas deve corresponder ao tamanho do conjunto de dados.

Expandir a tabela de distribuição de frequência com colunas para pontos médios de classe, frequências relativas e frequências cumulativas ajuda a fornecer uma compreensão mais abrangente da distribuição de dados. Ele nos permite observar as tendências centrais, proporções e proporções cumulativas dos dados de maneira mais organizada e perspicaz.

Em resumo, construir uma distribuição de frequência envolve dividir dados em classes, determinar larguras de classe, calcular limites inferiores, contar observações em cada classe e analisar as frequências resultantes. Expandir a tabela com informações adicionais, como pontos médios de classe, frequências relativas e frequências cumulativas, pode aprimorar ainda mais nossa compreensão das características do conjunto de dados.

Constructing Frequency Distributions
Constructing Frequency Distributions
  • 2020.07.04
  • www.youtube.com
Let's learn to construct frequency distributions! We compute class widths, count frequencies, then determine relative and cumulative frequencies. All the goo...
 

Histogramas, polígonos de frequência e ogivas


Histogramas, polígonos de frequência e ogivas

Olá a todos, hoje estamos mergulhando no mundo dos dados gráficos. Estaremos explorando histogramas, polígonos de frequência e ogivas, que são todas representações visuais de distribuições de variável única. À medida que exploramos esses diferentes tipos de exibição, usaremos a distribuição de frequência expandida que criamos no vídeo anterior como exemplo. Para refrescar sua memória, começamos com um conjunto de dados que consiste em 50 valores variando de aproximadamente 52 a 116. Dividimos o conjunto de dados em oito classes de igual largura e determinamos o número de valores em cada classe para construir a distribuição de frequência.

Vamos começar com a representação visual mais importante e comumente usada de um conjunto de dados de variável única: o histograma de frequência. Em um histograma, plotamos os valores dos dados no eixo horizontal e as frequências no eixo vertical. Especificamente, rotulamos os pontos médios da classe, como 56, 64, 72 e assim por diante, no eixo horizontal. Acima de cada ponto médio, desenhamos uma barra cuja altura corresponde à frequência daquela classe. Por exemplo, se as frequências das primeiras aulas forem 11, 8, 9 e assim por diante, as barras terão as respectivas alturas.

É importante observar que os histogramas representam a frequência usando a área. Mais área indica uma quantidade maior de dados. Quando olhamos para o gráfico, nossos olhos são naturalmente atraídos para áreas com mais dados, dando-nos uma compreensão intuitiva da forma, centro e distribuição do conjunto de dados. Por exemplo, neste histograma, podemos ver que é mais provável que os dados se agrupem em torno de 56 em vez de 112. Além disso, vale a pena mencionar que, ao desenhar um histograma, não deixamos lacunas entre classes adjacentes, ao contrário de um gráfico de barras onde as lacunas estão normalmente presentes entre as barras que representam variáveis categóricas.

Às vezes, os histogramas são desenhados com o eixo horizontal rotulado com os pontos finais das classes em vez dos pontos médios, e isso é perfeitamente aceitável. O gráfico transmite as mesmas informações independentemente de qual abordagem de rotulagem é usada. Outra opção é plotar a frequência relativa em vez da frequência no histograma, o que deve produzir uma forma semelhante. A única diferença seria uma alteração na escala do eixo horizontal para acomodar os valores de frequência relativa.

Outro método de exibição visual semelhante ao histograma é o polígono de frequência. Aqui, ainda plotamos os valores dos dados no eixo horizontal e representamos as frequências no eixo vertical. No entanto, em vez de desenhar barras, traçamos um ponto para cada classe. Esses pontos correspondem aos pontos médios no eixo horizontal e suas respectivas frequências no eixo vertical. Em seguida, conectamos esses pontos com linhas. Para garantir que o polígono pareça completo, adicionamos um ponto extra abaixo do primeiro ponto médio e outro acima do último ponto médio, cada um estendendo-se por uma largura de classe.

Por fim, podemos representar os dados usando uma ogiva, que exibe frequências cumulativas. Ao construir uma ogiva, traçamos os limites da classe superior no eixo horizontal e as frequências cumulativas no eixo vertical. Começamos com um ponto no eixo horizontal correspondente ao primeiro limite inferior de classe. O objetivo da ogiva é mostrar, para qualquer valor de x, quantos pontos de dados em nossa distribuição ficam abaixo desse valor.

Espero que isso esclareça os conceitos de gráficos de dados usando histogramas, polígonos de frequência e ogivas. Essas exibições visuais fornecem informações valiosas sobre a distribuição de conjuntos de dados de variável única.

Histograms, Frequency Polygons, and Ogives
Histograms, Frequency Polygons, and Ogives
  • 2020.07.05
  • www.youtube.com
Let's plot some data! Histograms, frequency polygons, and ogives are three of the most fundamental sorts of single-variable plots available to us. If this vi...
 

Sua primeira sessão do RStudio


Sua primeira sessão do RStudio

Olá a todos, na sessão de hoje, estamos ansiosos para abrir nosso estúdio pela primeira vez. Nosso foco principal será explorar a funcionalidade básica e se sentir confortável trabalhando neste ambiente. Ao abrir nosso estúdio pela primeira vez, você notará três painéis diferentes, mas neste vídeo, nos concentraremos principalmente na guia do console no painel mais à esquerda. No entanto, mencionaremos brevemente os outros painéis à medida que avançamos, deixando uma discussão mais detalhada para vídeos futuros.

Para começar, vamos explorar a guia do console, que funciona como uma calculadora científica em R. Você pode realizar operações aritméticas básicas, como adição, subtração, multiplicação e divisão. Por exemplo, se calcularmos 8 mais 12, a resposta é 20. É importante observar que a resposta é exibida sem os colchetes, o que explicaremos mais adiante neste vídeo. Além disso, você pode adicionar espaços para facilitar a leitura, pois o R ignora os espaços quando digitados na linha de comando.

R fornece uma ampla gama de funções internas, como a função de raiz quadrada. Por exemplo, a raiz quadrada de 9 é 3. Da mesma forma, você pode realizar operações trigonométricas, cálculos de valores absolutos e muito mais. Os nomes das funções geralmente são intuitivos, mas caso você não tenha certeza, uma rápida pesquisa no Google o ajudará a encontrar a sintaxe correta.

Um recurso útil no RStudio é a capacidade de recuperar comandos anteriores usando a tecla de seta para cima. Isso permite que você recupere um comando anterior e faça edições, se necessário. Por exemplo, se você deseja calcular a raiz quadrada de 10 em vez de 9, pode pressionar a tecla de seta para cima, excluir o 9 e inserir 10 para obter aproximadamente 3,162278.

Por padrão, R exibe seis dígitos de precisão à direita do ponto decimal. No entanto, você pode ajustar essa configuração no menu de preferências de acordo com suas necessidades.

Agora, vamos passar para a definição de variáveis. No R, você pode atribuir valores a variáveis usando o operador de atribuição, que é uma seta para a esquerda (<-) ou um sinal de igual (=). Recomenda-se usar a seta para a esquerda para atribuições. Por exemplo, vamos definir uma variável chamada "x" e defini-la igual a 3. Após a atribuição, a guia de ambiente no painel superior direito exibirá "x = 3" para nos lembrar da atribuição. Se simplesmente digitarmos o nome da variável "x" no console e pressionarmos enter, R imprimirá seu valor, que é 3 neste caso.

Você pode realizar operações aritméticas usando variáveis, assim como com valores numéricos. Por exemplo, se calcularmos 3 mais x, o resultado é 6. R respeita a ordem das operações, então expressões como 1 mais 2 vezes x resultarão em 7 em vez de 9.

R se torna mais poderoso quando atribuímos variáveis como vetores. Para criar um vetor, usamos a função concatenar (c) seguida de parênteses e os valores que queremos incluir. Por exemplo, vamos atribuir o vetor "y" aos valores 1, 5, 6 e 9. Depois de definir o vetor, digitar "y" e pressionar enter exibirá seus valores: 1, 5, 6 e 9. Agora nós pode realizar operações aritméticas no vetor, como adicionar 2 a cada elemento (y + 2) ou aplicar funções matemáticas como a raiz quadrada (sqrt(y)).

Além das operações aritméticas, também podemos resumir vetores. Por exemplo, podemos calcular a mediana (median(y)) ou a soma (sum(y)) do vetor. R fornece várias funções para manipular vetores e, se você não tiver certeza sobre uma função específica, uma rápida pesquisa no Google fornecerá as informações necessárias. Existem dois recursos adicionais no RStudio que gostaria de mencionar antes de prosseguirmos. O primeiro é o

Guia Histórico localizado na parte superior do console. Ao clicar nele, você pode acessar uma lista de seus comandos mais recentes. Você pode percorrer o histórico para revisar e reutilizar comandos anteriores, o que pode economizar tempo. Mesmo se você sair do RStudio e voltar mais tarde, o histórico de comandos ainda estará disponível.

Para reutilizar um comando do histórico, basta clicar duas vezes sobre ele e ele aparecerá no console. Você pode fazer as edições necessárias e reavaliar o comando. Esse recurso permite revisitar e modificar facilmente seus comandos anteriores.

O segundo recurso que quero destacar é a capacidade de atribuir nomes de variáveis com mais de uma letra. Por exemplo, digamos que queremos criar uma variável chamada "numbers" e atribuir a ela os valores 1, 2, 3, 4, 5 e 6. Podemos fazer isso inserindo "numbers <- c(1, 2, 3 , 4, 5, 6)" no console. Uma vez feita a atribuição, podemos realizar várias operações na variável, como calcular a raiz quadrada de "números" (sqrt(numbers)).

Agora, vamos carregar um conjunto de dados e explorar algumas das ações que podemos realizar com os dados carregados. No painel inferior direito do RStudio, você encontrará um navegador de arquivos. Navegue até o local do seu conjunto de dados e selecione-o. Por exemplo, vamos escolher o conjunto de dados "corpo". Clique no botão "Importar conjunto de dados" para importar o conjunto de dados para o RStudio.

Durante o processo de importação, você verá uma visualização do formato de planilha do conjunto de dados. No painel superior direito, a guia de ambiente exibirá um novo objeto chamado "body_data". Este objeto representa um quadro de dados com 300 observações e 15 variáveis. Essencialmente, é uma tabela com 300 linhas e 15 colunas. Você pode interagir com o conjunto de dados classificando colunas, rolando horizontalmente para visualizar mais colunas e tratando-o de forma semelhante a um arquivo do Excel.

Para trabalhar com variáveis específicas no quadro de dados, precisamos especificá-las usando a notação cifrão ($). Por exemplo, se estivermos interessados na variável "age", podemos digitar "body_data$age" no console. O RStudio fornecerá uma lista de variáveis disponíveis conforme você começa a digitar. Ao pressionar enter, você verá uma lista de todas as idades no conjunto de dados na ordem em que aparecem.

Depois de isolar uma variável específica, como "body_data$age", podemos realizar operações nela como qualquer outra variável. Por exemplo, podemos calcular a idade média de todos os indivíduos no conjunto de dados digitando "mean(body_data$age)" no console. Nesse caso, a idade média é determinada em 47,0.

Além da média, você pode explorar outras estatísticas, como desvio padrão, mediana, soma, mínimo, máximo e mais, usando as funções apropriadas. Iremos nos aprofundar nessas técnicas de manipulação de dados em vídeos futuros, explorando o poder do R para análise estatística.

Isso conclui nossa visão geral de abrir nosso estúdio, funcionalidade básica e trabalhar com variáveis e conjuntos de dados. Fique ligado nos próximos vídeos onde iremos explorar recursos e técnicas mais avançadas no RStudio.

Your First RStudio Session
Your First RStudio Session
  • 2020.08.16
  • www.youtube.com
Let's get started with R and RStudio! This vid shows some of the most basic functions that you'll need in order to start working with data in this environmen...
 

Histogramas e polígonos de frequência em R


Histogramas e polígonos de frequência em R

Olá a todos, no vídeo de hoje, criaremos histogramas e polígonos de frequência visualmente atraentes em R usando o comando qplot. Existem várias maneiras de criar gráficos em R, mas pessoalmente acredito que o pacote ggplot2 produz as exibições mais bonitas. Para começar, usaremos o comando qplot no ggplot2.

Para nossa demonstração, trabalharemos com o conjunto de dados "fiel", embutido no R. Esse conjunto de dados consiste em 272 observações de tempo de erupção e tempo de espera entre as erupções em minutos do gêiser Old Faithful no Parque Nacional de Yellowstone, EUA .

Para plotar histogramas e polígonos de frequência para a variável "waiting", primeiro precisamos instalar o pacote ggplot2. Se você ainda não o instalou, pode fazê-lo digitando "install.packages('ggplot2')". Uma vez instalado, você precisa carregar o pacote toda vez que iniciar uma nova sessão digitando "library(ggplot2)".

Agora vamos nos concentrar na plotagem. Para criar um histograma, especificamos a variável no eixo x usando o argumento "x", assim: "qplot(x = esperando, data = fiel, geom = 'histograma')". Isso gerará um histograma que parece melhor do que aquele produzido pelo comando hist da base R.

No entanto, existem algumas melhorias que podemos fazer. Vamos começar adicionando rótulos e um título principal ao gráfico. Podemos usar os argumentos "xlab" para o rótulo do eixo x, "ylab" para o rótulo do eixo y e "main" para o título principal. Por exemplo: "qplot(x = esperando, data = fiel, geom = 'histograma', xlab = 'Tempo de espera', ylab = 'Frequência', principal = 'Velho fiel')".

Em seguida, vamos abordar a aparência das barras. Por padrão, as barras podem parecer correr juntas. Para diferenciá-los, podemos adicionar uma cor de borda usando o argumento "color", como "color = 'darkblue'". Além disso, podemos alterar a cor de preenchimento das barras usando o argumento "fill", como "fill = 'lightblue'".

Agora, se quisermos criar um polígono de frequência em vez de um histograma, podemos alterar o argumento "geom" para "geom = 'freqpoly'". Isso plotará o polígono de frequência usando a mesma variável no eixo x. Lembre-se de remover o argumento "preencher", pois não é aplicável neste caso.

Você também pode querer ajustar o número de bins no histograma usando o argumento "bins". Por padrão, R usa 30 bins, mas você pode alterá-lo para um valor diferente, como "bins = 20", para ter mais ou menos bins.

Finalmente, quero mencionar uma forma alternativa de especificar os dados. Em vez de usar a notação "$", você pode especificar diretamente o conjunto de dados usando o argumento "dados", como "qplot(x = esperando, dados = fiéis, geom = 'histograma')". Isso pode ser útil ao trabalhar com várias variáveis.

Isso encerra nosso tutorial sobre a criação de histogramas e polígonos de frequência em R usando o comando qplot. Sinta-se à vontade para explorar e experimentar diferentes configurações para criar gráficos visualmente atraentes e informativos.

Histograms and Frequency Polygons in R
Histograms and Frequency Polygons in R
  • 2020.07.09
  • www.youtube.com
Let's learn about qplot(), the easiest way to produce beautiful graphics in R. This video is suitable for introductory statistics students - those with codin...
 

Gráficos de caule e folha


Gráficos de caule e folha

Olá a todos, na discussão de hoje, vamos explorar o conceito de diagramas de ramo e folha. Os gráficos de caule e folha oferecem uma maneira simples e informativa de visualizar a distribuição de uma única variável. Eles são especialmente eficazes para pequenos conjuntos de dados, pois retêm todas as informações sem nenhuma perda durante a visualização. Para entendê-los melhor, vamos mergulhar em alguns exemplos.

Um gráfico de haste típico consiste em uma barra vertical, onde cada dígito à direita da barra representa um ponto de dados. Esses dígitos representam o último dígito significativo de cada observação, enquanto os valores à esquerda da barra representam os dígitos de valor posicional mais alto. Por exemplo, na distribuição dada, os valores iniciais são 27, 29 e 32.

Observe a chave na parte superior, onde o ponto decimal é um dígito à direita da barra. Gráficos de caule e folha não incorporam decimais diretamente; em vez disso, a chave indica o valor posicional. Dessa forma, podemos diferenciar entre 27, 2,7 ou 0,27.

Agora, vamos construir um gráfico de ramo e folha para o seguinte conjunto de dados. Aqui, as décimas servirão como folhas e os dois dígitos à esquerda da vírgula serão as hastes. Assim, as primeiras entradas serão 34,3, 34,9 e, em seguida, prosseguir para a próxima haste, 35/1 (o ponto decimal se alinha com a barra).

O enredo completo é o seguinte: 34,3 34/9 e assim por diante.

É importante observar que todas as hastes entre a primeira e a última estão incluídas, mesmo que não haja folhas correspondentes. Isso nos permite observar a forma dos dados de maneira imparcial. Por exemplo, os valores 39,0 e 39,1 não estão imediatamente próximos a 37,5, deixando algum espaço entre eles.

No entanto, duas dificuldades potenciais podem surgir ao construir um gráfico de ramo e folha. Em primeiro lugar, se os dados contiverem muitos algarismos significativos, como no exemplo fornecido, usar o último dígito como folha resultaria em mais de 400 hastes. Para evitar isso, é recomendável arredondar os dados. Nesse caso, o arredondamento para a centena mais próxima fornece um número razoável de hastes.

O segundo problema ocorre quando há muitos pontos de dados por haste, conforme mostrado em outro exemplo. Para resolver isso, parece apropriado usar a casa dos milésimos para as folhas e os décimos e centésimos para os caules. No entanto, isso resultaria apenas em três hastes (2.1, 2.2 e 2.3). Embora tecnicamente preciso, este gráfico falha em representar a forma de distribuição desejada.

Para superar esse problema, podemos dividir os caules. Duplicando cada haste e atribuindo a primeira metade aos dígitos finais (folhas) de 0 a 4 e a segunda metade aos dígitos de 5 a 9, podemos obter uma melhor representação. Por exemplo, a haste 2.1 seria dividida em 2.10 a 2.14 (primeira metade) e 2.15 a 2.18 (segunda metade). Isso resolve a dificuldade anterior e fornece uma visão mais informativa dos dados.

Esse detalhe adicional pode ser revelador, como visto neste exemplo em que as hastes divididas destacam uma distribuição simétrica, ao contrário da exibição anterior que parecia enviesada à direita. Os gráficos de caule e folha oferecem informações valiosas sobre as distribuições de dados, preservando todas as informações essenciais.

Stem-and-Leaf Plots
Stem-and-Leaf Plots
  • 2020.07.10
  • www.youtube.com
Stem plots are an easy way to visualize small-ish data sets.If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
 

Gráficos de caule e folha em R


Gráficos de caule e folha em R

Olá pessoal! Hoje, exploraremos o fascinante mundo dos diagramas de caule e folha. Um gráfico de ramo e folha, também conhecido como gráfico de ramo, é uma representação visual de dados para uma única variável. É particularmente adequado para pequenos conjuntos de dados, pois fornece informações sobre a forma, o centro e a distribuição dos dados. Para melhorar nossa compreensão, trabalharemos com dois exemplos.

Em primeiro lugar, vamos mergulhar no conjunto de dados "fiel" integrado. Este conjunto de dados consiste em 272 observações de comprimento de erupção e tempo de espera para o famoso gêiser Old Faithful nos Estados Unidos. Todas as medições são registradas em segundos. Em R, o comando básico para criar um gráfico de haste é convenientemente denominado "stem". Precisamos especificar o nome da variável que queremos analisar do conjunto de dados "fiéis". Vamos começar com a variável de tempo de espera.

Observe a chave localizada na parte superior do gráfico de haste. O ponto decimal é posicionado um dígito à direita da barra. Observando o gráfico de haste, podemos identificar os primeiros valores no conjunto de dados, que são 43 e 45. Notavelmente, o R divide automaticamente as hastes para acomodar um intervalo de valores. Por exemplo, os 40 são divididos no intervalo de 40-44 na primeira haste e 45-49 na segunda haste, e assim por diante.

Se desejarmos substituir a divisão automática da haste, podemos utilizar o argumento "escala". Este argumento nos permite ajustar a altura do gráfico de haste especificando um fator de escala. Nesse caso, para evitar a divisão do caule, podemos reduzir pela metade a altura dos caules definindo "escala = 0,5". Embora possa não aumentar o apelo visual, serve como uma ilustração valiosa do uso do argumento da "escala".

Agora, vamos passar para o segundo exemplo. Temos um conjunto de dados que compreende 20 observações de tempos de reação em milissegundos a um estímulo visual por participantes de um estudo de pesquisa. Como antes, começaremos com um gráfico de tronco básico. Nesse caso, o ponto decimal está dois dígitos à direita da barra. Por exemplo, "3/1" representa "310".

Observe que alguns arredondamentos ocorrem neste gráfico. O valor mínimo no conjunto de dados é, na verdade, 309, resultando em uma pequena perda de informações. Como no exemplo anterior, podemos modificar as configurações padrão usando o comando "escala". Vamos experimentar isso ajustando o fator de escala. Por exemplo, definir "escala = 0,5" pode fornecer ainda menos intuição sobre a forma do conjunto de dados em comparação com nosso gráfico de haste original. No entanto, se dobrarmos o tamanho do gráfico de haste, podemos obter uma melhor compreensão da distribuição dos dados.

Neste gráfico modificado, você notará que as hastes passaram de um dígito para dois dígitos. Por exemplo, quando lemos os primeiros valores representados no conjunto de dados, observamos 307 e 309. Além disso, o próximo radical listado é "32" em vez de "31". Essa ocorrência ocorre porque os dados que começam com "30" e "31" são combinados em um único tronco. Consequentemente, há uma potencial perda de informações. No entanto, as folhas continuam a aumentar em ordem.

Para evitar pular valores nas hastes e capturar todos os dados sem omissões, precisamos ajustar ainda mais o fator de escala. Nesse caso, podemos fazer o diagrama de haste cinco vezes mais longo que a versão original. Isso nos permite obter um gráfico de haste que inclui todos os dados sem nenhum salto de haste, alinhando-se com a representação desejada.

Embora essa exibição final englobe o conjunto de dados completo, pode não ser a escolha ideal devido ao seu comprimento excessivo. Torna-se um desafio perceber a forma, os padrões e as tendências subjacentes no conjunto de dados. Considerando as alternativas, as melhores opções para um gráfico de caule claro e informativo são aquele sem substituir a divisão do caule ou o gráfico de caule original com o qual começamos.

Ao selecionar qualquer uma dessas opções, encontramos um equilíbrio entre capturar a essência dos dados e manter uma representação concisa e visualmente interpretável. É importante lembrar que o objetivo de um gráfico de ramo e folha é fornecer intuição e percepção sobre a distribuição de dados, permitindo-nos identificar tendências centrais, variações e discrepâncias.

Assim, em conclusão, gráficos de ramo e folha são ferramentas valiosas para analisar pequenos conjuntos de dados. Eles oferecem um meio direto e visual de compreender a forma, o centro e a distribuição dos dados. Ao experimentar o fator de escala e a divisão do caule, podemos ajustar a parcela para atender aos nossos requisitos específicos. No entanto, é crucial encontrar um equilíbrio entre capturar o conjunto de dados completo e manter uma representação clara que facilite a análise e interpretação dos dados.

Agora que exploramos gráficos de ramo e folha por meio de dois exemplos, obtivemos informações valiosas sobre seu uso e personalização. Armados com esse conhecimento, podemos aplicar gráficos de ramo e folha a outros conjuntos de dados para desvendar suas histórias ocultas e tomar decisões informadas com base na análise de dados.

Stem-and-Leaf Plots in R
Stem-and-Leaf Plots in R
  • 2020.07.08
  • www.youtube.com
Stem-and-leaf plots are easy with R! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy, crush that 'subscr...