Tutoriais de programação - página 14

 

A distribuição normal


A distribuição normal

Hoje vamos discutir distribuições de probabilidade normais e a regra empírica. Ao lidar com uma variável aleatória contínua, sua curva de densidade geralmente assume a forma de uma curva de sino. Essa curva em forma de sino indica que a maior parte da probabilidade está concentrada perto do centro, ou média, da distribuição. No entanto, teoricamente, resultados tão grandes ou tão pequenos quanto você possa imaginar são possíveis.

As distribuições normais são comumente encontradas em cenários da vida real. Por exemplo, se medirmos o comprimento de bebês recém-nascidos selecionados aleatoriamente, observarmos as velocidades dos veículos em uma rodovia aberta ou examinarmos as pontuações de alunos escolhidos aleatoriamente em testes padronizados, todas essas variáveis aleatórias provavelmente seguirão distribuições aproximadamente normais. As distribuições normais exibem simetria em torno da média, o que significa que as probabilidades de obter resultados menores que a média são as mesmas de obter resultados maiores que a média. Assim, ao considerar o comprimento dos recém-nascidos, temos a mesma probabilidade de encontrar bebês acima ou abaixo da média.

As características de uma distribuição normal são totalmente descritas por sua média e variância (ou desvio padrão). A média representa o centro da distribuição, enquanto o desvio padrão representa a distância da média aos pontos de inflexão da curva. Esses pontos de inflexão marcam a transição da forma de colina para a forma de vale da curva.

Vamos dar um exemplo envolvendo as pontuações do SAT de 2017. As pontuações do SAT foram aproximadamente distribuídas normalmente com uma média de 1.060 e um desvio padrão de 195. Desenhando um gráfico dessa distribuição, localizamos a média em 1.060 e marcamos os pontos de inflexão um desvio padrão da média em ambas as direções. Também podemos marcar pontos adicionais correspondentes a um desvio padrão acima e abaixo da média.

Ao interpretar as curvas de densidade, as áreas abaixo delas representam probabilidades. A partir do gráfico, podemos ver que a probabilidade de selecionar aleatoriamente uma pontuação entre 865 e 1.060 é substancialmente maior do que selecionar uma pontuação entre 670 e 865. Para quantificar essas probabilidades, podemos empregar a regra empírica como regra prática para estimar normal probabilidades.

De acordo com a regra empírica, em qualquer distribuição normal, aproximadamente 68% da probabilidade está dentro de um desvio padrão da média, 95% está dentro de dois desvios padrão e 99,7% está dentro de três desvios padrão. Essas proporções correspondem às áreas sob a curva dentro das respectivas regiões.

Aplicando a regra empírica à nossa distribuição de pontuação SAT com uma média de 1060 e um desvio padrão de 195, descobrimos que há 68% de chance de selecionar aleatoriamente uma pontuação entre 865 e 1255, uma chance de 95% de selecionar uma pontuação entre 670 e 1450, e 99,7% de chance de selecionar uma pontuação entre 475 e 1645.

Usando a geometria e a regra empírica, também podemos calcular probabilidades para outros cenários. Por exemplo, a probabilidade de obter um resultado a mais de um desvio padrão da média é igual a um menos a probabilidade de obter um resultado dentro de um desvio padrão da média. Da mesma forma, podemos calcular a probabilidade de obter um valor mais de dois desvios padrão abaixo da média encontrando o complemento da área dentro de dois desvios padrão da média.

Em resumo, as distribuições de probabilidade normais seguem uma curva em forma de sino, e a regra empírica fornece uma aproximação útil para estimar probabilidades dentro de regiões específicas de uma distribuição normal.

The Normal Distribution
The Normal Distribution
  • 2020.05.18
  • www.youtube.com
Introducing normally-distributed random variables! We learn what they look like and how they behave, then begin computing probabilities using the empirical r...
 

A distribuição normal padrão


A distribuição normal padrão

Olá a todos, hoje vamos mergulhar na distribuição normal padrão. Esta é essencialmente uma distribuição normal ou curva de sino com uma média de zero e um desvio padrão de um, conforme ilustrado aqui.

Estamos lidando com uma variável aleatória contínua que pode assumir qualquer valor entre infinito negativo e infinito positivo. No entanto, a maior parte da probabilidade está concentrada perto de zero. O pico da curva é centrado na média, que é zero, e os pontos de inflexão ocorrem em mais e menos um, onde o gráfico transita de uma forma de colina para uma forma de vale.

Para se referir a variáveis aleatórias que seguem uma distribuição normal padrão, geralmente usamos a letra "z". A distribuição normal padrão é particularmente útil porque qualquer variável aleatória com distribuição normal (com média mu e desvio padrão sigma) pode ser transformada em uma distribuição normal padrão. Essa transformação é obtida subtraindo a média e dividindo pelo desvio padrão: z = (x - mu) / sigma.

Agora, vamos falar sobre z-scores. Um escore z representa o número de desvios padrão pelo qual um valor x está acima ou abaixo da média. Às vezes, os escores z também são chamados de escores padrão. Na distribuição normal padrão, não nos concentramos nas probabilidades de valores individuais, pois são infinitas. Em vez disso, consideramos as probabilidades de z cair dentro de intervalos específicos.

Ao considerar as probabilidades na distribuição normal padrão, examinamos as áreas sob o gráfico para o intervalo desejado. Por exemplo, vejamos a probabilidade de z estar entre -1 e 0,5. Queremos encontrar a área sombreada sob o gráfico entre esses dois valores. Lembre-se, a área total sob o gráfico é sempre um, pois representa a probabilidade total.

Para descrever probabilidades para variáveis aleatórias contínuas como a normal padrão, geralmente usamos funções de distribuição cumulativa (CDFs). O CDF fornece a probabilidade de que uma variável aleatória seja menor ou igual a um valor específico. Na distribuição normal padrão, usamos a notação Phi(z) para o CDF.

Para calcular probabilidades, é recomendável usar tecnologia como calculadoras ou software. Por exemplo, uma calculadora TI tem a função "normalcdf", o Excel pode realizar os cálculos e, no R, o comando "pnorm" é usado para calcular o CDF para a distribuição normal padrão.

Vamos considerar um exemplo. Se quisermos encontrar a probabilidade de um escore z menor ou igual a 0,5, podemos usar o CDF e calcular Phi(0,5), que resulta em aproximadamente 0,691. Portanto, a probabilidade de obter um escore z menor ou igual a 0,5 é de cerca de 69,1%.

Em geral, se quisermos calcular a probabilidade de um escore z cair dentro de um intervalo específico (a até b), subtraímos a probabilidade de z ser menor ou igual a a da probabilidade de z ser menor ou igual a b. Simbolicamente, isso pode ser escrito como Phi(b) - Phi(a).

Por fim, é essencial lembrar que a probabilidade de qualquer pontuação z individual é infinitesimal. A probabilidade de que z seja menor ou igual a um valor específico (c) é a mesma que a probabilidade de que z seja menor que esse valor (c). Além disso, a probabilidade de z ser maior que c é igual a um menos a probabilidade de z ser menor ou igual a c, pois esses eventos são complementares.

Para ilustrar, vamos determinar a probabilidade de obter um escore z maior que -1,5. Usando o fato dois acima, podemos calcular 1 menos a probabilidade de z ser menor ou igual a -1,5, que é aproximadamente 93,3%. Conforme previsto, essa probabilidade é consideravelmente maior do que 50%, considerando que um escore z negativo nos coloca à extrema esquerda na curva do sino, indicando que uma parte significativa da área fica à direita desse escore z.

Em resumo, a distribuição normal padrão, caracterizada por uma média de zero e um desvio padrão de um, é um conceito fundamental em estatística. Ao utilizar escores z, que medem o número de desvios padrão de um valor em relação à média, podemos determinar as probabilidades associadas a intervalos específicos na distribuição. A função de distribuição cumulativa (CDF), muitas vezes denotada como Phi(z), é usada para calcular essas probabilidades. Tecnologia como calculadoras ou software estatístico é comumente empregada para calcular valores de CDF. Lembre-se, a distribuição normal padrão nos permite padronizar e comparar valores de qualquer distribuição normal, transformando-os em escores z.

The Standard Normal Distribution
The Standard Normal Distribution
  • 2020.07.27
  • www.youtube.com
The standard normal distribution: what it is, why it matters, and how to use it. Your life is about to get better! If this vid helps you, please help me a ti...
 

Calculando probabilidades normais usando R


Calculando probabilidades normais usando R

Olá pessoal! Hoje estamos mergulhando no mundo da computação de probabilidades em distribuições normais usando o RStudio. Ao lidar com variáveis aleatórias normalmente distribuídas, que são contínuas, não faz sentido discutir a probabilidade de obtenção de um determinado valor individual. Em vez disso, contamos com a função de distribuição cumulativa (CDF). Essa função pega um valor x e retorna a probabilidade de obter um número menor ou igual a esse valor x por acaso na distribuição normal.

Para entender melhor esse conceito, vamos dar uma olhada em uma representação visual. No gráfico, marquei um valor x e a área sombreada representa a probabilidade cumulativa até esse valor x usando o CDF normal. Quando nos referimos à distribuição normal padrão com uma média de 0 e um desvio padrão de 1, geralmente denotamos a variável aleatória como Z e usamos um Phi maiúsculo (Φ) para representar o CDF.

Agora, há casos em que queremos calcular a probabilidade de que uma variável dentro de uma distribuição normal caia dentro de um intervalo específico, não apenas menos que um único número. Podemos conseguir isso calculando a probabilidade de que seja menor ou igual ao número superior e subtraindo a probabilidade de que seja menor ou igual ao número inferior. Isso pode ser visualizado subtraindo a área sombreada no canto inferior direito da área sombreada no canto inferior esquerdo.

Vamos testar nosso conhecimento realizando alguns cálculos usando diferentes distribuições normais e probabilidades. Para isso, vamos mudar para o RStudio. No R, podemos utilizar a função "Pnorm", que é a função de distribuição cumulativa para a distribuição normal.

Primeiro, vamos considerar uma distribuição N(5, 9). Queremos encontrar a probabilidade de que X seja menor ou igual a 10. Usando "Pnorm" com o valor x de 10, média de 5 e desvio padrão de 3, obtemos um resultado de aproximadamente 0,9522.

Em seguida, vamos determinar a probabilidade de obter um valor x maior que 10. Como obter um valor x maior que 10 é o complemento de obter um valor x menor ou igual a 10, podemos calculá-lo subtraindo a probabilidade de o último de 1. Ao subtrair "Pnorm(10, 5, 3)" de 1, descobrimos que a probabilidade é de aproximadamente 0,048.

Agora, vamos mudar nosso foco para uma distribuição normal com média de 100 e variância de 20. Estamos interessados na probabilidade de X estar entre 92 e 95. Começamos calculando a probabilidade de X ser menor ou igual a 95 usando "Pnorm(95, 100, sqrt(20))". Em seguida, subtraímos a probabilidade de X ser menor ou igual a 92 usando "Pnorm(92, 100, sqrt(20))". O resultado é aproximadamente 0,095.

Por fim, vamos trabalhar com a distribuição normal padrão e encontrar a probabilidade de Z estar entre -1,2 e 0,1. Podemos subtrair diretamente "Pnorm(-1.2)" de "Pnorm(0.1)" para obter o resultado de aproximadamente 0,428.

Em conclusão, aproveitando o poder da distribuição normal e da função de distribuição cumulativa, podemos calcular probabilidades associadas a diferentes faixas de valores. RStudio nos fornece as ferramentas necessárias, como a função "Pnorm", para realizar esses cálculos de forma eficiente.

Computing Normal Probabilities Using R
Computing Normal Probabilities Using R
  • 2020.05.28
  • www.youtube.com
A quick introduction to the normal cdf function and its implementation in R, complete with several complete examples. Easy! If this vid helps you, please hel...
 

Cálculos normais inversos


Cálculos normais inversos

Olá pessoal! Hoje, vamos mergulhar no fascinante mundo dos cálculos normais inversos. Vamos começar atualizando nosso entendimento de como calculamos probabilidades na distribuição normal padrão usando a função de distribuição cumulativa (CDF), denotada como Φ(z). O CDF usa um escore z como entrada e retorna a probabilidade de que um escore z escolhido aleatoriamente seja menor ou igual a esse valor.

Para ilustrar este conceito, considere o gráfico onde Φ(0,5) é esboçado. Para calcular Φ(0,5), desenhamos a curva de sino normal padrão e localizamos z = 0,5 ligeiramente à direita da média. Em seguida, sombreamos toda a área à esquerda desse escore z. Φ(0,5) representa a área da região sombreada. Lembre-se de que a probabilidade total sob a curva do sino é sempre 1, portanto podemos interpretar a área sombreada como uma porcentagem da área total.

Agora, vamos explorar o inverso do CDF normal, denotado como Φ^(-1) ou "phi inverse". Este processo reverte o cálculo anterior. Em vez de alimentá-lo com um escore z e obter uma probabilidade, inserimos uma probabilidade e recuperamos o escore z correspondente. Por exemplo, Φ^(-1)(0,5) é 0 porque Φ(0) é 0,5. Metade da probabilidade está à esquerda de z = 0 na distribuição normal padrão. Da mesma forma, Φ^(-1)(0,6915) é 0,5 porque Φ(0,5) é 0,6915 e Φ^(-1)(0,1587) é -1 porque Φ(-1) é 0,1587. Estamos essencialmente invertendo as entradas e saídas dessas duas funções.

Para ilustrar melhor esse conceito, vamos considerar um exemplo. Suponha que queremos encontrar o escore z que captura o percentil 90 em uma distribuição normal padrão. Esse escore z representa um resultado maior que 90% dos resultados se extrairmos repetidamente dessa distribuição. Para determinar isso, usamos Φ^(-1) e calculamos Φ^(-1)(0,90), que resulta em aproximadamente 1,28. Assim, 1,28 é o escore z correspondente ao percentil 90 na distribuição normal padrão.

Agora, armados com o escore z para uma determinada probabilidade ou percentil, podemos facilmente determinar o valor correspondente em qualquer distribuição normal. Considere um exemplo em que as pontuações em um teste padronizado são normalmente distribuídas com uma média de 1.060 e um desvio padrão de 195. Para determinar a pontuação necessária para ultrapassar 95% das pontuações, primeiro encontramos o 95º percentil. Usando Φ^(-1)(0,95) ou qnorm(0,95) em R, obtemos aproximadamente 1,64 como o escore z. Interpretando esse resultado, um aluno deve pontuar 1,64 desvios padrão acima da média para ter 95% de chance de superar uma pontuação selecionada aleatoriamente.

Para calcular a pontuação real, usamos a fórmula x = μ + zσ, onde x representa a pontuação necessária, μ é a média (1060), z é a pontuação z (1,64) e σ é o desvio padrão (195) . Substituindo esses valores, descobrimos que o aluno precisa pontuar aproximadamente 1.379,8. Assim, pontuar em torno de 1380 posicionaria o aluno no percentil 95 e forneceria 95% de chance de superar uma pontuação selecionada aleatoriamente no teste.

É importante observar que os valores obtidos das distribuições normal e normal inversa são frequentemente aproximações, pois podem ser irracionais. Embora seja possível realizar cálculos normais inversos usando tabelas, é mais comum e conveniente usar a tecnologia para esses cálculos. No R, por exemplo, o comando para a normal inversa é qnorm. Para encontrar o inverso de uma probabilidade, inserimos qnorm seguido pela probabilidade desejada. Por exemplo, para calcular o inverso de 0,6915, usamos qnorm(0,6915) e obtemos aproximadamente 0,5. Da mesma forma, para o inverso de 0,1587, usamos qnorm(0,1587) e obtemos aproximadamente -1.

O uso da tecnologia para esses cálculos é preferível no século 21, pois fornece resultados precisos e economiza tempo em comparação com o uso de tabelas manuais. Aproveitando ferramentas como o R, podemos realizar cálculos normais inversos sem esforço, fornecendo a probabilidade e recebendo o z-score correspondente.

Em resumo, os cálculos normais inversos nos permitem determinar o escore z correspondente a uma determinada probabilidade ou percentil em uma distribuição normal. Podemos usar a função normal inversa, como Φ^(-1) ou qnorm em R, para obter esses valores. Essas informações nos ajudam a tomar decisões informadas e realizar várias análises estatísticas.

Inverse Normal Calculations
Inverse Normal Calculations
  • 2020.07.30
  • www.youtube.com
Let's learn about the inverse normal cdf! Lots of examples and pictures, as usual.
 

Cálculos normais inversos usando R


Cálculos normais inversos usando R

Hoje, usaremos o R para realizar alguns cálculos normais inversos. Temos três problemas para resolver.

Problema 1: Encontre o percentil 98 da distribuição normal padrão. Em outras palavras, queremos determinar o escore z que está acima de 98% da probabilidade na distribuição normal padrão. No R, podemos usar o comando qnorm. Como estamos lidando com a distribuição normal padrão (média = 0, desvio padrão = 1), podemos inserir diretamente o percentil como argumento. Portanto, calculamos qnorm(0,98) e obtemos um escore z de aproximadamente 2,05.

Problema 2: Encontre o valor de x que captura 40% da área sob uma distribuição normal com média 12 e variância 3. Podemos começar visualizando a curva de sino com os parâmetros fornecidos. Queremos encontrar um valor de x que corresponda a uma área de 40% à esquerda dele. Usando qnorm, inserimos a área desejada como um decimal, que é 0,40. No entanto, como esta é uma distribuição normal não padrão, precisamos especificar a média e o desvio padrão também. Portanto, calculamos qnorm(0,40, mean = 12, sd = sqrt(3)) e obtemos um valor de x aproximadamente igual a 11,56.

Problema 3: Considere o consumo per capita anual de laranjas nos Estados Unidos, que tem distribuição aproximadamente normal com média de 9,1 libras e desvio padrão de 2,7 libras. Se um americano come menos de 85% de seus pares, queremos determinar quanto eles consomem. Aqui, estamos interessados na área à direita do percentil dado (85%). Como qnorm fornece valores com áreas à esquerda, precisamos subtrair o percentil de 1 para obter a área à direita, que é 0,15. Calculamos qnorm(0,15, média = 9,1, sd = 2,7) para encontrar o valor de consumo correspondente. O resultado é de aproximadamente 6,30 quilos de laranjas por ano.

Ao usar a função qnorm em R, podemos executar com eficiência esses cálculos normais inversos e obter os resultados desejados para vários problemas estatísticos.

O uso da função qnorm no R nos permite realizar cálculos normais inversos com eficiência, fornecendo os escores z necessários ou valores que correspondem a percentis ou áreas específicas sob uma distribuição normal.

No Problema 1, queríamos encontrar o percentil 98 da distribuição normal padrão. Usando qnorm(0,98), obtivemos um escore z de aproximadamente 2,05. Isso significa que o valor correspondente ao percentil 98 na distribuição normal padrão está 2,05 desvios padrão acima da média.

No Problema 2, buscamos encontrar o valor de x que captura 40% da área sob uma distribuição normal com média 12 e variância 3. Após especificar a média e o desvio padrão na função qnorm como qnorm(0,40, average = 12, sd = sqrt(3)), obtivemos um valor x de aproximadamente 11,56. Isso indica que o valor de x, que corresponde a capturar 40% da área à esquerda dele na distribuição normal dada, é aproximadamente 11,56.

No Problema 3, consideramos o consumo per capita anual de laranjas nos Estados Unidos, que segue uma distribuição normal com média de 9,1 libras e desvio padrão de 2,7 libras. Queríamos determinar a quantidade de consumo de um indivíduo que come menos de 85% de seus pares. Calculando qnorm(0,15, média = 9,1, sd = 2,7), descobrimos que o nível de consumo deve ser em torno de 6,30 libras por ano para que um indivíduo consuma menos de 85% de seus pares.

No geral, a função qnorm no R simplifica o processo de execução de cálculos normais inversos, fornecendo os valores ou pontuações z necessários com base em percentis ou áreas específicas. Isso nos permite analisar e tomar decisões informadas com base nas características das distribuições normais.

Inverse Normal Calculations Using R
Inverse Normal Calculations Using R
  • 2020.08.02
  • www.youtube.com
It's easy to compute inverse normal values using R. Let's learn the qnorm() command! If this vid helps you, please help me a tiny bit by mashing that 'like' ...
 

Distribuições de amostragem


Distribuições de amostragem

Olá a todos, hoje vamos discutir o conceito de distribuições amostrais de estatísticas. Na inferência estatística, nosso objetivo é usar estatísticas amostrais para estimar parâmetros populacionais. No entanto, as estatísticas amostrais tendem a variar de uma amostra para outra, o que significa que, se coletarmos amostras repetidamente, obteremos valores diferentes para a mesma estatística.

Vamos ilustrar isso com um exemplo. Imagine que temos um saco contendo fichas numeradas, e um estatístico da estação de tabuleiro sorteia 5 fichas aleatoriamente, obtendo os números 24, 11, 10, 14 e 16. A média amostral, denotada como barra x, é calculada como 15. Agora , se repetirmos esse processo várias vezes, provavelmente obteremos valores diferentes para x-bar a cada vez. Por exemplo, em amostras subsequentes, podemos obter 17,8, 18,8 ou 21,6 como a média da amostra. Assim, a estatística amostral x-bar é resultado de um processo aleatório e pode ser considerada uma variável aleatória. Ela tem sua própria distribuição de probabilidade, à qual nos referimos como a distribuição amostral da estatística.

Agora, vamos trabalhar com um exemplo concreto. Suponha que temos uma sacola com três fichas vermelhas e seis fichas azuis. Se retirarmos três fichas aleatoriamente com reposição, queremos encontrar a distribuição amostral de x, que representa o número de fichas vermelhas sorteadas. Existem quatro valores possíveis para x: 0, 1, 2 ou 3. Para determinar as probabilidades associadas a cada valor, tratamos cada sorteio individual como uma tentativa de Bernoulli, onde o vermelho é considerado um sucesso e o azul um fracasso. Como estamos conduzindo três sorteios idênticos, cada um com uma probabilidade de um terço, temos uma distribuição binomial com n = 3 e p = 1/3. Ao calcular as probabilidades usando a fórmula de distribuição binomial, descobrimos que as probabilidades para x = 0, 1, 2 e 3 são 0,296, 0,444, 0,296 e 0,064, respectivamente. Essas probabilidades definem a distribuição amostral de x.

A média é a estatística mais comumente usada para inferência estatística, então você frequentemente encontrará a frase 'distribuição amostral da média amostral'. Representa a distribuição de probabilidade de todos os valores possíveis que a média amostral pode assumir ao extrair amostras do mesmo tamanho da mesma população. Por exemplo, vamos considerar o exemplo do saco novamente, mas desta vez, os chips são numerados de 1 a 35. Queremos descrever a distribuição amostral da média amostral, denotada como x-bar, quando tomamos amostras de tamanho n = 5 Sem substituição. Repetindo o processo de amostragem mil vezes e calculando a média amostral a cada vez, obtemos uma lista de mil números variando de 15 a 165. A maioria dessas médias amostrais cairá na faixa intermediária e, ao construir um histograma, observamos que a distribuição de amostragem segue aproximadamente uma forma de curva de sino. Este padrão de curva de sino não é uma coincidência, como iremos explorar em uma discussão futura.

A distribuição amostral da média amostral tem um centro e uma dispersão previsíveis, o que permite várias inferências estatísticas. Em particular, se extrairmos amostras de tamanho n de uma grande população com uma média de mu e um desvio padrão de sigma, a média das médias amostrais (x-barra) será igual à média da população (mu). Além disso, o desvio padrão das médias amostrais será igual ao desvio padrão populacional (sigma) dividido pela raiz quadrada de n. Essas relações sugerem que a média da amostra fornece uma estimativa da média da população e é menos variável do que as observações individuais dentro da população.

Para ilustrar isso, vamos considerar um exemplo em que a pontuação média em um teste padronizado é 1.060 e o desvio padrão é 195. Suponha que selecionemos aleatoriamente 100 alunos da população. Nesse caso, assumimos que a população é grande o suficiente para que a amostragem sem reposição seja aceitável. A distribuição amostral da média amostral, indicada como x-bar, terá um centro de 1060 e um desvio padrão de 19,5.

Para esclarecer, se coletarmos uma amostra de 100 alunos e calcularmos suas notas médias nos testes, repetindo esse processo várias vezes, descobriremos que, em média, a média amostral seria 1060. A dispersão das médias amostrais, conforme indicado pelo desvio padrão de 19,5, seria consideravelmente menor do que o desvio padrão dos escores individuais dentro da população.

Compreender as propriedades da distribuição amostral, como seu centro e dispersão, nos permite fazer inferências estatísticas significativas. Aproveitando a distribuição amostral da média amostral, podemos estimar parâmetros populacionais e tirar conclusões sobre a população com base nas estatísticas amostrais observadas.

Em geral, as distribuições amostrais de estatísticas desempenham um papel crucial na inferência estatística, fornecendo informações sobre a variabilidade das estatísticas amostrais e sua relação com os parâmetros populacionais.

Sampling Distributions
Sampling Distributions
  • 2020.08.01
  • www.youtube.com
All statistical inference is based on the idea of the sampling distribution of a statistic, the distribution of all possible values of that statistic in all ...
 

O que é o teorema do limite central?


O que é o teorema do limite central?

Hoje, estamos discutindo o Teorema do Limite Central (CLT), amplamente considerado um dos teoremas mais importantes da estatística. O CLT descreve a forma da distribuição amostral da média amostral (x-barra) e requer uma compreensão sólida das distribuições amostrais.

Para entender o CLT, é recomendável se familiarizar com as distribuições de amostragem. Você pode assistir a um vídeo sobre distribuições de amostragem, que coloquei no link acima para sua conveniência.

Agora, vamos nos aprofundar na CLT. Suponha que tomamos amostras aleatórias simples de tamanho 'n' de uma população com média (μ) e desvio padrão (σ). Podemos não saber muito sobre a forma da população, mas se 'n' for grande o suficiente (geralmente em torno de 30), a distribuição amostral da média amostral se aproximará de uma distribuição normal. Se a própria população for normalmente distribuída, então a distribuição amostral de x-bar será exatamente normal, independentemente de 'n'. Além disso, a média da barra x sempre será μ, e o desvio padrão da barra x será σ dividido pela raiz quadrada de 'n'.

Em essência, o Teorema do Limite Central afirma que, independentemente da população que está sendo amostrada, quando o tamanho da amostra é suficientemente grande, a distribuição da barra x será aproximadamente normal com uma média de μ e um desvio padrão de σ dividido pela raiz quadrada de 'n'. Mentalmente, imagine tirar várias amostras do mesmo tamanho da população, calculando a média amostral para cada amostra. Embora as médias amostrais individuais possam variar ligeiramente, sua média será igual à média da população, e a dispersão dessas médias amostrais em torno da média será aproximadamente em forma de sino, com um desvio padrão relacionado, mas menor que o desvio padrão da população.

Para ilustrar esse conceito, vamos considerar um exemplo. Temos uma linha de apoio técnico onde a duração das chamadas segue uma distribuição normal com média (μ) de 2 minutos e desvio padrão (σ) de 3 minutos. Suponha que queremos encontrar a probabilidade de que uma amostra selecionada aleatoriamente de 40 chamadas tenha uma duração média inferior a 2,5 minutos. Embora não saibamos a distribuição exata das durações das chamadas individuais, podemos utilizar o Teorema do Limite Central, pois estamos examinando a média amostral de 40 chamadas. A média da amostra (x-barra) será aproximadamente distribuída normalmente com uma média de 2 e um desvio padrão de 3 dividido pela raiz quadrada de 40 (σ/sqrt(n)).

Para calcular a probabilidade, determinamos o escore z para x-bar = 2,5 na distribuição com média 2 e desvio padrão 3/sqrt(40). Calculando o escore z como (2,5 - 2) / (3 / sqrt(40)), encontramos um valor de 1,05. Podemos então usar uma função de distribuição cumulativa normal (CDF) para encontrar a probabilidade de que o escore z seja menor que 1,05, o que resulta em aproximadamente 85,3%. Isso significa que há uma chance de 85,3% de obter uma amostra média inferior a 2,5 minutos ao amostrar 40 chamadas.

Em outra demonstração, vamos imaginar um gerador de números aleatórios que produz inteiros aleatórios entre 1 e 12 com igual probabilidade. Este cenário é análogo a selecionar alguém aleatoriamente e determinar seu mês de nascimento. Se pegarmos amostras aleatórias simples de tamanho 2 desse gerador, executá-lo várias vezes e calcular a média da amostra, observaremos um histograma com uma forma aproximada de pirâmide. Os resultados tendem a se agrupar em torno de 6,5, indicando uma maior probabilidade de obter médias amostrais próximas a 6,5 em comparação com valores mais próximos de 1 ou 12.

Ao aumentar o tamanho da amostra para 10, observamos um histograma que começa a se assemelhar a uma distribuição em forma de sino, e a dispersão das médias da amostra diminui. A maioria das médias amostrais agora está entre 4 e 9.

Se aumentarmos ainda mais o tamanho da amostra para 100 e repetirmos o processo, o histograma se tornará ainda mais em forma de sino, com a maioria das médias amostrais concentradas entre 6 e 7. O desvio padrão das médias amostrais continua diminuindo.

Finalmente, quando tomamos amostras de tamanho 1000, o histograma segue uma curva de distribuição normal quase perfeita. As médias amostrais estão bem agrupadas em torno da média da população, com a maioria caindo entre 6,25 e 6,75. O desvio padrão das médias amostrais continua diminuindo à medida que o tamanho da amostra aumenta.

Para resumir, à medida que o tamanho da amostra (n) aumenta, a média da amostra (x-barra) torna-se um estimador mais confiável da média da população (μ). A variabilidade na média amostral diminui, levando a uma distribuição amostral mais estreita e em forma de sino.

Agora, vamos considerar um exemplo envolvendo um dispensador de água destilada. O dispensador enche galões de água e a quantidade dispensada segue uma distribuição normal com média de 1,03 galões e desvio padrão de 0,02 galões. Queremos determinar a probabilidade de que um único "galão" dispensado seja, na verdade, menor que 1 galão.

Para encontrar essa probabilidade, calculamos o escore z para x = 1 na distribuição normal com média 1,03 e desvio padrão 0,02. A pontuação z é calculada como (1 - 1,03) / 0,02, resultando em -1,5. Usando a função de distribuição cumulativa normal (CDF), descobrimos que a probabilidade de obter um valor menor que 1 galão é de aproximadamente 6,68%.

Agora, vamos considerar a probabilidade de que a média de 10 galões seja menor que 1 galão por galão. De acordo com o Teorema do Limite Central, quando o tamanho amostral (n) é grande o suficiente, a distribuição amostral da média amostral torna-se normal, independentemente da distribuição populacional. Neste caso, a distribuição amostral de x-bar tem uma média de 1,03 (igual à média da população) e um desvio padrão de 0,02/sqrt(10).

Para encontrar a probabilidade de obter uma média de amostra inferior a 1 galão, calculamos o z-score como (1 - 1,03) / (0,02/sqrt(10)), que é igual a -4,74. Usando a função de distribuição cumulativa normal (CDF), descobrimos que a probabilidade de obter uma amostra média inferior a 1 galão é de aproximadamente 0,0001%.

Em conclusão, embora seja um pouco improvável (cerca de 7%) que um único galão seja subpreenchido, seria extremamente incomum que a média de 10 galões fosse inferior a 1 galão por galão.

Por fim, em relação ao tamanho da amostra, o Teorema do Limite Central sugere que a distribuição amostral de x-bar se aproxima de uma distribuição normal para grandes tamanhos de amostra. No entanto, o que constitui um tamanho de amostra "grande" é subjetivo e depende da assimetria da distribuição da população e da presença de outliers. Em geral, ao amostrar de uma distribuição bastante simétrica sem valores extremos, um tamanho de amostra menor pode ser suficiente para aplicar o Teorema do Limite Central.

What is the central limit theorem?
What is the central limit theorem?
  • 2020.08.04
  • www.youtube.com
This is it! The most important theorem is the whole wide universe! A large proportion of statistical inference made possible by this one result. If this vid ...
 

Cálculo de probabilidades usando o teorema do limite central: exemplos


Cálculo de probabilidades usando o teorema do limite central: exemplos

Olá a todos, na sessão de hoje, estaremos trabalhando em alguns problemas relacionados ao cálculo de probabilidades usando o Teorema do Limite Central. Temos dois problemas para resolver. Vamos começar!

Problema 1: Os pesos dos sacos de uma determinada marca de balas seguem uma distribuição normal com média de 45 gramas e desvio padrão de 1,5 gramas. Precisamos encontrar a probabilidade de que uma sacola selecionada aleatoriamente contenha menos de 44 gramas de balas.

Para resolver isso, usaremos a distribuição normal e calcularemos o z-score. O escore z é obtido subtraindo a média (45) do valor (44) e dividindo-o pelo desvio padrão (1,5). Isso nos dá uma pontuação z de -0,67.

Em seguida, usamos a função de distribuição cumulativa normal (CDF) para encontrar a probabilidade de obter um valor menor que -0,67 na distribuição normal padrão. A probabilidade é de aproximadamente 0,252, o que significa que há 25,2% de chance de que uma sacola selecionada aleatoriamente contenha menos de 44 gramas de bala.

Problema 2: Vamos considerar a probabilidade de cinco sacolas selecionadas aleatoriamente terem peso médio inferior a 44 gramas de bala. Para este problema, precisamos aplicar o Teorema do Limite Central.

De acordo com o Teorema do Limite Central, quando o tamanho da amostra é grande o suficiente (geralmente 30 ou mais), a distribuição amostral da média amostral torna-se aproximadamente normal, independentemente da distribuição da população. Nesse caso, a média da distribuição amostral (x-barra) será igual à média da população (45), e o desvio padrão será o desvio padrão da população (1,5) dividido pela raiz quadrada do tamanho da amostra ( √5).

Para encontrar a probabilidade, calculamos o escore z subtraindo a média (45) do valor desejado (44) e dividindo-o pelo desvio padrão (√(1,5^2/5)). Isso nos dá uma pontuação z de -1,49.

Usando o CDF normal, descobrimos que a probabilidade de obter uma amostra média inferior a 44 gramas é de aproximadamente 0,068 ou 6,8%. Portanto, há cerca de 6,8% de chance de que cinco sacolas selecionadas aleatoriamente tenham um peso médio inferior a 44 gramas de bala.

Por fim, consideramos a probabilidade de que 25 sacolas selecionadas aleatoriamente tenham peso médio inferior a 44 gramas de bala. Como o tamanho da amostra é maior (25), ainda podemos aplicar o Teorema do Limite Central.

Usando o mesmo procedimento anterior, calculamos o escore z para uma amostra média de 44 gramas com um desvio padrão de 1,5/√25. Isso nos dá uma pontuação z de -3,33.

Aplicando o CDF normal, descobrimos que a probabilidade de obter uma amostra média inferior a 44 gramas é de aproximadamente 0,004, ou 0,4%. Portanto, há apenas 0,4% de chance de que 25 sacolas selecionadas aleatoriamente tenham um peso médio inferior a 44 gramas de bala.

Em conclusão, o Teorema do Limite Central fornece uma aproximação confiável para essas probabilidades, mesmo com um tamanho de amostra relativamente pequeno de 7. As probabilidades calculadas são notavelmente próximas dos valores exatos obtidos da distribuição de probabilidade original.

Calculating Probabilities Using the Central Limit Theorem: Examples
Calculating Probabilities Using the Central Limit Theorem: Examples
  • 2020.10.02
  • www.youtube.com
Let's compute! The Central Limit Theorem is incredibly useful when computing probabilities for sample means and sums. We do an example of each. If this vid h...
 

Introdução aos intervalos de confiança


Introdução aos intervalos de confiança

Olá a todos, hoje estamos mergulhando no tópico de intervalos de confiança. Enquanto discutimos isso, é crucial ter em mente a distinção entre um parâmetro e uma estatística. Vamos rever rapidamente este conceito.

Um parâmetro é um número que descreve uma população, como o salário inicial médio de todos os cientistas de dados nos Estados Unidos. Por outro lado, uma estatística é um número que descreve uma amostra, como o salário inicial médio de 10 cientistas de dados selecionados aleatoriamente nos Estados Unidos.

Normalmente, não temos acesso direto para observar os parâmetros. Muitas vezes é impraticável coletar informações de uma população inteira, por isso contamos com dados de amostra, que fornecem estatísticas. A inferência estatística é o processo de raciocínio de uma estatística para um parâmetro.

Uma das formas mais fundamentais e significativas de inferência estatística é o intervalo de confiança. Para tornar tudo isso mais concreto, vamos considerar um exemplo. Suponha que façamos uma amostra aleatória de 10 cientistas de dados nos Estados Unidos e descubramos que seu salário inicial médio é de US$ 97.000. Esse valor representa uma estatística, pois se refere apenas aos cientistas de dados em nossa amostra. No entanto, queremos fazer uma inferência sobre o salário inicial médio de todos os cientistas de dados nos Estados Unidos, que é o parâmetro que estamos interessados em estimar.

Para estimar o parâmetro μ com a barra x estatística (média amostral), nosso melhor palpite é que o salário inicial médio de todos os cientistas de dados nos Estados Unidos é de US$ 97.000. No entanto, é importante reconhecer que é altamente improvável que essa estimativa seja exatamente correta. É improvável que o parâmetro μ seja precisamente $ 97.000; pode ser um pouco mais alto ou mais baixo, ou mesmo significativamente.

Dado que nossa estimativa não é exata, é apropriado fornecer uma estimativa de intervalo, normalmente no formato x-bar mais ou menos alguma margem de erro. A questão crítica é como determinamos essa margem de erro. Devemos ter em mente que, mesmo com grande margem de erro, sempre existe a probabilidade de errar.

Por exemplo, considere um cenário em que selecionamos uma amostra com 10 cientistas de dados mal pagos, enquanto o parâmetro real (salário inicial real de cientistas de dados nos Estados Unidos) é de US$ 150.000. Nossa média amostral permanece $ 97.000. Assim, o melhor que podemos esperar é construir um intervalo de confiança que provavelmente capture o parâmetro verdadeiro com alta probabilidade. Isso significa que o intervalo deve incluir o parâmetro verdadeiro em uma porcentagem significativa do tempo.

Normalmente, um nível de confiança de 95% é usado como padrão, embora outros níveis como 90% ou 99% possam ser escolhidos dependendo da aplicação. Em qualquer caso, a notação usada para o nível de confiança é um C maiúsculo. Para expressar isso formalmente como uma declaração de probabilidade, pretendemos encontrar uma margem de erro (e) tal que a probabilidade de x-bar e μ estar dentro de e de um ao outro é C.

Vamos tornar nosso exemplo mais específico. Suponha que os salários iniciais dos cientistas de dados sigam uma distribuição normal com um desvio padrão populacional de US$ 8.000. Queremos encontrar uma margem de erro (e) que nos permita estimar μ, o salário inicial médio de todos os cientistas de dados nos Estados Unidos, com 95% de confiança.

Para conseguir isso, usaremos as propriedades da distribuição normal padrão. Se tomarmos uma variável aleatória x que segue uma distribuição normal, a média amostral (x-barra) também será normalmente distribuída. A média da distribuição média da amostra é a mesma que a média da distribuição da população (μ), mas o desvio padrão é reduzido. Em nosso exemplo, o desvio padrão da média da amostra é σ/√n, onde σ é o desvio padrão da população en é o tamanho da amostra.

Com esta informação, podemos reescrever nossa declaração de probabilidade da seguinte forma: a probabilidade de que a barra x esteja entre μ - e e μ + e é igual a C. Agora, podemos representar isso em termos de escores z, que medem o número de desvios padrão da média. Ao padronizar nosso intervalo, podemos utilizar a distribuição normal padrão (distribuição Z) para determinar os valores apropriados.

Para um determinado nível de confiança C, precisamos encontrar a pontuação z (z-star) de modo que a área entre -z-star e z-star sob a curva normal padrão seja igual a C. Os valores comuns para C incluem 0,95, que corresponde a uma estrela z de 1,960. Uma vez que temos z-estrela, podemos calcular a margem de erro multiplicando-a por σ/√n.

Voltando ao nosso exemplo, onde temos um tamanho de amostra de n = 10, uma média amostral de $ 97.000 e um desvio padrão populacional de $ 8.000, podemos construir um intervalo de confiança de 95% para μ. Substituindo esses valores na forma geral do intervalo de confiança, descobrimos que a estimativa do intervalo para μ é $ 97.000 ± $ 1.958.

Em resumo, esperamos que o salário inicial médio de todos os cientistas de dados nos Estados Unidos caia entre US$ 92.042 e US$ 101.958, com uma confiança estimada de 95%. Isso significa que, se repetirmos esse processo de amostragem e construirmos intervalos de confiança usando dados de amostra várias vezes, esperamos que nossos intervalos capturem o parâmetro verdadeiro (μ) aproximadamente 95% das vezes.

Introducing Confidence Intervals
Introducing Confidence Intervals
  • 2020.07.30
  • www.youtube.com
Let's talk about confidence intervals. Here we're attempting to estimate a population mean when the population standard deviation is known. Cool stuff! If th...
 

Intervalos de confiança para a média - exemplo


Intervalos de confiança para a média - exemplo

Olá a todos, hoje vamos discutir a construção de intervalos de confiança para uma média populacional quando o desvio padrão populacional é conhecido. Além disso, exploraremos os fatores que podem afetar o tamanho da margem de erro usando um exemplo relacionado a uma balança de banheiro residencial.

Ao usar uma balança de banheiro, é razoável assumir que as leituras serão normalmente distribuídas em torno do peso real da pessoa que está sendo pesada. No entanto, não se espera que essas leituras sejam perfeitamente precisas e podem variar ligeiramente para cima ou para baixo. Neste exemplo, vamos supor que temos acesso a informações sobre o desvio padrão populacional da escala, que é de 1,2 libra.

Nosso interesse principal está em construir um intervalo de confiança para o peso real da pessoa que está sendo pesada, que denotaremos como μ. Para conseguir isso, pesaremos repetidamente uma pessoa na balança, calcularemos a média amostral dessas pesagens e usaremos a fórmula μ = x-bar ± z-star * σ / √n. Aqui, x-bar representa a média da amostra, n é o tamanho da amostra, σ é o desvio padrão da população e z-star é o valor z crítico correspondente ao nível de confiança desejado (C).

Para tornar nosso exemplo mais específico, digamos que pesamos um estatístico na balança cinco vezes e obtemos um peso médio de 153,2 libras. Isso serve como nossa média amostral. Agora, queremos construir um intervalo de confiança de 90% para o peso real do estatístico, assumindo um desvio padrão de 1,2 libras para a balança. Substituindo esses valores na fórmula, descobrimos que a estimativa do intervalo é de 153,2 ± 0,88 libras.

Como escolhemos um nível de confiança de 90%, podemos esperar que esse intervalo capture o verdadeiro peso do estatístico em aproximadamente 90% dos casos.

Agora, vamos nos aprofundar na estrutura da margem de erro. A margem de erro segue a fórmula z-star * σ / √n, onde existem três componentes principais: o valor crítico z-star (relacionado ao nível de confiança), o desvio padrão populacional σ (refletindo a dispersão na população) , e o tamanho da amostra n.

Ao modificar qualquer um desses três componentes, podemos impactar previsivelmente o tamanho da margem de erro. Se aumentarmos o nível de confiança, a margem de erro também aumentará, pois o valor da z-estrela correspondente será maior. Da mesma forma, aumentar o desvio padrão populacional σ resultará em uma margem de erro maior, pois há mais variabilidade nos dados, tornando a média amostral menos confiável. Por outro lado, aumentar o tamanho da amostra n diminuirá a margem de erro, pois a média da amostra se torna um preditor mais preciso da média da população.

Para ilustrar esses efeitos, vamos revisitar nosso exemplo de intervalo de confiança de 90% com um desvio padrão de 1,2 libras e um tamanho de amostra de 5. Se aumentarmos o nível de confiança para 95%, o valor z-star torna-se 1,960, resultando em uma margem maior de erro de 1,05 libras. Se revertermos para um nível de confiança de 90%, mas aumentarmos o desvio padrão para 1,5 libra, a margem de erro se expande para 1,1 libra. Finalmente, se mantivermos o desvio padrão em 1,2 libras, mas dobrarmos o tamanho da amostra para 10, a margem de erro diminuirá para 0,62 libras, indicando um intervalo de confiança mais estreito.

É importante observar que, embora alterar o nível de confiança e o tamanho da amostra sejam ajustes práticos, modificar o desvio padrão geralmente está fora de nosso controle, pois reflete a variabilidade inerente da população.

Em conclusão, os intervalos de confiança fornecem uma gama de valores plausíveis para o parâmetro populacional de interesse. A margem de erro, influenciada pelo nível de confiança, desvio padrão da população e tamanho da amostra, nos ajuda a entender a precisão e a confiabilidade de nossas estimativas. Aumentar o nível de confiança amplia o intervalo para fornecer um nível mais alto de confiança na captura do parâmetro verdadeiro. Um desvio padrão populacional maior resulta em um intervalo mais amplo devido ao aumento da variabilidade nos dados. Por outro lado, aumentar o tamanho da amostra reduz o intervalo, pois fornece mais informações e aumenta a precisão da estimativa.

No exemplo que discutimos, há duas alterações realistas que podem ser feitas: ajustar o nível de confiança e alterar o tamanho da amostra. Essas mudanças nos permitem controlar o nível de certeza e a quantidade de dados usados para estimativa. No entanto, o desvio padrão da escala não está sob nosso controle, tornando menos realista modificá-la.

Compreender os fatores que influenciam a margem de erro e os intervalos de confiança é crucial na interpretação dos resultados estatísticos. Isso nos permite tomar decisões informadas e tirar conclusões significativas com base na precisão e confiabilidade de nossas estimativas.

Confidence Intervals for the Mean - Example
Confidence Intervals for the Mean - Example
  • 2020.07.31
  • www.youtube.com
Let's construct a confidence interval for a population mean! We'll also talk about the structure of the margin of error, and what goes into making it large o...