English Русский Deutsch 日本語
preview
Critério de homogeneidade de Smirnov como indicador de não-estacionaridade de séries temporais

Critério de homogeneidade de Smirnov como indicador de não-estacionaridade de séries temporais

MetaTrader 5Estatística e análise | 17 setembro 2024, 14:57
11 0
Evgeniy Chernish
Evgeniy Chernish

Introdução

Ao iniciar a análise de séries temporais financeiras, o pesquisador sempre se depara com o problema da não-estacionaridade dos dados. As séries temporais de preços de moedas, ações e futuros não são estacionárias. Para transformar essas séries em um formato estacionário, são geralmente utilizadas as primeiras diferenças dos logaritmos dos preços Ln(Xn/Xn-1) e, a partir disso, continua-se o trabalho com os dados modificados.

Mas surge a questão: podemos considerar essa série temporal modificada como estacionária? Neste artigo, tentarei responder a essa pergunta, mas, antes, vamos relembrar o que é estacionaridade. Sem definições formais, a estacionaridade pode ser descrita como a constância das propriedades estatísticas de uma série temporal ao longo do tempo, tais como a expectativa matemática e a variância. Se, além dessas propriedades, supomos a constância da função de distribuição no tempo, então o processo é chamado de estacionário no sentido restrito.

Neste estudo, verificarei a estacionaridade de séries temporais financeiras justamente no sentido restrito, utilizando funções empíricas de distribuição. A teoria da probabilidade e a estatística matemática, como um ramo específico desta, baseiam-se em pressupostos de estacionaridade. Existem muitos métodos para a análise de processos estacionários, incluindo análise de regressão, análise de autocorrelação, métodos de análise espectral e o uso de redes neurais. No entanto, a aplicação desses métodos a dados não-estacionários pode levar a erros significativos nas previsões.

Para os traders, a questão da estacionaridade está intimamente relacionada à escolha do volume de dados para o cálculo de diferentes indicadores. No caso de processos estacionários, quanto mais dados estiverem disponíveis, mais precisamente podemos calcular todas as características estatísticas. Entretanto, ao analisar processos não-estacionários, é difícil determinar o volume ideal de dados. Um volume muito grande pode conter informações obsoletas, que já não influenciam a situação atual; se os dados forem muito poucos, devido à insuficiente representatividade, não seremos capazes de avaliar adequadamente as propriedades estatísticas do processo.

A característica mais completa de um processo aleatório é a sua lei de distribuição (função de probabilidade). Portanto, a construção de um indicador que permita acompanhar a mudança da função de distribuição da série temporal ao longo do tempo é uma tarefa importante. Esse indicador, por sua vez, servirá como um sinal da necessidade de revisar o volume de dados para o cálculo de indicadores padrão de análise técnica. Na estatística matemática, a tarefa de verificar "se a função de distribuição de uma determinada variável aleatória mudou ao longo do tempo" é chamada de "teste de hipótese de homogeneidade".


Hipótese de homogeneidade

A verificação da homogeneidade dos dados amostrais é realizada utilizando critérios de homogeneidade. Atualmente, foram desenvolvidos muitos desses critérios, entre os quais podemos destacar:

  • o critério de homogeneidade de Smirnov,

  • o critério de homogeneidade de Anderson,

  • o critério de homogeneidade qui-quadrado de Pearson.

A hipótese de homogeneidade nada mais é do que a suposição de que duas amostras de dados (x1, x2, x3,...xn) e (y1, y2, y3,...ym), obtidas a partir de variáveis aleatórias X e Y, seguem a mesma lei de distribuição, ou, dito de outra forma, que as duas amostras são extraídas da mesma população. Formalmente, essa hipótese pode ser escrita como H0: F(x) = G(y). A hipótese alternativa consiste em que as duas amostras pertencem a populações diferentes, sem especificar quais são, H1: F(x) ≠ G(y).

  • Fn(x) e Gm(y) – função empírica de distribuição (empirical cumulative distribution function) das variáveis aleatórias X e Y, respectivamente.

  • n, m – quantidade de dados para o cálculo


    Critério de homogeneidade de Smirnov

    O critério de homogeneidade de Smirnov, também conhecido como teste de Kolmogorov-Smirnov bicaudal, é um teste estatístico usado para verificar a hipótese de que duas amostras foram retiradas da mesma distribuição contínua. Esse critério se baseia na comparação das funções empíricas de distribuição de duas amostras independentes.

    O critério de homogeneidade de Smirnov é amplamente utilizado na análise estatística para verificar hipóteses sobre a igualdade das distribuições, o que pode ser útil em várias áreas, como biostatística, econometria e outras pesquisas em que se requer comparar duas amostras diferentes quanto às suas propriedades estatísticas. Isso é especialmente relevante quando os dados disponíveis são insuficientes para utilizar métodos paramétricos mais complexos.

    Surge a pergunta: o que tomar como medida da divergência entre duas funções empíricas de distribuição? Smirnov propôs a seguinte estatística:

    Dn,m = sup | Fn(x) - Gm(y) |

    Empirical CDF Smirnov Distance

    Essa estatística representa o limite superior exato (máximo) do valor absoluto da diferença entre as funções de distribuição. Se a lei de distribuição da variável aleatória não mudar de uma amostra para outra, então é natural esperar valores baixos para a estatística Dn,m. Valores muito altos dessa estatística, por sua vez, serão uma evidência contra a hipótese nula de homogeneidade dos dados. Na prática, para testar hipóteses estatísticas, em vez da estatística D, calcula-se uma estatística ligeiramente modificada:

    lambda = D * ( sqrt(k) + 0,12 + 0,11/sqrt(k) ),

    onde k = (m*n/(m+n)). A distribuição da estatística lambda, quando k → ∞, converge para a função de distribuição de Kolmogorov:                                                  

    Distribuição de Kolmogorov

    Às vezes, utiliza-se uma fórmula mais simplificada para o cálculo de lambda – quando n é igual a m:

    lambda = D * sqrt(n/2)

    Em seguida, obtendo-se os valores da estatística, verifica-se a hipótese de homogeneidade com base nos dados amostrais.

    A verificação da hipótese estatística ocorre da seguinte maneira:

    • formula-se a hipótese nula H0 (as amostras são homogêneas) e a hipótese alternativa H1 (as amostras são heterogêneas),

    • é estabelecido um nível de significância alpha (utilizam-se geralmente os valores padrão 0,1, 0,05, 0,01),

    • calcula-se o valor crítico u(alpha) segundo a distribuição de Kolmogorov (por exemplo, para o nível de significância alpha de 0,05, u(alpha) é igual a 1,3581),

    • calcula-se o valor amostral da estatística lambda,

    • se lambda < u(alpha), então a hipótese nula é aceita,

    • se lambda > u(alpha), então a hipótese nula é rejeitada no nível de significância alpha, por ser contraditória aos dados observados.

    Também é possível outra conclusão lógica para este esquema. Em vez do valor crítico u(alpha), calcula-se a probabilidade PValue = 1 - K(lambda), que, por sua vez, é comparada ao nível de significância alpha definido. Se o nível de significância alpha ≥ PValue, então a hipótese nula é rejeitada, pois considera-se que ocorreu um evento de baixa probabilidade, incompatível com o conceito de aleatoriedade, e, portanto, as amostras devem ser consideradas diferentes.

    Distribuição de densidade de Kolmogorov

    Aqui, o gráfico mostra a derivada da função de distribuição de Kolmogorov, ou seja, a função de densidade de probabilidade (probability density function), calculada sob a suposição de que a hipótese nula é verdadeira. Se a densidade de probabilidade da distância de Smirnov, calculada com base nos dados amostrais, difere da função de Kolmogorov, isso pode indicar a não-homogeneidade dos dados.

    O critério de homogeneidade de Smirnov não deve ser confundido com o critério de aderência de Kolmogorov. No critério de homogeneidade de Smirnov (no ambiente de língua inglesa Two-sample Kolmogorov-Smirnov test), comparamos duas funções empíricas de distribuição, enquanto no critério de aderência de Kolmogorov (One-sample Kolmogorov-Smirnov test), compara-se uma função empírica de distribuição com uma função hipotética.

    Um ponto muito importante é que as funções empíricas de distribuição devem ser calculadas com dados de observação não agrupados, pois a função de distribuição de Kolmogorov foi calculada com base nessa suposição.  Também é importante ressaltar que o critério de Smirnov é independente da forma específica da função de distribuição. E, como na análise de séries temporais financeiras é muitas vezes difícil tirar conclusões sobre a adesão dos dados observados a um determinado tipo hipotético de distribuição, o valor desse critério para o analista aumenta significativamente. Sem fazer suposições sobre o tipo de distribuição hipotética à qual os dados observados podem pertencer, podemos testar a hipótese de homogeneidade baseando-nos exclusivamente nas funções empíricas de distribuição.  Para a análise de séries temporais, o critério de Smirnov pode ser considerado um indicador de estacionaridade do processo. Afinal, conforme a definição de estacionaridade, o processo é considerado estacionário quando sua função de distribuição de probabilidades não muda ao longo do tempo.


    Explicação simples da metodologia de cálculo

    Suponha que temos dois grandes sacos de bolas de mármore. Em um saco, as bolas são feitas em um país, e no outro, em outro. Nosso objetivo é descobrir se as bolas de mármore nos dois sacos são iguais ou diferentes.

    1. Classificação das bolas. Primeiro, despejamos as bolas de ambos os sacos e para cada um, organizamos as bolas por tamanho, isto é, da menor para a maior.

    2. Comparação das bolas. Depois, começamos a observar cada bola do primeiro saco e procurar uma bola de tamanho semelhante no segundo saco. Medimos o quão distante estão essas bolas parecidas nas duas fileiras. Nesse contexto, "distância" significa o quanto essas bolas estão separadas em suas posições nas fileiras.

      Suponha que tenhamos uma bola do primeiro saco que ocupa a quinta posição na fileira. Se uma bola de tamanho semelhante do segundo saco estiver na vigésima posição em sua fileira, a distância entre essas duas bolas será de 15 posições (20 - 5 = 15). Esse número mostra o quão distantes estão as bolas semelhantes nos dois sacos (ou nas duas amostras de dados).

      No teste estatístico de Kolmogorov-Smirnov, comparamos essas "distâncias" para todas as bolas e procuramos o valor máximo entre elas. Se essa distância máxima for maior que um valor definido (que depende da quantidade de bolas nos sacos), isso pode indicar que as bolas dos sacos são realmente diferentes em alguns aspectos.

    3. Busca pela maior diferença. Procuramos o ponto onde as diferenças ("distâncias") entre as bolas nas duas fileiras são as maiores. Por exemplo, se em um ponto as bolas forem muito próximas em tamanho e em outro forem muito diferentes, nós destacamos esse local.

    4. Avaliação das diferenças. Se a maior distância entre as bolas for muito grande, isso pode significar que as bolas nos sacos são realmente diferentes. Por outro lado, se todas as bolas estiverem relativamente próximas umas das outras ao longo de toda a fileira, então elas provavelmente vieram do mesmo lugar.

    Assim, se as diferenças entre as duas fileiras de bolas forem grandes, dizemos que os sacos de bolas são diferentes. Se as diferenças forem pequenas, provavelmente as bolas são as mesmas. Isso nos ajuda a entender se podemos considerar as bolas de dois lugares diferentes como iguais ou não.


    Análise de dados usando o critério de homogeneidade de Smirnov

    Antes de começar a analisar as distâncias de Smirnov D, calculadas com base em cotações reais, primeiro investigamos como essa estatística se comporta em modelos de processos estacionários, tanto com incrementos dependentes quanto independentes. Para isso, vou gerar 1000 amostras (Samples) de séries temporais com uma função de distribuição definida, cada uma contendo 1440 dados. Em seguida, calcularei a distância de Smirnov D entre essas amostras, verificarei em que porcentagem dos casos ocorre a rejeição da hipótese nula (H1/ Samples), e também construirei a função empírica de densidade de probabilidade dessas distâncias, para compará-las com a função de densidade de Kolmogorov. Abaixo, o gráfico mostra as séries de distâncias de Smirnov para a amostra de dados N = 1440, obtidas de distribuições normal e uniforme.       

                                    Distância de Smirnov para Distribuição Normal
                                    Distância de Smirnov para Distribuição Uniforme

    Para amostras de distribuições normal e uniforme, a rejeição incorreta da hipótese de homogeneidade ocorre dentro da margem de erro de primeira espécie permitida (alpha = 0,05), ou seja, em no máximo 50 casos em 1000 amostras. H1/ Samples = 50/1000 = 0,05. Abaixo estão os gráficos da densidade de probabilidade amostral das distâncias de Smirnov para as distribuições normal e uniforme.

    PDF Smirnov Distance

    No eixo X está indicado o valor de lambda

    Como podemos ver, há uma completa correspondência entre as distribuições amostrais das distâncias de Smirnov para as amostras de distribuições uniforme e normal e a distribuição de Kolmogorov, para a qual elas devem convergir sob a suposição de que a hipótese nula de homogeneidade é verdadeira.

    As distribuições normal e uniforme, com as quais acabamos de lidar, são exemplos de processos estacionários independentes. Como exemplo de um processo estacionário, mas dependente, tomarei a equação não linear discreta, frequentemente usada como exemplo na área do caos determinístico — o mapeamento logístico:

    Xn = R * Xn-1 * (1 – Xn-1), X0 = (0;1), R = 4

    Este é um sistema dinâmico unidimensional não linear, que, com o parâmetro R = 4, demonstra comportamento caótico, quase indistinguível de ruído branco. A função de autocorrelação da série temporal gerada por essa equação oscila em torno de zero. No entanto, este processo contém dependência não linear, e seria interessante verificar como isso se reflete na distribuição das distâncias de Smirnov. Essa questão não é trivial, pois muitos acreditam que os dados financeiros contêm dependências não lineares, por isso incluí essa equação na análise.

    Distância de Smirnov para Mapeamento Logístico

    Naturalmente, para a análise, também é necessária uma modelo com dependências lineares, que podem estar presentes em dados reais. Portanto, como segunda modelo de processo estacionário dependente, utilizarei um modelo de autorregressão de primeira ordem:

    ARt = 0,5 * ARt-1 + et

    • et – variável aleatória com média zero e variância unitária, ruído branco gaussiano

    O processo autorregressivo neste caso também é um processo gaussiano, mas dependente.

    Distância de Smirnov para AR(1)

    Nos processos com incrementos dependentes, a situação com a rejeição da hipótese de homogeneidade é um pouco diferente. Para o mapeamento logístico, há um leve excedente no valor permitido do erro de primeira espécie, 0,058 (H1/ Samples = 58/1000), enquanto para a autorregressão de primeira ordem, esse erro já é de aproximadamente 0,25 (H1/ Samples = 250/1000), ou seja, cinco vezes maior que o nível permitido sob a suposição da hipótese nula.

    Obtivemos um resultado muito interessante. Parece que, conforme o critério de Smirnov, tanto o mapeamento logístico quanto o AR(1) devem ser considerados processos não homogêneos (ou seja, não estacionários), embora, obviamente, isso não seja verdade. Qual é o motivo disso? Acontece que a função de densidade de probabilidade das distâncias de Smirnov para distribuições estacionárias não depende do tipo de distribuição do processo analisado apenas quando os dados observados são estatisticamente independentes. Como tanto o mapeamento logístico quanto a autorregressão são processos com incrementos dependentes, nesse caso, a densidade de probabilidade das distâncias de Smirnov será diferente da distribuição de Kolmogorov. Isso, por sua vez, significa que o critério de Smirnov pode ser não apenas um indicador de heterogeneidade (não estacionaridade do processo), mas também um indicador da presença de dependência nos dados (linear ou não linear).

    Vamos passar à análise de dados reais. Como exemplo, tomei barras de um minuto dos pares de moedas EURUSD e ouro XAUUSD.

    Distância de Smirnov para EURUSD_M1

    Distância de Smirnov para XAUUSD_M1

    Para as cotações de um minuto, a porcentagem de rejeição da hipótese nula difere significativamente dos processos estacionários, com H1/ Samples = 466/1000 = 0,46 para XAUUSD e H1/ Samples = 640/1000 = 0,64 para o par de moedas EURUSD. Para ilustrar, abaixo está o gráfico da função amostral de densidade de probabilidade das distâncias de Smirnov para dados reais e para processos dependentes de autorregressão e mapeamento logístico.

    PDF Smirnov Distance

    Como podemos ver, há uma diferença qualitativa entre os processos dependentes estacionários e as cotações reais de EURUSD_M1 e XAUUSD_M1. As densidades de probabilidade amostrais das distâncias de Smirnov para esses processos diferem visivelmente da distribuição de Kolmogorov. Além disso, os processos de mapeamento logístico e autorregressão de primeira ordem não convergem para a distribuição de Kolmogorov devido à presença de dependência estatística nesses dados.

    No que diz respeito aos preços dos instrumentos financeiros, mesmo após tentar convertê-los para uma forma estacionária usando as primeiras diferenças, eles ainda não são estacionários. Uma certa influência sobre esse alto número de rejeição da hipótese nula provavelmente também vem de algumas dependências que podem estar presentes nas cotações reais, como vimos na análise de processos dependentes estacionários. Avaliar qual parcela da influência decorre das dependências nos dados e qual provém exclusivamente da componente não estacionária presente na série temporal dos instrumentos financeiros, na minha opinião, não é possível. No entanto, a principal influência está relacionada à heterogeneidade dos dados, com a constante mudança na função de distribuição das probabilidades dos incrementos dos preços.

    Para obter uma visão clara de como pode ser a densidade de probabilidade das distâncias de Smirnov para duas amostras heterogêneas, faremos mais um experimento, no qual compararemos amostras de duas distribuições normais, mas pertencentes a diferentes populações. Essas distribuições diferem nos parâmetros de média e variância — N(0,1) vs N(0.1,1.2). É evidente que o critério de Smirnov deve, na maioria das vezes, rejeitar a hipótese nula de homogeneidade. O erro aqui seria aceitar a hipótese nula quando, na verdade, a hipótese alternativa é verdadeira. 

    Distância de Smirnov para N(0,1) vs N(0.1,1.2)

    Neste caso, temos uma porcentagem de rejeição da hipótese nula de 0,98 (H1/ Samples = 980/1000). Abaixo, no gráfico, estão mostradas as funções de densidade de probabilidade das distâncias de Smirnov para cotações reais, para o modelo de duas distribuições normais heterogêneas e para a distribuição de Kolmogorov.

    PDF Smirnov Distance N(0,1) vs N(0.1,1.2)

    Como era de se esperar, no caso modelo de heterogeneidade entre as duas amostras normais, a função de densidade de probabilidade das distâncias de Smirnov difere significativamente da distribuição de Kolmogorov, à qual dados homogêneos devem convergir. Observe como o critério de Smirnov é sensível até mesmo as mudanças relativamente pequenas nos parâmetros da distribuição. 

    Indicador iSmirnovDistance

    O indicador iSmirnovDistance, ao contrário da análise mencionada anteriormente, realiza cálculos baseados exclusivamente na quantidade de dados contidos em cada um dos dois dias de negociação consecutivos, sem permitir que os dados se sobreponham com outras sessões de negociação. Esse indicador deve ser utilizado no timeframe diário, com todos os cálculos sendo realizados nos dados de 5 minutos do mesmo instrumento. Para cotações de moedas, isso representa 287 dados por dia. Se em algum dos dias não houver dados suficientes para os cálculos (eu considerei um limite de 270 dados), os valores do indicador são igualados a zero.

    Dessa forma, no início de cada dia de negociação, obtemos o valor da estatística de Smirnov calculado com base nos dois dias de negociação anteriores. Esse indicador pode, na verdade, ter apenas um parâmetro que pode ser otimizado, especificamente o nível de significância alpha. Nesta versão, eu usei o valor padrão de 0,05. A linha azul pontilhada na janela do indicador mostra a distância de Smirnov u(alpha) para o nível de significância alpha = 0,05, ou seja, para a hipótese nula. Ela é calculada usando a fórmula acima: lambda = D * sqrt(n/2). Sabendo que o valor crítico de lambda para a distribuição de Kolmogorov é 1,3581 (existem tabelas da função de distribuição de Kolmogorov) e a quantidade de dados para o timeframe de 5 minutos é 287, encontramos a distância correspondente D = lambda / sqrt(n/2) = 1,3581 / sqrt(287/2) = 0,1133. O excesso desse valor pelos valores calculados indicará uma mudança significativa na estrutura da distribuição dos dados. Os valores do indicador que estão abaixo da linha azul pontilhada podem ser considerados homogêneos.

    iSmirnovDistance EURUSD

    Vale mencionar que existe uma diferença no timeframe em que a distância de Smirnov é calculada. Para dados de um minuto, como vimos, há uma substancial não estacionaridade na série, enquanto, para o timeframe de 5 minutos, a série é mais estacionária, e a hipótese de homogeneidade é rejeitada com muito menos frequência. Em parte, isso está relacionado ao volume de dados, que é de 1440 para o timeframe de um minuto contra 287 para o de 5 minutos. Com o aumento gradual dos dados de 287 para 1440, a taxa de rejeição da hipótese nula aumenta; no entanto, a hipótese de homogeneidade é rejeitada com mais frequência justamente para o gráfico de um minuto. 


    Considerações finais

    Este artigo foi elaborado para responder a uma série de questões importantes relacionadas à análise de séries temporais do mercado:

    • A primeira pergunta: "Pode-se considerar uma série temporal dos incrementos logarítmicos dos preços como estacionária?" Na minha opinião, a resposta é convincente e foi confirmada por cálculos numéricos, isto é, não, não pode, pelo menos para o timeframe de um minuto. Quanto ao timeframe de cinco minutos, a série parece mais estacionária em comparação com a de um minuto, mas ainda assim demonstra comportamento não estacionário.

    • A segunda questão, à qual esta pesquisa tenta responder, é uma continuação lógica da primeira — "Qual volume de dados deve ser utilizado para o cálculo de um determinado indicador?". O indicador iSmirnovDistance, na minha opinião, oferece a seguinte interpretação: para os cálculos, deve-se considerar o volume de dados que abrange o período de tempo entre duas rejeições da hipótese nula de homogeneidade. Até que ocorra a rejeição da hipótese nula, o volume de dados para análise é aumentado gradualmente. Após a rejeição da hipótese nula, os dados anteriores são descartados como obsoletos, e o cálculo do volume de dados começa novamente. Dessa forma, o volume de dados analisado não é uma quantidade fixa. Essa quantidade está em constante mudança ao longo do tempo, como deveria ser, dado a natureza de um processo aleatório não estacionário.


    Traduzido do russo pela MetaQuotes Ltd.
    Artigo original: https://www.mql5.com/ru/articles/14813

    Arquivos anexados |
    Script_SmirnovD.mq5 (18.19 KB)
    Caminhe em novos trilhos: Personalize indicadores no MQL5 Caminhe em novos trilhos: Personalize indicadores no MQL5
    Vou agora listar todas as possibilidades novas e recursos do novo terminal e linguagem. Elas são várias, e algumas novidades valem a discussão em um artigo separado. Além disso, não há códigos aqui escritos com programação orientada ao objeto, é um tópico muito importante para ser simplesmente mencionado em um contexto como vantagens adicionais para os desenvolvedores. Neste artigo vamos considerar os indicadores, sua estrutura, desenho, tipos e seus detalhes de programação em comparação com o MQL4. Espero que este artigo seja útil tanto para desenvolvedores iniciantes quanto para experientes, talvez alguns deles encontrem algo novo.
    Técnicas do MQL5 Wizard que você deve conhecer (Parte 17): Negociação Multimoedas Técnicas do MQL5 Wizard que você deve conhecer (Parte 17): Negociação Multimoedas
    Negociar com múltiplas moedas não está disponível por padrão quando um expert advisor é montado através do assistente. Examinamos dois hacks possíveis que os traders podem fazer ao tentar testar suas ideias com mais de um símbolo ao mesmo tempo.
    Está chegando o novo MetaTrader 5 e MQL5 Está chegando o novo MetaTrader 5 e MQL5
    Esta é apenas uma breve resenha do MetaTrader 5. Eu não posso descrever todos os novos recursos do sistema por um período tão curto de tempo - os testes começaram em 09.09.2009. Esta é uma data simbólica, e tenho certeza que será um número de sorte. Alguns dias passaram-se desde que eu obtive a versão beta do terminal MetaTrader 5 e MQL5. Eu ainda não consegui testar todos os seus recursos, mas já estou impressionado.
    O Método de Agrupamento de Manipulação de Dados: Implementando o Algoritmo Combinatório em MQL5 O Método de Agrupamento de Manipulação de Dados: Implementando o Algoritmo Combinatório em MQL5
    Neste artigo, continuamos nossa exploração da família de algoritmos do Método de Agrupamento de Manipulação de Dados, com a implementação do Algoritmo Combinatório, juntamente com sua versão refinada, o Algoritmo Combinatório Seletivo em MQL5.