Saturday 22 July 2017

Zero Inflated Binary Options


Os dados de Contagem de Procedimentos GENMOD que têm incidência de zeros maiores do que o esperado para a distribuição de probabilidade subjacente das contagens podem ser modelados com uma distribuição zero-inflada. Em GENMOD, a distribuição subjacente pode ser Poisson ou binômio negativo. Veja Lambert (1992). Long (1997) e Cameron e Trivedi (1998) para mais informações sobre modelos sem inflação. A população é considerada como constituída por dois tipos de indivíduos. O primeiro tipo fornece Poisson ou contagens distribuídas binomiais negativas, que podem conter zeros. O segundo tipo sempre dá uma contagem zero. Seja o meio de distribuição subjacente e seja a probabilidade de um ser individual do segundo tipo. O parâmetro é chamado aqui a probabilidade de inflação zero. E é a probabilidade de contagem zero em excesso da frequência prevista pela distribuição subjacente. Você pode solicitar que a probabilidade de inflação zero seja exibida em um conjunto de dados de saída com a palavra-chave PZERO. A distribuição de probabilidade de uma variável aleatória de Poisson zero-inflada Y é dada pela distribuição de probabilidade de uma variável aleatória binomial negativa zero-inflada Y é dada por onde é o parâmetro de dispersão binomial negativo. Onde é uma das funções do link binário: logit, probit ou log-log complementar. A função de link é o link logit por padrão, ou a opção de função de link especificada na instrução ZEROMODEL. A função de link é a função de link de log por padrão, ou a função de link especificada na instrução MODELO, tanto para Poisson como para o binômio negativo. As covariáveis ​​para observação são determinadas pelo modelo especificado na instrução ZEROMODEL e as covariáveis ​​são determinadas pelo modelo especificado na instrução MODELO. Os parâmetros de regressão e são estimados pela máxima verossimilhança. A média e a variância de Y para o Poisson zero-inflado são dadas por bytegeroinfl: os argumentos de Regressão de Dados de Contagem Zero-inflated passaram para zeroinfl. control na configuração padrão. Os modelos de contagem zero-inflados são modelos de mistura de dois componentes que combinam uma massa pontual em zero com uma distribuição de contagem adequada. Assim, existem duas fontes de zeros: os zeros podem vir da massa do ponto e do componente de contagem. Normalmente, o modelo de contagem é um Poisson ou regressão binomial negativa (com link de log). A distribuição geométrica é um caso especial do binômio negativo com parâmetro de tamanho igual a 1. Para modelar o estado não observado (zero vs. contagem), é utilizado um modelo binário que captura a probabilidade de inflação zero. No caso mais simples apenas com um intercepto, mas potencialmente contendo regressores. Para este modelo de inflação zero, um modelo binomial com diferentes links pode ser usado, geralmente logit ou probit. A fórmula pode ser usada para especificar os dois componentes do modelo: se for fornecida uma fórmula de tipo y x1 x2, os mesmos regressores são empregados em ambos os componentes. Isso equivale a y x1 x2 x1 x2. Claro, um conjunto diferente de regressores poderia ser especificado para o componente de contagem e inflação zero, e. Y x1 x2 z1 z2 z3 dando o modelo de dados de contagem y x1 x2 condicional em () o modelo de inflação zero y z1 z2 z3. Um modelo de inflação simples, em que todas as contagens zero têm a mesma probabilidade de pertencer ao componente zero, conforme especificado pela fórmula; e os deslocamentos podem ser especificados em ambos os componentes do modelo relativo ao modelo de contagem e zero-inflação: y x1 offset (x2) Z1 z2 offset (z3). Onde x2 é usado como um deslocamento (isto é, com coeficiente fixo para 1) no componente de contagem e z3 de forma análoga no componente de inflação zero. Pela regra indicada acima y x1 offset (x2) é expandido para y x1 offset (x2) x1 offset (x2). Em vez de usar o wrapper offset () dentro da fórmula. O argumento de compensação também pode ser empregado, o que define um deslocamento apenas para o modelo de contagem. Assim, a fórmula y x1 e o deslocamento x2 são equivalentes à fórmula y x1 offset (x2) x1. Todos os parâmetros são estimados pela máxima verossimilhança com otimização. Com opções de controle definidas no zeroinfl. control. Os valores iniciais podem ser fornecidos, estimados pelo algoritmo EM (maximização da expectativa), ou por glm. fit (o padrão). Os erros padrão são derivados numericamente usando a matriz Hessian retornada pelo otimizado. Consulte zeroinfl. control para obter detalhes. O objeto modelo ajustado retornado é de classe zeroinfl e é semelhante a objetos glm ajustados. Para elementos como coeficientes ou termos, uma lista é retornada com elementos para o zero e o componente de contagem, respectivamente. Para detalhes veja abaixo. Um conjunto de funções de extração padrão para objetos de modelo ajustado está disponível para objetos da classe zeroinfl. Incluindo métodos para impressão de funções genéricas. resumo. Coef. Vcov. LogLik. Resíduos. prever. Instalado. Termos. Model. matrix. Consulte predict. zeroinfl para obter mais detalhes sobre todos os métodos. Um objeto da classe zeroinfl. Ou seja, uma lista com componentes, incluindo NOTÍCIA: o grupo de consultoria IDRE estatística estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital Ajuda do Grupo de Consultoria de Estatutos, oferecendo exemplos de análise de dados SAS Regressão Binomial Negativa Inflada Zero A regressão binomial negativa e zero é para modelar variáveis ​​de contagem com zeros excessivos e geralmente é para excesso de dispersão Contabilizar variáveis ​​de resultados. Além disso, a teoria sugere que o excesso de zeros é gerado por um processo separado a partir dos valores de contagem e que os zeros em excesso podem ser modelados independentemente. Observe: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange limpeza e verificação de dados, verificação de pressupostos, diagnósticos de modelos ou possíveis análises de acompanhamento. Esta página foi atualizada usando o SAS 9.2.3. Exemplos de Regressão Binomial Negativa Inflada de Zero Exemplo 1. Os administradores escolares estudam o comportamento de atendimento dos jovens do ensino médio em duas escolas. Os preditores do número de dias de ausência incluem o gênero do aluno e os resultados de testes padronizados em matemática e artes do idioma. Exemplo 2. Os biólogos estaduais da vida selvagem querem modelar quantos peixes estão sendo pegos por pescadores em um parque estadual. Os visitantes são perguntados quanto tempo eles ficaram, quantas pessoas estavam no grupo, havia crianças no grupo e quantos peixes foram pegos. Alguns visitantes não pescam, mas não há dados sobre se uma pessoa pescada ou não. Alguns visitantes que fizeram peixes não pegaram peixe, portanto, há excesso de zero nos dados por causa das pessoas que não pescaram. Descrição dos Dados Permite prosseguir com o Exemplo 2 acima, usando o conjunto de dados fish. sas7bdat. Temos dados sobre 250 grupos que foram para um parque. Cada grupo foi questionado sobre quantos peixes capturaram (contagem), quantas crianças estavam no grupo (criança), quantas pessoas estavam no grupo (pessoas) e se eles trouxeram ou não um campista para o parque (campista) . Além de prever o número de peixes capturados, há interesse em prever a existência de zeros em excesso, ou seja, a probabilidade de um grupo pegar peixe zero. Usaremos as variáveis ​​filho. pessoas . E campista em nosso modelo. Vamos ver os dados. Podemos ver a partir da tabela de estatísticas descritivas acima que a variância da variável de resultado é bastante grande em relação aos meios. Isso pode ser uma indicação de excesso de dispersão. Métodos de análise que você pode considerar Antes de mostrar como você pode analisar isso com uma análise binomial negativa de inflação zero, vamos considerar alguns outros métodos que você pode usar. Regressão OLS - Você poderia tentar analisar esses dados usando a regressão OLS. No entanto, os dados de contagem são altamente não-normais e não são bem estimados pela regressão OLS. Regressão Poisson Zero-Inflada - A regressão Zero-Inflada de Poisson melhora quando os dados não estão sobredispersos, ou seja, quando a variação não é muito maior do que a média. Modelos de contagem ordinária - Poisson ou modelos binomiais negativos podem ser mais apropriados se não existirem zeros. Análise binomial negativa do zero de SAS com genoma de proc. Um modelo de inflação zero pressupõe que zero resultado é devido a dois processos diferentes. Por exemplo, no exemplo da pesca apresentado aqui, os dois processos são que um sujeito passou a pescar versus não ter ido pescar. Se não foi pescar, o único resultado possível é zero. Se for pescar, é então um processo de contagem. As duas partes do modelo zero-inflacionado são um modelo binário, geralmente um modelo logit para modelar quais dos dois processos com os quais o resultado zero está associado e um modelo de contagem, neste caso, um modelo binomial negativo, para modelar a contagem processo. A contagem esperada é expressa como uma combinação dos dois processos. Tomando o exemplo de pescar de novo, E (de peixe capturado) prob (não foi pescar) 0 prob (pesca subjugada) E (pesca de ykgone). Agora vamos construir nosso modelo. Vamos usar as variáveis ​​criança e campista para modelar a contagem na parte do modelo binomial negativo e as pessoas variáveis ​​na parte logit do modelo. Os comandos SAS são mostrados abaixo. Tratamos o camper variável como uma variável categórica ao incluí-lo na instrução da classe. Isso também facilitará as estimativas de postagem. Neste exemplo particular, também explicitamente queremos usar camper 0 como o grupo de referência. Para este fim, classificamos os dados em ordem decrescente e usamos a opção de ordem no proc genmod para forçá-lo a levar o campista 0 como o grupo de referência. A saída tem alguns componentes que são explicados abaixo. Informações sobre o modelo: informações gerais sobre o conjunto de dados, a variável de resultados, a distribuição e o número de observações utilizadas no modelo. Informações de nível de classe: para cada variável categórica, o número de níveis e a forma como os níveis são codificados. O último nível exibido será o grupo de referência no modelo. Neste exemplo, será 0. Critérios para avaliar a bondade do ajuste: essas medidas geralmente são usadas para comparar modelos. Análise de estimativas de parâmetros de máxima verossimilhança: parte binomial negativa do modelo, estimada usando a máxima verossimilhança. Análise das estimativas de parâmetros de inflação zero de máxima verossimilhança: parte de regressão logística do modelo, para estimar a probabilidade de ser um zero excessivo. Olhando através dos resultados dos parâmetros de regressão, vemos o seguinte: os preditores de criança e campista na parte do modelo de regressão binomial negativo que prevêem o número de peixes capturados (contagem) são ambos preditores significativos. A pessoa predictora na parte do modelo logit que prevê zeros excessivos é estatisticamente significante. Para esses dados, a alteração esperada no log (contagem) para um aumento de uma unidade na criança é -1.515255. Isso equivale a uma redução de 78 (1 - e -1.515255 .78) na contagem esperada para cada filho adicional no grupo que mantém outras variáveis ​​constantes. Grupos com campistas (campista 1) tiveram um log esperado (contagem) 0.879051 maior que os grupos sem campistas (campista 0), ou seja, a contagem esperada de peixe para um campista é de aproximadamente 2,41 (e 0,879051 2,41) vezes maior que para um campista . As chances de registro de ser um zero excessivo diminuirão em 1,67 para cada pessoa adicional do grupo. Em outras palavras, quanto mais pessoas no grupo, menos provável que o zero seria devido a não ter ido a pescar. Coloque-o claramente, quanto maior o grupo em que a pessoa estava, mais provável que a pessoa fosse pescar. A estimativa do parâmetro de dispersão é exibida com seu intervalo de confiança. Parece indicação suficiente sobre a dispersão, o que significa que o modelo binomial negativo pode ser mais apropriado. Podemos querer comparar o modelo binomial negativo atual zero-inflado com o modelo binomial negativo normal, o que pode ser feito através, por exemplo, do teste de Vuong. Atualmente, o teste de Vuong não é uma parte padrão do proc genmod. Mas um macro progra m está disponível no SAS que faz o teste de Vuong. Você pode baixar este programa de macro após o link e armazená-lo em seu disco rígido. Neste exemplo, salvamos o programa macro no diretório d: workdae e renomeamo-lo como vuong. sas. Para usar o programa de macro, usamos a declaração de inclusão. Este programa de macro leva alguns argumentos abaixo. Reencaminhamos os modelos para obter produzir esses argumentos de entrada necessários. Nós também usamos a loja de declarações para armazenar as estimativas para que possamos fazer pós-estimativa usando o mesmo modelo via proc plm sem ter que reertificar o modelo. Com o modelo binomial negativo inflacionado zero, existem no total seis parâmetros de regressão que incluem a intercepção, os coeficientes de regressão para criança e campista e o parâmetro de dispersão para a porção binomial negativa do modelo, bem como o coeficiente de intercepção e regressão para pessoas . O modelo de regressão binomial negativa simples tem um total de quatro parâmetros de regressão. Os parâmetros de escala (scale1 e scale2) são os parâmetros de dispersão de cada modelo correspondente. A saída acima mostra o teste de Vuong seguido do teste do Signo Clarke. Os valores positivos das estatísticas Z para o teste de Vuong indicam que é o primeiro modelo, o modelo binomial negativo inflado zero, que está mais próximo do modelo verdadeiro. Ambos os testes têm a mesma hipótese nula e acontece que os dois testes não são consistentes entre si, levando um suporte fraco para o modelo binomial negativo com inflação zero. Agora, vamos tentar entender melhor o modelo usando alguns dos comandos de avaliação pós-publicação. Primeiro, examinamos a distribuição da probabilidade prevista de ser um zero excessivo pelo número de pessoas no grupo. Podemos ver que, quanto maior o grupo, menor será a probabilidade, o que é mais provável que a pessoa tenha ido pescar. Uma vez que salvamos nosso modelo anterior como m1 anteriormente, usamos proc plm para obter o número previsto de peixe capturado, comparando os campistas com os não campistas com diferentes números de crianças. Para obter as contagens de previsão, utilizamos a opção ilink (para link inverso). Aviso por padrão, o SAS corrige o valor das pessoas variáveis ​​preditoras em seu valor médio. Em seguida, também podemos pedir proc plm para plotar os valores ajustados por variável campista. Coisas a considerar Aqui estão algumas questões que você pode querer considerar no curso de sua análise de pesquisa. A questão sobre o parâmetro de sobre dispersão é, em geral, complicada. Um grande parâmetro de dispersão excessiva pode ser devido a um modelo de falta de especificação ou pode ser devido a um processo real com sobre-dispersão. Adicionar um problema de sobre-dispersão não necessariamente melhora um modelo de falta de especificação. O modelo zinb possui duas partes, um modelo de contagem binomial negativa e o modelo logit para prever o excesso de zeros, então você pode querer rever essas páginas de exemplo de Análise de Dados, Regressão Binomial Negativa e Regressão Logit. Como o zinb possui um modelo de contagem e um modelo logit, cada um dos dois modelos deve ter bons preditores. Os dois modelos não precisam necessariamente usar os mesmos preditores. Problemas de previsão perfeita, separação ou separação parcial podem ocorrer na parte logística do modelo inflável zero. Os dados de contagem geralmente usam variável de exposição para indicar o número de vezes que o evento poderia ter acontecido. Você pode incorporar a exposição em seu modelo usando a opção de exposição (). Não é recomendado que os modelos binários binários negativos sejam aplicados em pequenas amostras. O que constitui uma pequena amostra não parece estar claramente definido na literatura. Os valores Pseudo-R-quadrado diferem dos OLs R-squareds, por favor veja FAQ: O que são pseudo R-squareds para uma discussão sobre este assunto. Referências Cameron, A. Colin e Trivedi, P. K. (2009) Microeconometria usando stata. College Station, TX: Stata Press. Long, J. Scott, amp Freese, Jeremy (2006). Modelos de regressão para variáveis ​​categóricas dependentes usando o Stata (segunda edição). College Station, TX: Stata Press. Long, J. Scott (1997). Modelos de regressão para variáveis ​​categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software da Universidade da Califórnia. NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar Manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Stat ao oferecer um presente. Análises de dados da Stata Exemplos Regressão Binomial Negativa Zero-Inflado Informações da versão: O código desta página foi testado em Stata 12. A regressão binomial negativa zero é para modelagem Contabilize variáveis ​​com zeros excessivos e geralmente é para variáveis ​​de resultado de contagem excessivamente dispersa. Além disso, a teoria sugere que o excesso de zeros é gerado por um processo separado a partir dos valores de contagem e que os zeros em excesso podem ser modelados independentemente. Observe: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange limpeza e verificação de dados, verificação de pressupostos, diagnósticos de modelos ou possíveis análises de acompanhamento. Exemplos de regressão binomial negativa com inflação zero Exemplo 1. Os administradores escolares estudam o comportamento de atendimento dos jovens do ensino médio em duas escolas. Os preditores do número de dias de ausência incluem o gênero do aluno e os resultados de testes padronizados em matemática e artes do idioma. Exemplo 2. Os biólogos estaduais da vida selvagem querem modelar quantos peixes estão sendo pegos por pescadores em um parque estadual. Os visitantes são perguntados quanto tempo eles ficaram, quantas pessoas estavam no grupo, havia crianças no grupo e quantos peixes foram pegos. Alguns visitantes não pescam, mas não há dados sobre se uma pessoa pescada ou não. Alguns visitantes que fizeram peixes não pegaram peixe, portanto, há excesso de zero nos dados por causa das pessoas que não pescaram. Descrição dos dados Vamos prosseguir com o Exemplo 2 acima. O conjunto de dados usado neste exemplo é da Stata. Temos dados sobre 250 grupos que foram para um parque. Cada grupo foi questionado antes de deixar o parque sobre quantos peixes capturaram (contagem), quantas crianças estavam no grupo (criança), quantas pessoas estavam no grupo (pessoas) e se eles trouxeram ou não um campista ao grupo Parque (campista). A variável de resultado de interesse será o número de peixe capturado. Mesmo que a pergunta sobre o número de peixe capturado foi pedida a todos, isso não significa que todos foram pescar. Qual seria a razão para alguém denunciar uma contagem zero. Era porque essa pessoa tinha azar e não pegava peixe, ou era porque essa pessoa não pescava. Se uma pessoa não fosse pescar, o resultado seria sempre zero. Caso contrário, se uma pessoa fosse pescar, a contagem poderia ser zero ou não-zero. Então podemos ver que parecia haver dois processos que gerariam contagens zero: desafortunado na pesca ou não ia pescar. Vamos primeiro olhar os dados. Começaremos com a leitura dos dados e das estatísticas descritivas e das parcelas. Isso nos ajuda a entender os dados e nos dão alguma pista sobre como devemos modelar os dados. Podemos ver a partir da tabela de estatísticas descritivas acima que a variância da variável de resultado é bastante grande em relação aos meios. Isso pode ser uma indicação de excesso de dispersão. Métodos de análise que você pode considerar Antes de mostrar como você pode analisar isso com uma análise binomial negativa de inflação zero, vamos considerar alguns outros métodos que você pode usar. Regressão OLS - Você poderia tentar analisar esses dados usando a regressão OLS. No entanto, os dados de contagem são altamente não-normais e não são bem estimados pela regressão OLS. Regressão Poisson Zero-Inflada - A regressão Zero-Inflada de Poisson melhora quando os dados não estão sobredispersos, ou seja, quando a variação não é muito maior do que a média. Modelos de contagem ordinária - Poisson ou modelos binomiais negativos podem ser mais apropriados se não existirem zeros. Regressão binomial negativa com inflação zero Um modelo de inflação zero pressupõe que o resultado zero é devido a dois processos diferentes. Por exemplo, no exemplo da pesca apresentado aqui, os dois processos são que um sujeito passou a pescar versus não ter ido pescar. Se não foi pescar, o único resultado possível é zero. Se for pescar, é então um processo de contagem. As duas partes do modelo zero-inflacionado são um modelo binário, geralmente um modelo logit para modelar quais dos dois processos com os quais o resultado zero está associado e um modelo de contagem, neste caso, um modelo binomial negativo, para modelar a contagem processo. A contagem esperada é expressa como uma combinação dos dois processos. Tomando o exemplo de pescar de novo, E (de peixe capturado) prob (não foi pescar) 0 prob (pesca subida) E (pesca com ykgone). Agora vamos construir nosso modelo. Vamos usar as variáveis ​​criança e campista para modelar a contagem na parte do modelo binomial negativo e as pessoas variáveis ​​na parte logit do modelo. O comando Stata é mostrado abaixo. Tratamos o camper variável como uma variável categórica colocando um prefixo quot-i.-quot na frente do nome da variável. Isso facilitará as estimativas de postagem. Nós incluímos a opção vuong que fornece um teste do modelo zero-inflated versus o modelo binomial negativo padrão juntamente com a opção zip que fornece um teste de razão de verossimilhança de alpha0 (basicamente zinb versus zip). A saída tem alguns componentes que são explicados abaixo. Ele começa com o registro de iteração dando os valores das probabilidades de log começando com um modelo que não possui preditores. O último valor no log é o valor final da probabilidade de log para o modelo completo e é repetido abaixo. Em seguida, vem a informação do cabeçalho. No lado direito, o número de observações utilizadas (316) é dado juntamente com a razão de verossimilhança de qui-quadrado. Isso compara o modelo completo com um modelo sem preditores de contagem, dando a diferença de dois graus de liberdade. Isto é seguido pelo p-valor para o qui-quadrado. O modelo, como um todo, é estatisticamente significativo. Abaixo do cabeçalho, você encontrará os coeficientes de regressão binomial negativos para cada uma das variáveis ​​juntamente com erros padrão, escores z, valores de p e 95 intervalos de confiança para os coeficientes. Seguindo estes são coeficientes de logit para prever o excesso de zeros, juntamente com seus erros padrão, escores z, valores de p e intervalos de confiança. Além disso, haverá uma estimativa do log natural do coeficiente de sobre dispersão, alfa, juntamente com o valor não transformado. Se o coeficiente alfa for zero, então o modelo é melhor estimado usando um modelo de regressão de Poisson. Abaixo dos vários coeficientes você encontrará os resultados das opções zip e vuong. A opção zip prova o modelo binário binário negativo de zero versus o modelo de poisson inflado zero. Um teste de razão de verossimilhança significativa para alpha0 indica que o modelo zinb é preferido para o modelo zip. O teste de Vuong compara o binômio negativo do modelo inflacionado zero com um modelo de regressão binomial negativo comum. Um teste z significativo indica que o modelo inflado zero é preferido. Olhando através dos resultados dos parâmetros de regressão, vemos o seguinte: os preditores de criança e campista na parte do modelo de regressão binomial negativo que prevêem o número de peixes capturados (contagem) são ambos preditores significativos. A pessoa predictora na parte do modelo logit que prevê zeros excessivos é estatisticamente significante. Para esses dados, a alteração esperada no log (contagem) para um aumento de uma unidade na criança é -1.515255 mantendo outras variáveis ​​constantes. Um campista (campista 1) possui um log esperado (contagem) de 0,879051 maior que o de um não campista (campista 0) mantendo outras variáveis ​​constantes. As chances de registro de ser um zero excessivo diminuirão em 1,67 para cada pessoa adicional do grupo. Em outras palavras, quanto mais as pessoas no grupo tiverem menos chances de que o zero fosse devido a não ter ido a pescar. Coloque-o claramente, quanto maior o grupo em que a pessoa estava, mais provável que a pessoa fosse pescar. Podemos ver na parte inferior do nosso modelo que o teste de razão de verossimilhança que o alfa 0 é significativamente diferente de zero. Isso sugere que nossos dados estão sobredispersos e que um modelo binomial negativo inflacionado de zero é mais apropriado do que um modelo de Poisson inflado zero. O teste de Vuong sugere que o modelo binomial negativo inflação zero é uma melhoria significativa em relação a um modelo binomial negativo padrão. Agora, apenas para ser do lado seguro, execute o comando zinb com a opção robusta para obter erros padrão robustos para os coeficientes de regressão de Poisson. Não podemos incluir a opção vuong ao usar erros padrão robustos. O uso da opção robusta resultou em alguma mudança no modelo chi-quadrado, que agora é um qui-quadrado de Wald. Esta estatística é baseada em pseudo-probabilidades de log em vez de probabilidades de log. O modelo ainda é estatisticamente significativo. Os erros padrão robustos tentam ajustar a heterogeneidade no modelo. Agora, vamos tentar entender melhor o modelo, usando alguns dos comandos de avaliação pós-publicação. Em primeiro lugar, usamos o comando predizer com a opção pr para obter a probabilidade prevista de quotan excesso de zeroquot devido a não ter ido a pescar. Observamos então a distribuição da probabilidade prevista pelo número de pessoas no grupo. Podemos ver que, quanto maior o grupo, menor será a probabilidade, o que é mais provável que a pessoa tenha ido pescar. Finalmente, usaremos o comando das margens para obter o número previsto de peixe capturado, comparando os campistas com os não campistas com diferentes números de crianças e maringsplot para visualizar a informação produzida pelo comando das margens. Observe que, por padrão, o comando de margens fixou a probabilidade prevista prevista de ser um zero excessivo na sua média. Por exemplo, aqui está uma maneira alternativa de produzir a mesma contagem prevista, dada a campista 0 1 e filho 0. Coisas a considerar Aqui estão algumas questões que você pode querer considerar no decorrer de sua análise de pesquisa. A questão sobre o parâmetro de sobre dispersão é, em geral, complicada. Um grande parâmetro de dispersão excessiva pode ser devido a um modelo de falta de especificação ou pode ser devido a um processo real com sobre-dispersão. Adicionar um problema de sobre-dispersão não necessariamente melhora um modelo de falta de especificação. O modelo zinb possui duas partes, um modelo de contagem binomial negativa e o modelo logit para prever o excesso de zeros, então você pode querer rever essas páginas de exemplo de Análise de Dados, Regressão Binomial Negativa e Regressão Logit. Como o zinb possui um modelo de contagem e um modelo logit, cada um dos dois modelos deve ter bons preditores. Os dois modelos não precisam necessariamente usar os mesmos preditores. Problemas de previsão perfeita, separação ou separação parcial podem ocorrer na parte logística do modelo inflável zero. Os dados de contagem geralmente usam variável de exposição para indicar o número de vezes que o evento poderia ter acontecido. Você pode incorporar a exposição em seu modelo usando a opção de exposição (). Não é recomendado que os modelos binários binários negativos sejam aplicados em pequenas amostras. O que constitui uma pequena amostra não parece estar claramente definido na literatura. Os valores Pseudo-R-quadrado diferem dos OLs R-squareds, por favor veja FAQ: O que são pseudo R-squareds para uma discussão sobre este assunto. Referências Cameron, A. Colin e Trivedi, P. K. (2009) Microeconometria usando stata. College Station, TX: Stata Press. Long, J. Scott, amp Freese, Jeremy (2006). Modelos de regressão para variáveis ​​categóricas dependentes usando o Stata (segunda edição). College Station, TX: Stata Press. Long, J. Scott (1997). Modelos de regressão para variáveis ​​categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. Última atualização em 12 de outubro de 2011 O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment