Por que modelos mistos? // Igor Costa

Há algum tempo que o debate sobre modelos mistos tem sido levantado no campo da psicolinguística, pelo menos desde 2008, com os trabalhos de Florian T. Jaeger e Baayen, Davidson and Bates. No Brasil, essa discussão parece ter sido colocada com mais clareza pela professora Mahayana Godoy, da UFRN, no artigo de Godoy & Nunes, 2020, muito recente, apesar de o seu tutorial sobre modelos mistos já estar disponível no blog da autora antes disso. O curso da professora Lívia Oushiro, ministrado regularmente na Unicamp, pelo que me consta, também aborda o assunto com certa profundidade. Além disso, eu próprio já dei os meus pitacos sobre o tema na minha dissertação de mestrado (Costa, 2013), na qual apliquei tais modelos, comparei os resultados com o que era a técnica padrão na literatura e até me aventurei a escrever um brevíssimo anexo a fim de justificar as análises ali realizadas.

Fato é que parece haver, mesmo em 2021, certa resistência a tais modelos, fruto, creio eu, mais de incompreensão e medo ao desconhecido do que verdadeiramente de uma análise aprofundada de suas vantagens e desvantagens. Seja como for, algumas vezes fui chamado para falar sobre o tema e até ministrei um curso de verão sobre o assunto (dezembro de 2019). Para esse curso, preparei um material que, dentre outros propósitos, tinha por objetivo apresentar, da maneira mais didática que eu conseguisse, as questões que motivavam o uso dos modelos mistos em detrimento das ANOVAs. Relendo esse material recentemente, acabei percebendo que algumas questões ali colocadas, sobretudo no que diz respeito às ANOVAs e ao porquê de elas serem problemáticas, talvez pudessem ser interessantes para alguns leitores. Por isso, meu objetivo aqui é apenas trazer a público esse material informal (um simples recorte da apostila original) e, se ele for útil a alguém que se interesse por esses temas, dou-me por grato.

A primeira parte do material é uma espécie de revisão de alguns conceitos básicos de estatística descritiva. Ela me parece importante sobretudo para clarear algumas ideias da segunda e terceira parte (por exemplo, o que são resíduos, o que é um desvio padrão, o que é variância, etc.). Essa parte, certamente, é aquela que considero mais incompleta, passando ao largo de uma série de questões que deveriam ser consideradas (o que são distribuições de frequência é uma das que mais me incomoda). Seja como for, ainda acho que o material pode ter alguma utilidade para aqueles que estão começando.
A segunda parte do material trata dos motivos pelos quais as ANOVAs não são, para a grande maioria dos dados linguísticos, modelos matemáticos adequados. Essas duas primeiras partes foram revisadas recentemente e estão mais organizadas. O PDF dessas duas primeiras partes pode ser baixado aqui.
A terceira parte trata dos conceitos basilares por trás dos modelos mistos, aplicando passo a passo um modelo desse tipo a dados reais bem simples. Essa parte ainda precisa passar por uma revisão mais detalhada. O PDF desse material pode ser baixado aqui.

Importante: esse material não busca ensinar a implementação dos modelos mistos, mas simplesmente a compreensão desses modelos. Se você quiser aprender a implementar, não há material melhor do que o da professora Mahayana Godoy.