Médias de notas de críticos: quais suas limitações e como interpretá-las?

Análises ou reviews de videogames são quase tão antigas quanto os consoles domésticos, embora “críticas” qualitativas mais elaboradas (com contraparte quantitativa em plano secundário ou inexistente), tal como em “crítica de arte” para uma exposição de quadros ou “crítica literária” de um determinado livro, ainda sejam algo relativamente recente. Há uma razão para isso: os videogames surgiram como produtos de entretenimento de amplo alcance infanto-juvenil e familiar para a emergente e crescente classe média da segunda metade do século XX.

Assim, à medida que, para além dos fliperamas, os jogos eletrônicos passaram a ser mais acessados e adquiridos em PCs e consoles, veio a necessidade de saber se “vale ou não a pena comprar” um jogo A no lugar de um jogo B, e quem assumiu essa tarefa de “teste de qualidade” foi a mídia. Inicialmente, até meados da década 1980, não havia especialização para isso, uma vez que as análises eram feitas por jornalistas que lidavam com tecnologia ou com entretenimento de massa, como música popular. Assim, foi questão de tempo para a crítica de videogames se tornar uma área à parte do jornalismo, inclusive com mídias especializadas para esse fim.

Desde Pong até meados da década de 1990, os videogames focavam quase exclusivamente no público infanto-juvenil e/ou na diversão casual em família, sem grande desafio aparente para avaliar jogos nem forte exigência em relação aos analistas, mas, aos poucos, isso mudou. Na década de 1980, alguns simuladores, jogos de aventura e RPGs tinham foco em adolescentes ou adultos, uma tendência que se acentuou nas décadas seguintes.

Assim, surgiram mais e mais jogos com desafios mentais complexos e narrativas bem-desenvolvidas, como Planescape: Torment (1999), e, às vezes, com forte inspiração literária, como Myst (1993) em A Ilha Misteriosa, de Júlio Verne. Também surgiram outros que se inspiravam em música erudita e tocavam em temas sensíveis, como suicídio e gravidez na adolescência, como Final Fantasy VI (1994), além de obras que faziam paródias com Final Fantasy, Super Mario, RPGs tradicionais etc. ou inovavam em cima do legado de uma franquia ou gênero, como Super Mario RPG (1996). Por fim, outros jogos possuíam propostas estruturalmente diferentes para o design dos videogames em geral, como ICO (2001), que desenvolveu uma filosofia de Design por Subtração para fazer jogos altamente minimalistas e coerentes.

Esses fatores e outros, além do crescimento do mercado de videogames, levaram parte da mídia a se especializar e conhecer mais sobre a história, o design e os desenvolvedores por trás dos videogames, bem como suas referências. Contudo, isso não levou os avaliadores a, necessariamente, estabelecerem consensos mais sólidos. Pelo contrário: cada vez mais surgiam títulos diferenciados, cujas propostas dividiam os críticos e também os diferentes métodos e perspectivas de análise.

Já na década de 1990, era uma necessidade haver agregadores de notas que fizessem uma tentativa aproximada do balanço entre as críticas, uma vez que aumentava ano a ano o número de mídias especializadas em videogames, haja vista o aumento do número de jogos mecanicamente complexos, narrativamente intrincados, com elementos polissêmicos e escolhas ousadas ou inusitadas de design que dividiam opiniões dos especialistas.

Nesse contexto, surgiu, em 1999, o falecido GameRanking e o site ao qual ele se integrou em 2019, o Metacritic, existente desde 2001. Mais recentemente, no ano de 2015, o OpenCritic surgiu como tentativa de resolver alguns dos problemas desse último agregador. Confira nos próximos tópicos algumas diferenças entre eles, as limitações desses sistemas, alguns problemas relacionados a avaliações quantitativas de jogos e, por fim, como interpretar e lidar com médias desses agregadores.

Problemas e limitações de agregadores de nota

Desde a origem dos agregadores, esses sites precisam lidar com várias dificuldades para fornecer médias aproximadamente confiáveis que sirvam como um bom indicador quantitativo do consenso crítico acerca de um jogo.

Isso não é uma tarefa fácil, pois individualmente é complicado e até questionável analisar jogos eletrônicos por métodos quantitativos, algo especialmente dificultoso no caso de haver uma mesma métrica para jogos focados em entretenimento e para serious games, como The Oregon Trail (Multi), jogos cujo objetivo principal não é o entretenimento (o que não significa que não possam, também, entreter), mas ensinar algo específico ou passar uma determinada experiência estética (nesse último caso, tratando-se dos chamados art games), como o já mencionado ICO (PS2/PS3), um assunto recentemente desenvolvido em um artigo para a SUPERJUMP (2021).

Supervisionar a qualidade das análises e como elas se traduzem em termos quantitativos é um dos grupos de preocupações dos agregadores, mas ainda podemos adicionar outros dois: o problema da falta de uniformidade em sistemas de notas e os possíveis vieses estatísticos a serem evitados. Comecemos por abordar a questão dos sistemas de notas.

Equações para unificar diferentes sistemas de notas

Cada portal, revista ou jornal em que os críticos se expressam é livre para decidir qual é a melhor forma para sintetizar o valor atribuído às obras analisadas. Alguns, como os portais da IGN, ponderam notas minuciosas, permitindo números “quebrados”, como 8,3 de 10. Outros não acreditam que seja seguro atribuir tal precisão e optam por um sistema com unidade 1 de 20, como o jeuxvideo.com, ou, analogamente, com unidade 0,5 de 10, em que não é possível uma nota 8,3, apenas 8,5; e esse é o caso do sistema adotado aqui no NintendoBlast. Indo um pouco além, outros lugares preferem usar o sistema de números inteiros de 1 a 10 (ou cinco estrelas partíveis), como é o caso do RPGsite e do Screenrant.

Há, ainda, meios de publicação de críticas menos precisos quantitativamente que optam apenas por usar um sistema de 1 a 5 inteiros (ou cinco estrelas cheias). Além disso, há portais que optam por um pequeno número de conceitos, como o GameXplain (Loved, Liked-a-lot, Liked, Mixed e Disliked), e a Eurogamer, nos quais os jogos são divididos somente entre Essential, Recommended e Avoid. Por fim, há aqueles que não usam sequer isso, construindo uma crítica puramente em texto, como The Washington Post, Kotaku e Polygon.

Esses últimos casos, de críticas puramente textuais, não são contabilizados nas médias, mas podem ser incluídos no conjunto de críticas do agregador. Os demais casos são contemplados na contagem da média via recursos matemáticos que preservam mais ou menos a proporção de valor entre os diferentes sistemas. Nesse quesito, o OpenCritic oferece um sistema mais completo: além da média ponderada (também presente no Metacritic), é atribuído a cada jogo um de quatro conceitos (Mighty, para 90%+; Strong, 60~90%; Fair, 30~60%; e Weak, até 30%). E há também um medidor de recomendação que contempla casos como o do Eurogamer e GameXplain acima mencionados.

Problemas de análises de baixa qualidade

Outro problema é estabelecer quais análises serão computadas nos agregadores. É esperado que os críticos sejam livres para avaliar jogos em diferentes perspectivas, isso é natural. Algo semelhante ocorre com críticas de outras formas de expressão. Um crítico literário, por exemplo, pode analisar um livro por uma perspectiva hermenêutica, um outro, pode chegar a conclusões adversas do mesmo livro via um olhar psicanalítico, um outro pode ter outra leitura, ainda, ao ser um crítico de formação estruturalista, e assim por diante.

Não há problema com essa pluralidade, pelo contrário: diferentes teorias, métodos ou perspectivas de análise são como diferentes “ferramentas” ou “óculos” com os quais se pode descobrir coisas diferentes em uma obra; o que um não vê, o outro pode ver, e a soma delas passa uma visão interpretativa mais rica sobre o que se pode tirar da obra.

Quando um agregador contempla diferentes pontos de vista, sua média também transparece o valor daquela obra sob diferentes ângulos, afinal, um jogo, assim como outros tipos de obra, pode ser pouco divertido, de um ponto de vista de entretenimento tradicional, mas pode ter uma narrativa interessante que se sobressaia por via de uma análise com outro viés analítico, e assim por diante. Mas como supervisionar a qualidade da execução dessas análises?

Há fatores externos e internos que podem fazer com que uma análise ou crítica seja considerada de baixa qualidade. Entre os fatores externos, principalmente, pode-se considerar problemas de plágio (que costumam ser duramente punidos nas equipes de redação) e também suspeitas de corrupções com empresas envolvidas, como na ocasião de uma homenagem ao dono da Famitsu em Death Stranding, que lhe deu nota máxima, caso esse reportado e analisado pela Kotaku, mas tudo indica ser algo excepcional e esporádico, principalmente considerando o grande volume de portais (de grande e médio porte) em agregadores.

Quanto aos fatores internos, são problemas da redação da crítica em si, como uma falta de compreensão generalizada da proposta do jogo e/ou sua execução. Em ambos os casos, os chefes de redação e os editores são responsáveis por supervisionar essa qualidade de análise, mas o público de jogos precisa estar ciente de que erros desse tipo podem ocorrer em qualquer lugar (e, em alguns lugares, mais do que em outros).

Mesmo supondo que um crítico faça uma análise de boa-fé, como destacou Frost em um texto recente ao Game Lodge, problemas podem ocorrer. Aqui destacaremos pelo menos três causas:

Tempo muito limitado para jogar o necessário e apreciar a obra para fazer a análise;
Falta de familiaridade com o gênero ou gêneros do jogo e/ou sua filosofia de design;
Falta de conhecimento prévio de referências dentro ou fora dos videogames que, algumas vezes, podem ser de grande valor para interpretar escolhas de game design.

Os agregadores, por sua vez, procuram supervisionar periodicamente a qualidade da média das análises das mídias lá registradas, um pouco por algoritmos de análise de texto, outro tanto por supervisão manual. Em casos problemáticos e graves muito frequentes, um portal pode ser desligado do agregador.

O OpenCritic, ao mesmo tempo em que é menos rigoroso para aceitar novos críticos, de modo a ajudar a escalonar um pouco mais a qualidade das análises, diferencia Top Critics e Critics, uma diferença também utilizada no Rotten Tomatoes (agregador de notas para crítica de filmes). Dessa forma, os críticos não pertencentes ao Top Critics não contribuem para a média do conceito valorativo do jogo (Mighty, Strong, Fair ou Weak), mas contribuem para a recomendação.

Viés estatístico

Finalmente, há a questão do viés estatístico. Para que uma estatística seja minimamente confiável, precisa de uma amostragem representativa do todo. Não se pode concluir com base em um ou dois críticos apenas que a média de suas notas seja representativa do consenso crítico em videogames, principalmente se o título foi avaliado por vários outros críticos reputados.

Por essa razão, o Metacritic exige um mínimo de quatro críticas para gerar uma média, mas explica que a confiabilidade destas precisa levar em conta a quantidade de análises, algo especialmente importante para se averiguar títulos de nota mais elevada. Assim, para que um título ganhe o selo de “Must-play”, deve não só ter média superior a 90 de 100, mas também ter sido avaliado por pelo menos 15 críticos.

A estratégia de resposta ao viés estatístico de OpenCritic é um pouco diferente, por via de um filtro qualitativo maior. O selo equivalente, o de “Mighty”, é dado a jogos que possuem média superior a 90 considerando exclusivamente os Top Critics (e precisando haver ao menos três deles).

Nos dois casos, há problemas a se observar. No caso do Metacritic, essa exigência de quatro críticas para a média e 15 para Must-Play é algo que já existe há muito tempo, e atualmente há muito mais críticos do que há uma década. É questionável se hoje não seria mais razoável haver uma exigência maior para a formação de média e de Must-Play. Além disso, deveria haver selos com conceito mais fraco que Must-Play para jogos abaixo de 90, também para mostrar quando são médias sólidas e quando não.

Já no caso do OpenCritic, há outros conceitos além do Mighty, mas a exigência de somente três Top Critics parece quantitativamente muito fraca. Ademais, também o agregador utiliza como principal critério para considerar um crítico como Top Critic sua influência no mercado (via Alexa ranking, seguidores em mídias sociais etc.) e, muitas vezes, comparando análises de críticos desse tipo com críticos fora do Top, não há diferença de maior esforço analítico. O problema ainda se agrava pelo fato de que não é propriamente um crítico que é Top Critic, e sim um portal, jornal ou revista, portanto, podem haver lá críticos mais rigorosos e experientes do que outros.

Como interpretar notas e médias

Considerando não só todos esses problemas e limitações, mas também as estratégias dos agregadores de notas, convém dar alguns conselhos para se interpretar médias no Metacritic e no OpenCritic, já que, mesmo com limitações, elas podem ajudar como um ponto de partida para começar a ponderar se “vale ou não a pena” comprar um jogo e/ou investir tempo em jogá-lo, principalmente em caso de haver tramas extensas de gameplay, além de, durante a leitura das análises, enriquecer a experiência da jogatina, posto que inclusive alguns conceitos interessantes para se pensar jogos, como de "dissonância ludo-narrativa" surgiram em análises (nesse caso, em uma análise de BioShock de Clint Hocking).

Primeiramente, vale observar se uma média possui poucas críticas. Havendo poucas, é interessante que sejam lidas individualmente e que se tire as próprias conclusões. É possível que os poucos críticos tenham, por coincidência, um viés semelhante de análise.

No caso de haver um jogo com média muito elevada, próxima ou superior a 90, com base em dezenas de análises, torna-se inviável lê-las por completo, e o viés estatístico diminui consideravelmente. Mas atenção: isso não significa que a média bastará para decidir se você gostará do jogo, já que é possível que você não goste de um gênero específico (luta, FPS, RPG, estratégia etc.) ou mesmo de uma filosofia de design (Immersive Sim, Design por Subtração etc.) de jogos, e, portanto, pode não gostar de um jogo daquele gênero ou proposta de design mesmo que ele seja considerado muito bom dentro daquele contexto de criação.

Além disso, é preciso lembrar que as análises são feitas à época de lançamento. Um jogo que, na década de 1990, recebeu uma média de 90 ou superior não necessariamente agradará aos críticos e/ou ao público em 2021, e isso por várias razões. Por exemplo: jogos antes e durante a época de Super Mario 64 (Multi) — como Resident Evil (Multi) e Tomb Raider (Multi) — costumavam usar câmeras fixas, inspiradas no cinema.

Como Super Mario 64 aos poucos instaurou uma nova tendência de movimentação de câmera nos videogames, vários daqueles títulos hoje “envelheceram mal” nesse aspecto, mas não por culpa deles, já que, até então, era o que se considerava mais adequado à experiência de jogo da época.

Por essas e outras razões, convém que se considere a média dos agregadores nesse caso, mas também que se busque assistir um pouco de gameplay do jogo, se possível, e também ler ao menos duas das críticas (com notas e pontos de vista diferentes) lá presentes — preferencialmente críticas advindas de críticos experientes no respectivo gênero e/ou filosofia de design (o que pode ser conferido no histórico de seu perfil no OpenCritic).

Conclusivamente, se um jogo possui uma boa média em um bom número de análises, provavelmente (ou seja, é algo probabilístico, e não de certeza) trata-se de uma obra bem-executada para os padrões do gênero e/ou filosofia de design na época em que foi analisado ou tem uma interessante e facilmente digerível proposta nova que foi bem compreendida na época.

Mas e se o jogo possuir uma nota-média de várias análises baixa ou mediana? Inversamente, provavelmente trata-se de um jogo com consideráveis problemas de execução para os padrões do gênero e/ou filosofia de design na época de análise ou tem uma proposta diferenciada e ousada que foi mal compreendida à época.

Nunca é demais enfatizar que jogos com notas baixas ou medianas podem sim ser de seu gosto, já que você pode apreciar mais do que a média um gênero ou franquia. Além disso, jogos podem ser ótimos em algum aspecto e, ainda assim, mal-compreendidos, não necessariamente por incompetência dos críticos, mas porque obras com propostas ousadas e diferenciadas costumam, com frequência, dividir as críticas, pois podem ser difíceis de serem entendidas e sua abordagem pode não ser bem-vista por algumas perspectivas de análise atuais.

O que ocorre com videogames, nesse caso, não é diferente de críticas de arte em geral. Obras literárias com propostas mais subversivas, como os livros de Rimbaud no século XIX, dividiram muito a crítica na época: alguns adoraram e outros detestaram. Algo semelhante ocorreu com as primeiras obras cubistas de Picasso, com o abstracionismo de Kandinsky, com os quartetos de corda de Schöenberg e assim por diante. Neste assunto, a revista WideWalls possui uma boa matéria sobre alguns nomes influentes em crítica da arte que alteraram significativamente o ponto de vista sobre obras de arte ao longo do tempo.

Portanto, desenvolvedores, críticos e público devem estar cientes de que obras com novidades imprevistas ou mesmo provocativas, quando muito contrárias à tendência de seu tempo, podem ser de difícil apreciação em um primeiro momento. Isso, mesmo que não seja algo frequente, pode mudar completamente no futuro à luz de novas abordagens críticas, o que pode fazer com que essas obras passem a ser muito respeitadas (mesmo com notas divisivas à época de publicação).

Revisão: Thais Santos