Nos últimos anos, tem sido divulgado pelos media que a Inteligência Artificial (IA) é capaz de superar os especialistas de cada vez mais áreas. As AI são comercializadas de modo semelhante, mas o seu valor para as empresas pode variar muito. Como é que os gestores podem decidir que ferramentas de IA adotar? Três investigadores da NYU Stern fizeram um estudo interessante (1) com cinco gestores de organizações de referência para perceber quais os riscos que comporta a adoção de ferramentas de IA.
Partilho três conclusões deste estudo. Primeiro, ao avaliar as ferramentas de IA, o decisivo é olhar para a chamada Ground Truth (GT) que esteve na origem do modelo de IA. A GT refere-se aos dados, classificados por humanos, que servem para treinar os algoritmos. As pessoas e instituições que desenvolvem ferramentas de IA têm muita liberdade para escolher as bases de dados. Um bom modelo de IA é um modelo que tem um elevado grau de exatidão (ex.: 97%, 98% ou 99%), mas isto não é suficiente, é necessário que a GT seja de alta qualidade, o que nem sempre acontece.
Em segundo lugar, é preciso ter em conta que muitas das ferramentas de IA capturam o know-what dos especialistas (replicam o resultado do seu raciocínio e experiência), mas não capturam necessariamente o seu know-how. O know-what capta apenas a ponta observável do iceberg do conhecimento dos especialistas. Usar ferramentas de IA baseadas apenas em know-what pode ser extremamente arriscado para decisões críticas. Por exemplo, no caso de ferramentas de IA para diagnosticar o cancro. À medida que se foram percorrendo os vários níveis da ferramenta de IA e da GT correspondente, descobriu-se que em muitos dos dados se tinha registado um diagnóstico a partir de apenas uma imagem por paciente. Na prática, nenhum médico faria um diagnóstico com base numa única imagem. Os profissionais recorrem a práticas ricas em know-how como análise de imagens históricas, avaliação genética, realização de exames, estudo dos registos clínicos, etc. Na verdade, a GT de muitas ferramentas de diagnóstico não é validada externamente. O modo ideal de obter a validação seria ter uma biopsia para todos os pacientes. Mas esses dados são extremamente caros e difíceis de obter (não se pede a doentes presumivelmente saudáveis que façam uma biopsia). Em muitos contextos, não há como validar objetivamente a GT.
O terceiro insight é o que fazer no caso de se descobrir que a GT da nossa ferramenta de IA não é de boa qualidade. Contextos de decisão crítica geralmente envolvem alto risco de erro e consequências éticas, bem como consequências legais e profissionais. É extremamente perigoso delegar as decisões em ferramentas de IA que usam GT que não são devidamente validadas. Nesse caso, o ideal seria redesenhar a ferramenta com uma equipa interna até conseguir um grau de exatidão suficiente para gerar confiança.
É importante lembrar que as decisões tomadas pelos designers de IA têm uma influência de longo prazo. Não apenas nas organizações que testam e adotam essas ferramentas, mas também porque a recolha de dados e utilização da ferramenta pode ter um impacto social duradouro. Por tudo isto, ainda é muito necessário que a inteligência natural faça uma avaliação crítica de inteligência artificial.
Professora de Fator Humano na Organização e de Microeconomia na AESE Business School
(1) Lebovitz, S., Levina, N., Lifshitz-Assaf, H. (2021). "Is AI ground truth really true? The dangers of training and evaluation AI tools based on experts "know-what". Management information Systems Quarterly, 45 (3b), pp. 1501-1525. Available online: https://doi.10.25300/MISQ/2021/16564