IA ajuda a decifrar "papiro de Herculano" de 2.000 anos
8 de fevereiro de 2024Três jovens cientistas venceram o grande prêmio do Vesuvius Challenge por decifrar trechos de um "papiro de Herculano" até então considerado ilegível. Ele é um dos mais de 1.800 rolos manuscritos que ficaram enterrados e cobertos de entulho vulcânico cerca de 2 mil anos atrás, quando o vulcão do Monte Vesúvio, na Itália, entrou em erupção.
Antes integrando à biblioteca de uma vila romana da antiga cidade de Herculano, eles foram encontrados em 1752 por um fazendeiro local. Desde então, houve diversas tentativas de decifrá-los, mas a maioria delas destruiu os documentos, depois de tanto tempo enrolados sob a terra, semicarbonizados e frágeis.
Agora, Youssef Nader, Luke Farritor e Julian Schilliger venceram esse desafio, ao revelar quatro passagens sem desenrolar os manuscritos. Para isso, empregaram tomografia computadorizada (TC) e aprendizado de máquina (em inglês, machine learning, ML), um subconjunto da categoria mais ampla de inteligência artificial (IA).
Os trechos em questão são em grego. O objetivo era decifrar quatro passagens, cada uma com no mínimo 140 caracteres, com pelo menos 85% de caracteres "recuperáveis" – ou legíveis. Acredita-se tratar-se de textos desconhecidos de Filodemo (110 a.C. a 35 a.C.), o "filósofo em residência" da vila.
Condizente com a doutrina do epicurismo, ele discorre sobre os prazeres da beleza, da música e da comida. Fica ainda faltando cerca de 95% do papiro para ser lido. Pesquisadores creem que essa e futuras descobertas de Herculano proporcionarão insights inéditos no mundo clássico.
Como ler um manuscrito enrolado?
O Vesuvius Challenge foi lançado em março de 2023. No fim do mesmo ano, os organizadores da competição fizeram imagens dos papiros no acelerador de partículas Diamond Light Source, nas cercanias de Oxford, Inglaterra, resultando em scans de TC de alta resolução.
Para "desenrolar" digitalmente as imagens, elas foram transformadas num volume tridimensional de "voxels" – pixels 3D semelhantes aos blocos de construção usados no videogame Minecraft. Em seguida procedeu-se à segmentação: traçando as camadas amassadas do papiro, foi possível aplainar as imagens.
O terceiro passo do processo foi identificar as regiões de tinta nos segmentos aplainados do papiro. O modelo de aprendizado de máquina empregado não estava treinado para detectar letras gregas, nem para reconhecimento ótico de caracteres (OCR, na abreviatura em inglês) ou qualquer modelo de linguagem. Em vez disso, ele simplesmente detectou manchas de tinta na tomografia e as combinou, revelando as letras.
Vesuvius Challenge, a força da ciência coletiva
Nadery, Farritor e Schillinger contribuíram de forma independente para decifrar o texto grego, e por seus esforços dividirão um prêmio de 700 mil dólares. Um dos organizadores do Vesuvius Challenge, Brent Seales, da Universidade de Kentucky, vinha há décadas trabalhando nos papiros de Herculano.
Ele foi o primeiro a empregar a tecnologia de TC, mas constatou ser difícil detectar a tinta, devido a sua densidade semelhante à do papiro. No entanto, os progressos se aceleraram quando Seales, o empreendedor do Silicon Valley Nat Friedman e o engenheiro Daniel Gross lançaram a competição, em março de 2023.
Dentro de poucos meses, o ex-físico Casey Handmer notou uma textura craquelada no texto, que denominou "crackle". Farritor, do atual trio de vencedores, estudante universitário e estagiário da fabricante de espaçonaves SpaceX, usou essa observação para treinar um modelo de aprendizado de máquina, decifrando a primeira palavra grega completa: ΠΟΡΦΥΡΑϹ (porphyras), que significa "púrpura".
Em outubro, o egípcio Nader, doutorando em Berlim, conseguiu ler algumas colunas de texto. O estudante de robótica suíço Schilliger, que já ganhara três prêmios de fragmentação, possibilitou o mapeamento 3D dos rolos.
Situada na região de Campânia, nas proximidades de Nápoles, Herculano foi devastada no ano 79 pela mesma erupção do Vesúvio que destruiu a vizinha Pompeia. Agora, o próximo Vesuvius Challenge é ler uma obra ou papiro inteiro até o fim de 2024.