Grandes modelos de linguagem (LLMs) são algoritmos avançados de aprendizagem profunda que podem processar solicitações escritas ou faladas e gerar textos em resposta a essas solicitações. Esses modelos tornaram-se recentemente cada vez mais populares e agora ajudam muitos usuários a criar resumos de documentos longos, obter inspiração para nomes de marcas, encontrar respostas rápidas para consultas simples e gerar vários outros tipos de textos.
Pesquisadores da Universidade da Geórgia e da Clínica Mayo decidiram recentemente avaliar o conhecimento biológico e as habilidades de raciocínio de diferentes LLMs. Seu artigo, pré-publicado no arXiv , sugere que o modelo GPT-4 da OpenAI tem desempenho melhor do que outros LLMs predominantes no mercado no raciocínio de problemas de biologia.
“Nossa publicação recente é uma prova do impacto significativo da IA na pesquisa biológica”, disse Zhengliang Liu, coautor do recente artigo. “Este estudo nasceu da rápida adoção e evolução dos LLMs, especialmente após a notável introdução do ChatGPT em novembro de 2022. Esses avanços, percebidos como passos críticos em direção à Inteligência Geral Artificial (AGI), marcaram uma mudança das abordagens biotecnológicas tradicionais para uma Metodologia focada em IA no domínio da biologia.”
Em seu estudo recente, Liu e seus colegas decidiram compreender melhor o valor potencial dos LLMs como ferramentas para a realização de pesquisas em biologia. Embora muitos estudos anteriores tenham enfatizado a utilidade destes modelos numa ampla gama de domínios, a sua capacidade de raciocinar sobre dados e conceitos biológicos ainda não foi avaliada em profundidade.
“Os objetivos principais deste artigo foram avaliar e comparar as capacidades dos principais LLMs, como GPT-4, GPT-3.5, PaLM2, Claude2 e SenseNova, em sua capacidade de compreender e raciocinar através de questões relacionadas à biologia”, Liu disse. “Isso foi meticulosamente avaliado por meio de um exame de múltipla escolha com 108 questões, cobrindo diversas áreas como biologia molecular, técnicas biológicas, engenharia metabólica e biologia sintética”.
Liu e seus colegas planejaram determinar como alguns dos mais renomados LLMs disponíveis hoje processam e analisam informações biológicas, ao mesmo tempo em que avaliam sua capacidade de gerar hipóteses biológicas relevantes e lidar com tarefas de raciocínio lógico relacionadas à biologia. Os pesquisadores compararam o desempenho de cinco LLMs diferentes usando testes de múltipla escolha.
“Os testes de múltipla escolha são comumente usados para avaliar LLMs porque os resultados dos testes podem ser facilmente avaliados/comparados”, explicou Jason Holmes, coautor do artigo. “Para este estudo, especialistas em biologia desenvolveram um teste de múltipla escolha com 108 perguntas e algumas subcategorias.”
Holmes e seus colegas fizeram cinco vezes aos LLMs cada uma das perguntas do teste que eles compilaram. Cada vez que uma pergunta era feita, entretanto, eles mudavam a forma como ela era formulada.
“O objetivo de fazer a mesma pergunta várias vezes para cada LLM era determinar o desempenho médio e a variação média nas respostas”, explicou Holmes. “Nós variamos o fraseado para não basear acidentalmente nossos resultados em um fraseado de instruções ideal ou abaixo do ideal que levasse a uma mudança no desempenho. Essa abordagem também nos dá uma ideia de como o desempenho irá variar no uso no mundo real, onde os usuários não irão estar fazendo perguntas da mesma maneira.”
Os testes realizados por Liu, Holmes e seus colegas reuniram informações sobre a utilidade potencial de diferentes LLMs para auxiliar pesquisadores de biologia. No geral, os seus resultados sugerem que os LLMs respondem bem a várias questões relacionadas com a biologia, ao mesmo tempo que relacionam com precisão conceitos enraizados na biologia molecular fundamental, biologia molecular comum , engenharia metabólica e biologia sintética.
“Notavelmente, o GPT-4 demonstrou desempenho superior entre os LLMs examinados, alcançando uma pontuação média de 90 em nossos testes de múltipla escolha em cinco ensaios utilizando prompts distintos”, disse Xinyu Gong, coautor do artigo.
“Além de atingir a pontuação geral mais alta no teste, o GPT-4 também exibiu grande consistência entre os testes, destacando sua confiabilidade no raciocínio biológico em comparação com modelos semelhantes. Essas descobertas enfatizam a imensa capacidade do GPT-4 de auxiliar a pesquisa e a educação em biologia.”
O recente estudo desta equipe de pesquisadores poderá em breve inspirar trabalhos adicionais que explorem ainda mais a usabilidade dos LLMs no campo da biologia. Os resultados recolhidos até agora sugerem que os LLMs podem ser ferramentas úteis tanto para a investigação como para a educação, por exemplo apoiando a tutoria de estudantes em biologia, a criação de ferramentas de aprendizagem interactivas e a criação de hipóteses biológicas testáveis.
“Em essência, nosso artigo representa um esforço pioneiro na fusão das capacidades da IA avançada, particularmente LLMs, com o campo intrincado e em rápida evolução da biologia”, disse Liu. “Isso marca um novo capítulo na pesquisa biológica , posicionando a IA não apenas como uma ferramenta de apoio, mas como um elemento central na navegação e decifração da vasta e complexa paisagem biológica.”
O avanço futuro dos LLMs e a sua formação adicional em dados biológicos poderão abrir caminho para importantes descobertas científicas, ao mesmo tempo que permitirão a criação de ferramentas educativas mais avançadas. Liu, Holmes, Gong e seus colegas planejam agora realizar mais estudos nesta área.
Em seus próximos trabalhos, eles planejam primeiro elaborar estratégias para superar as demandas computacionais e os problemas relacionados à privacidade associados ao uso do GPT-4, o LLM que sustenta o ChatGPT. Isto poderia ser alcançado através do desenvolvimento de LLMs de código aberto para automatizar tarefas como anotação de genes e emparelhamento fenótipo-genótipo.
“Empregaremos a destilação de conhecimento do GPT-4, criando dados de acompanhamento de instruções para ajustar modelos locais, como os modelos de base LLaMA”, diz Zihao Wu, coautor do artigo.
“Esta estratégia aproveitará as capacidades do GPT-4 ao mesmo tempo em que aborda questões de privacidade e custos, tornando ferramentas avançadas mais acessíveis à comunidade da área de biologia. Além disso, com as capacidades de visão do GPT-4V, estenderemos nossa pesquisa para análises multimodais, com foco em moléculas de medicamentos naturais , como agentes anticancerígenos ou adjuvantes de vacinas, particularmente aqueles com vias biossintéticas desconhecidas.”
“Investigaremos suas vias químicas e biossintéticas e aplicações potenciais. A capacidade do GPT-4V de reconhecer estruturas moleculares aprimorará nossa análise de dados multimodais complexos, avançando nossa compreensão e aplicação na descoberta e desenvolvimento de medicamentos e em biologia sintética.”
Mais informações: Xinyu Gong et al, Avaliando o potencial de modelos líderes de grandes linguagens em questões de raciocínio em biologia , arXiv (2023). DOI: 10.48550/arxiv.2311.07582 Informações do diário: arXiv |
Este artigo foi publicado originalmente na Tech Explore: Testing the biological reasoning capabilities of large language models (2023, 19 de dezembro), recuperado em 19 de dezembro de 2023 em https://techxplore.com/news/2023-12-biological-capabilities-large-language.html e traduzido utilizando o Google Translate.