Atento às perspectivas do setor de entretenimento, o Centro Pi (Centro de Projetos e Inovação IMPA) realizou um trabalho em conjunto com a Globo com foco em extração automática e enriquecimento de metadados a partir de modelos de inteligência artificial. Este trabalho tem o potencial de apoiar a empresa em seus desafios de negócio, permitindo melhorias nos seus sistemas de recomendações.
Junto aos dados providenciados pela Globo, o grupo agregou múltiplas bases de metadados para construir seu sistema, com mais de 1,5 milhão de filmes e séries. A partir dessa imensidão de informação, os pesquisadores e alunos desenvolveram algoritmos de machine learning para extrair palavras-chaves capazes de caracterizar cada um dos títulos de maneira acurada e extensiva. Como aplicação dessas descrições, o grupo desenvolveu métodos de recomendação de títulos a partir de palavras-chave e outras informações técnicas disponíveis.
A primeira etapa consistiu no enriquecimento dos dados providenciados pela Globo, quando os colaboradores do Centro Pi compilaram e agregaram múltiplas bases de metadados. Erros de agregação têm um custo altíssimo em todas as etapas seguintes. Por isso, o grupo se dedicou a limar problemas recorrentes desta área, como a dissociação de filmes diferentes que possuem muitos dados em comum.
A extração de keywords é outro pilar fundamental do sistema elaborado pelo Centro Pi. Além de desenvolver seus próprios modelos para relacionar conteúdos com precisão, o grupo distribuiu as palavras-chaves em diferentes categorias, como gênero, temas, estrutura técnica, pessoas envolvidas, lugares retratados e muito mais.
Além da contribuição para o mercado, o projeto gerou inspiração para novas ideias de pesquisa acadêmica para o problema de record linkage, um problema clássico da ciência de dados que busca formas rápidas e precisas para agregar bases de dados sobre os mesmos objetos, mas com informações diferentes em cada uma delas.