Analisando o dataset C4, uma amostra massiva da web usada para treinar IAs do Google e do Facebook, expõe uma mistura problemática de fontes. Contém vastas quantidades de conteúdo protegido, pirataria, dados de eleitores, blogs pessoais e uma gama de fontes de desinformação e discurso de ódio.