bsky_retagged = true +++ title = “Analisando o dataset C4, uma amostra…” date = “2025-09-22T15:54:05” tags = [“meta-escrita”, “fontes”, “analisando”, “dataset”, “amostra”, “massiva”] draft = false bsky_rkey = “bafyreicmny5leor4eo3jwbexmtgeeplncixapfdqsnedgtjv7myqpasbx4” bsky_quality = “alta” bsky_category = “meta-escrita” bsky_date = “22/09/2025” bsky_source = “post-individual” +++

Analisando o dataset C4, uma amostra massiva da web usada para treinar IAs do Google e do Facebook, expõe uma mistura problemática de fontes. Contém vastas quantidades de conteúdo protegido, pirataria, dados de eleitores, blogs pessoais e uma gama de fontes de desinformação e discurso de ódio.