Dados do projeto StoryScope
Leia o paper aqui: [2604.03136] StoryScope: Investigating idiosyncrasies in AI fiction
Sobre a natureza sintetizada deste texto1
Análise do STORYSCOPE: Investigando Idiossincrasias na Ficção Gerada por IA
O documento a seguir sintetiza os achados da pesquisa detalhada no artigo “StoryScope: Investigating idiosyncrasies in AI fiction”, que propõe uma nova metodologia para distinguir narrativas escritas por humanos daquelas geradas por Inteligência Artificial (IA), focando em escolhas estruturais de discurso em vez de apenas estilo superficial.
SUMÁRIO EXECUTIVO
O sistema STORYSCOPE demonstra que histórias geradas por IA podem ser identificadas com 93,2% de precisão (macro-F1) utilizando exclusivamente características narrativas de alto nível, como estrutura de enredo e agência de personagens, independentemente do estilo de escrita. Enquanto modelos de IA tendem a produzir tramas linearmente “arrumadas”, moralizantes e com excesso de descrições físicas para emoções, autores humanos exibem maior complexidade temporal, ambiguidade moral e uma dispersão significativamente maior no espaço criativo. A análise revela que as escolhas narrativas da IA são mais duráveis para detecção do que sinais estilísticos, pois a alteração desses padrões estruturais exige reescritas profundas, tornando o STORYSCOPE uma ferramenta robusta mesmo contra tentativas de “humanização” de texto.
ANÁLISE TEMÁTICA
1. Detecção de Autoria e Metodologia STORYSCOPE
O foco principal das fontes é a transição da detecção baseada em estilo (palavras-chave, sintaxe) para a detecção baseada em discurso (decisões estruturais).
- Perspectiva das Fontes (StoryScope.pdf): As fontes descrevem o STORYSCOPE como um pipeline que induz um espaço de 304 características narrativas interpretáveis em 10 dimensões (ex: enredo, agentes, estrutura temporal). O experimento utilizou um corpus paralelo de 10.272 prompts, cada um escrito por um humano e cinco LLMs (Claude, DeepSeek, Gemini, GPT e Kimi), resultando em 61.608 histórias.
- Convergência: As fontes concordam que os sinais estilísticos (como o uso excessivo de termos como “tapestry” ou travessões) são transientes e facilmente removidos por novas versões de modelos ou ferramentas de edição. Em contrapartida, as características narrativas são “ortogonais” aos artefatos de superfície; a edição estilística (via framework LAMP) reduziu a detecção em apenas 1,6 ponto percentual.
- Divergência: Embora os classificadores de texto baseados em Transformers (como ModernBERT) alcancem quase 100% de precisão em texto bruto, eles carecem de interpretabilidade. O STORYSCOPE sacrifica uma pequena margem de precisão (atingindo 96% com estilo + narrativa) em troca de uma decomposição exata de quais decisões narrativas levaram à classificação.
2. Padrões Narrativos: IA vs. Humanos
As fontes identificam distinções sistemáticas na forma como as histórias são concebidas e estruturadas.
- Atribuição por Fonte (StoryScope.pdf):
- IA: Tende à “sobre-explicação” de temas (77% das vezes vs. 52% em humanos). As resoluções são frequentemente impulsionadas pelas escolhas dos protagonistas e resultam em aceitação interna. A IA descreve emoções predominantemente através de sensações corporais (81% vs. 38% em humanos) e utiliza tramas de trilha única, com poucas subtramas.
- Humanos: Demonstram maior “descontinuidade cronológica” (uso de flashbacks e estruturas não lineares). Suas histórias são classificadas como “mais raras” estatisticamente (percentil de raridade 0,71 vs. 0,49 da IA). Humanos engajam o leitor diretamente (quebra da quarta parede) e fazem referências intertextuais específicas a marcas ou obras reais, enquanto a IA prefere alusões vagas.
- Convergência: Há um consenso de que a IA “soletra” o significado para o leitor, enquanto humanos confiam na inferência. A IA busca a “limpeza” causal; humanos aceitam a “bagunça” narrativa e finais ambíguos.
- Divergência: Não há conflito direto nas fontes sobre esses padrões, mas observa-se que alguns modelos de IA (como o GPT) tentam mimetizar características humanas, como redes sociais complexas, embora ainda falhem em diversidade narrativa global.
3. “Impressões Digitais” (Fingerprints) de Modelos Específicos
Cada modelo de linguagem exibe idiossincrasias narrativas que permitem a atribuição de autoria entre os próprios modelos (precisão de 68,4%).
- Características por Modelo (Tabela 16 e Seção 5):
- Claude: É o mais distinto. Apresenta uma escalada de eventos “plana” (menos intensidade), evita sequências de sonhos e favorece epílogos.
- GPT: Foca em mecanismos de “fofoca e rumor” na trama e narrações retrospectivas distantes.
- Gemini: Produz configurações sombrias/opressivas (88% das histórias) e desfechos extremamente organizados.
- DeepSeek: Tende a antecipar o contexto crucial (front-loading) e usa pistas comportamentais para emoções.
- Kimi: É o mais genérico, situando-se no centro da distribuição de IA com poucas marcas distintivas.
- Convergência: As fontes mostram que Gemini, DeepSeek e Kimi formam um “cluster de trigêmeos” com fronteiras de autoria muito sobrepostas, indicando uma convergência na forma como esses modelos estruturam ficção.
- Divergência: O nível de separabilidade varia; Claude e GPT são significativamente mais fáceis de identificar individualmente do que os outros três modelos.
4. Originalidade e Implicações Legais
O documento utiliza a raridade estatística como um proxy para a originalidade sob a ótica do direito autoral dos EUA.
- Perspectiva das Fontes (U.S. Copyright Office/Torrance): A elegibilidade para direitos autorais depende do “controle criativo humano suficiente”. O STORYSCOPE mede a originalidade através da combinação incomum de características narrativas.
- Fato: Histórias humanas ocupam uma região distinta e mais dispersa no espaço de características. Em 57,8% dos casos, a versão humana de uma história é a mais rara entre as seis versões geradas para o mesmo prompt.

DADOS E ESTATÍSTICAS CHAVE
| Métrica | Valor | Observação |
| Detecção Humano vs. IA | 93,2% Macro-F1 | Apenas com características narrativas. |
| Atribuição de 6 vias | 68,4% Macro-F1 | Identificação do modelo específico. |
| Custo de Extração | $4.400 USD | Custo total para processar as 61.608 histórias. |
| Raridade (Humano) | 0,71 (Percentil) | Indica maior originalidade narrativa. |
| Raridade (IA) | 0,49 (Percentil) | Indica maior convencionalidade/previsibilidade. |
| Duração Média | ~5.000 palavras | Tamanho das histórias geradas para permitir análise profunda. |
LACUNAS (GAPS)
- Omissões de Títulos: As fontes não listam os títulos específicos das 10.272 histórias do Books3, mencionando apenas exemplos clássicos (como Poe ou Dickens) durante a auditoria de memorização.
- Linguagem: O estudo foca inteiramente em língua inglesa (inferido pelos autores e instituições); as fontes não abordam a eficácia do STORYSCOPE em outros idiomas ou culturas.
- Evolução dos Modelos: As fontes não cobrem como futuras versões (além do GPT 5.4 ou Claude 4.6) poderão evoluir para subverter essas métricas narrativas.
- Interação Humano-IA: O impacto de humanos editando ativamente a estrutura (não apenas o estilo) de histórias geradas por IA não foi explorado.
NOTAS TÉCNICAS E SALVAGUARDAS
- Fidelidade: Todas as observações sobre a “sobre-escrita do corpo” e “linearidade causal” da IA derivam diretamente da seção 4.1 do documento “StoryScope.pdf”.
- Conexões Inferidas: Infere-se que a dificuldade de atribuição entre Gemini, DeepSeek e Kimi (os “trigêmeos”) se deve ao treinamento em dados similares ou objetivos de otimização convergentes, embora as fontes não declarem a causa exata dessa sobreposição.
- Conflitos Preservados: A superioridade de modelos de texto bruto (Transformers) na detecção é mantida como um dado, contrastando com a utilidade prática e a interpretabilidade superior do STORYSCOPE.
Esse texto foi produzido com notebooklm, com prompt específico para evitar afirmações fabricadas e para imitar o meu estilo de escrita. Foi revisado antes de ser publicado. Prompt pode ser encontrado aqui: COMO-SINTETIZO-MEUS-POSTS ↩︎