alguém faz as contas de energia que essa ideia amaldiçoada propõe?

porque usar llm para prever string é uma coisa, mas gerar imagem e vídeo é outra bem diferente, exponencialmente mais custosa.