# Análise B-03 — Os cadernos sem datação: quem são?

## Pergunta
Os 41 cadernos que ficaram com `datacao_estimada = [em branco]` compartilham alguma assinatura (tipo, tamanho, caixa, predominância, perfil de categorias) que ajude a supor o período em que foram escritos — e, sobretudo, difere sistematicamente do perfil dos 74 datados?

## Hipótese esperada (antes de rodar)
Os 41 sem datação seriam predominantemente cadernos curtos (blocos, agendas de telefone) ou cadernos "genéricos" cujas observações não deram pista temporal — logo, o silêncio seria explicável pela materialidade, não por serem sistematicamente mais antigos. Se, ao contrário, aparecerem como suporte diferente (por exemplo, cadernos de estudo pré-1970), a hipótese central "escrita concentrada nos anos 1980" precisaria ser reformulada como "dos cadernos datáveis".

## Método
Sobre `site/data/banco.json` separei dois subconjuntos: **SEM datação** (N=41, `datacao_estimada` vazio ou `[em branco]`) e **COM datação** (N=74). Comparei os dois por: (a) `tipo_caderno` agrupado em famílias (agenda, bloco, caderno A5, caderno grande, caderno "outros"); (b) `paginas_total` (mediana, quartis, faixas de tamanho); (c) `caixa` (distribuição e concentração relativa); (d) `predominancia` (a regra atual); (e) frequência relativa de "Sim" em cada uma das 24 categorias do verso da ficha, sinalizando diferenças acima de ~15 pontos percentuais. Amostrei ainda 15 cadernos sem datação com `observacoes` mais longas para pistas temporais que a IA possa ter deixado escapar. As comparações são de frequência relativa, sem teste inferencial — N=41 vs. N=74 não sustenta inferência forte.

## Resultado

**Tipo de caderno agrupado (Sem N=41 · Com N=74):**

| Grupo | Sem (n) | % Sem | Com (n) | % Com | Δ |
|---|---:|---:|---:|---:|---:|
| Caderno A5 | 15 | 36,6% | 30 | 40,5% | −3,9 pp |
| Bloco | 9 | 22,0% | 7 | 9,5% | **+12,5 pp** |
| Caderno grande | 7 | 17,1% | 18 | 24,3% | −7,2 pp |
| Agenda | 5 | 12,2% | 16 | 21,6% | −9,4 pp |
| Caderno (outros) | 5 | 12,2% | 3 | 4,1% | +8,1 pp |

Os blocos são duas vezes mais frequentes entre os sem-datação; as agendas, cuja capa geralmente traz o ano, ficam concentradas nos datados — o que era esperado.

**Extensão (páginas_total, N útil = 39 sem · 73 com):**

| Faixa | Sem % | Com % |
|---|---:|---:|
| < 50 pág. | 12,8% | 4,1% |
| 50–99 | **41,0%** | 26,0% |
| 100–199 | 28,2% | 43,8% |
| 200–299 | 7,7% | 13,7% |
| ≥ 300 | 10,3% | 12,3% |

Medianas: **96 páginas (sem) contra 162 (com)**. Cadernos sem datação são materialmente mais curtos — coerente com a hipótese de "blocos e cadernetas de uso pontual".

**Caixa:** os sem-datação concentram-se acima da média (>40% da caixa) em 2, 7, 8, 13, 15 e 16. Caixas 11, 12, 17, 18 têm zero cadernos sem datação — sinal de que essas caixas foram catalogadas com pistas cronológicas mais completas. A caixa 7 (14 cadernos, sendo 8 sem datação) é a mais opaca do acervo.

**Predominância (regra atual):**

| Perfil | Sem | % Sem | Com | % Com |
|---|---:|---:|---:|---:|
| profissional | 22 | 53,7% | 52 | 70,3% |
| misto | 18 | **43,9%** | 14 | 18,9% |
| pessoal | 1 | 2,4% | 8 | 10,8% |

A categoria "misto" está superrepresentada entre os sem-datação — não porque sejam mais híbridos no sentido diarístico, mas porque têm poucas marcações totais e caem por default na zona de fronteira. Ver a densidade abaixo.

**Densidade média de marcações por caderno:** sem = 3,3 · com = 5,9. Cinco dos 41 sem-datação têm zero categorias marcadas (WR-CAD-014, entre outros), contra 2 dos 74 datados.

**Frequência relativa por categoria — subitens com Δ ≥ 15 pp (todos negativos, ou seja, sub-marcados nos sem-datação):**

| Categoria | Sem % | Com % | Δ |
|---|---:|---:|---:|
| org_lembretes | 19,5% | 51,4% | −31,8 pp |
| rel_nomes_telefones | 39,0% | 64,9% | −25,8 pp |
| prof_organizacao_trabalho | 46,3% | 70,3% | −23,9 pp |
| rel_redes_relacao | 31,7% | 55,4% | −23,7 pp |
| prof_reflexoes_museologia | 26,8% | 48,6% | −21,8 pp |
| org_agendas | 0,0% | 18,9% | −18,9 pp |
| org_compromissos | 4,9% | 23,0% | −18,1 pp |

Nenhum subitem aparece mais nos sem-datação com Δ ≥ 15 pp. A queda é uniforme: os sem-datação marcam menos tudo, não desviam para outro perfil temático.

**Amostra qualitativa das observações (15 dos 29 sem-datação com `observacoes` > 20 caracteres):** aparecem pistas indiretas frequentes — francês/inglês na abertura (WR-CAD-025, WR-CAD-046, WR-CAD-054, WR-CAD-107), "curso de história" (WR-CAD-041, WR-CAD-088), "aula de semiótica" (WR-CAD-066), "museologia — mestrado" (WR-CAD-068), viagem (Roma, National Gallery — WR-CAD-046, WR-CAD-056), agenda "Manhattan" (WR-CAD-034). Nada aponta para período anterior aos anos 1970. As notas da pesquisadora usam repetidamente "Sem data" ou "Não há data" (WR-CAD-041, WR-CAD-046, WR-CAD-102, WR-CAD-107, WR-CAD-113) sem sugerir pista temporal escondida.

## Leitura interpretativa

O silêncio dos 41 sem-datação parece efeito de **material curto e ficha rasa**, não de outro período. Três indícios convergem: (i) blocos e cadernos-fora-de-família estão superrepresentados (34% vs. 14%); (ii) mediana de páginas é quase metade da dos datados (96 vs. 162); (iii) a densidade média de marcações despenca (3,3 vs. 5,9), com queda uniforme em todas as categorias dominantes. Ou seja, são fichas com verso mais vazio — o que reduz simultaneamente a chance de datação inferida e a chance de perfil temático claro.

As observações reforçam essa leitura: quando há descrição, aparecem contextos de estudo (mestrado em museologia, aulas de semiótica, cursos de história), viagens internacionais e uso de línguas estrangeiras — cenários compatíveis com o período de formação e prática profissional adulta da Waldisa, ou seja, potencialmente sobrepostos ao arco 1970–1980 já visto nos datados, sem indício de descolamento cronológico. Nenhuma observação da amostra sugere um caderno de infância, juventude escolar ou período muito posterior aos 1980.

Um ponto que **complica** a leitura: a caixa 7 concentra oito sem-datação sobre catorze cadernos — se essa caixa reunir um bloco temático específico (a análise E-03 vai olhar), o silêncio pode ter causa arquivística (materiais reunidos porque pertencem a um projeto sem data assinada), não temporal.

Em conjunto, os 41 sem-datação **parecem compartilhar o mesmo universo material e temático dos 74 datados**, só que em versão mais curta e menos anotada — o que torna razoável presumir que sua distribuição temporal, se um dia for reconstruída, se assemelhará à dos datados (com forte concentração nos anos 1980 e caudas em 1970 e 1990). Isso preserva a hipótese central, mas com um caveat honesto: a presunção não é evidência.

## Limites e cavalos-de-Troia

- N=41 vs. N=74 permite descrever tendência, não inferir. Diferenças com Δ < 10 pp devem ser lidas como ruído.
- A predominância "misto" alta entre os sem-datação é artefato da densidade baixa, não uma escrita mais híbrida. Ler C-01 antes de tratar esse "misto" como perfil analítico.
- A ausência de datação pode ter causas independentes do conteúdo do caderno: capa danificada, primeira página arrancada (WR-CAD-034, WR-CAD-019), letra de terceiros, ou simplesmente a pesquisadora não ter encontrado marca temporal na consulta. O banco não distingue esses motivos.
- "Não parece letra da Waldisa" aparece em ao menos WR-CAD-019 e WR-CAD-059. Se parte dos 41 forem cadernos de outra mão, o corpus efetivo da tese cai ligeiramente — mas isso é decisão da pesquisadora, não deste agente.
- Nenhuma pista temporal escapada foi encontrada nas observações amostradas. Uma varredura sistemática das 41 fichas por termos como "curso", "viagem", nome de instituição, década de referência, permitiria estimativas pontuais — fica sugerido em §Aprofundamento.

## Evidência primária

Cadernos sem datação citados neste relatório: WR-CAD-005, WR-CAD-011, WR-CAD-014, WR-CAD-019, WR-CAD-025, WR-CAD-034, WR-CAD-041, WR-CAD-046, WR-CAD-054, WR-CAD-056, WR-CAD-059, WR-CAD-066, WR-CAD-068, WR-CAD-088, WR-CAD-102, WR-CAD-107, WR-CAD-113.

Lista completa dos 41 sem datação: WR-CAD-005, 006, 011, 013, 014, 015, 016, 018, 019, 025, 034, 036, 041, 043, 044, 046, 047, 053, 054, 056, 057, 059, 060, 063, 065, 066, 068, 072, 080, 082, 084, 088, 089, 090, 098, 102, 105, 107, 109, 110, 113.

## Veredicto para a hipótese central

Os 41 sem datação **não parecem sistematicamente diferentes** dos 74 datados nas dimensões observáveis pelas fichas: mesmo perfil de categorias (só que com marcação mais rala), mesma família de suportes (com mais blocos curtos), mesma distribuição por caixa aproximada, e observações qualitativas que apontam para contextos temáticos já presentes no corpus datado (museologia, cursos, viagens, contatos). Nenhuma assinatura sugere que sejam cadernos de outro período — nem anteriores, nem muito posteriores aos anos 1980.

**Conclusão prática:** é razoável tratar os 41 sem-datação como amostra do mesmo universo dos datados, com a mesma provável concentração nos anos 1980. **A hipótese central se mantém.** Mas é honesto reformulá-la como *"dos cadernos com datação inferida"* em todas as afirmações cronológicas — porque afirmar sobre os 41 é presunção, não medida. A robustez ganha seria pontual: se ~10 dos 41 puderem receber datação inferida por pista contextual (mestrado, francês, National Gallery), a base cronológica passa de 74 para ~84 e a hipótese fica mais firme sem precisar mudar.

## Sugestões de aprofundamento

1. Varrer sistematicamente as `observacoes` dos 41 sem-datação por termos-âncora ("mestrado", "doutorado", "Museu de Arte Sacra", "IEB", "Roma", "National Gallery", nomes de cursos, nomes próprios) e cruzar com cronologia biográfica conhecida da Waldisa.
2. Investigar a caixa 7 (E-03) — sua concentração de opacidade pode revelar bloco temático inteiro sem datação assinada.
3. Marcar em campo separado os cadernos com suspeita de letra de terceiros (WR-CAD-019, WR-CAD-059 e outros), para não contaminarem o corpus da tese.
4. Após C-01, revisitar a predominância "misto" dos sem-datação — parte deve migrar para "profissional" quando a densidade for corrigida.
