# Análise D-03 — Rede de cadernos por similaridade categórica

## Pergunta

Que cadernos são "parentes" — no sentido de terem uma assinatura categórica (vetor 24-dim de Sim/Não) tão próxima que se pode lê-los em constelação?

## Hipótese esperada (antes de rodar)

Vamos ver clusters densos de 3 a 8 cadernos, provavelmente coincidentes com os arquétipos previstos em C-02: uma vizinhança "agenda profissional + rede de contatos", uma "museologia teórica + citações culturais", uma "escrita íntima + rascunhos de carta". Cadernos com poucas marcações ficariam isolados por falta de sinal.

## Método

1. **Vetorização.** Cada caderno virou um vetor binário de 24 dimensões (Sim=1, Não/incerto/em branco=0), na ordem canônica das 8 categorias × subitens.
2. **Exclusão de vetores nulos.** 7 cadernos com **zero marcações** foram tratados como isolados por definição (similaridade cosseno indefinida). São: WR-CAD-001, WR-CAD-044, WR-CAD-047, WR-CAD-066, WR-CAD-084, WR-CAD-086, WR-CAD-088. Sobraram **108 cadernos não-nulos** para o grafo.
3. **Similaridade.** Para cada par de cadernos não-nulos, calculou-se a similaridade cosseno `s = (a·b)/(|a|·|b|)` — 5.778 pares (108×107/2).
4. **Grafo.** Aresta se `s > limiar`; componentes conexos via busca em profundidade.
5. **Três limiares testados** (0,60; 0,70; 0,80) — mais dois calibradores (0,85 e 0,90) por causa do resultado dos três primeiros. Escolha justificada abaixo.
6. **Descrição de cada componente com ≥ 3 nós**: número de cadernos, categorias marcadas em ≥ 50% do componente, distribuição por década (via `datacao_estimada`, mesma heurística de B-04), predominância. Descrição dos singletons.

## Resultado

### Topologia da rede em três limiares

| Limiar | Arestas | Nº componentes (nonzero) | Maior componente | Comp. com ≥ 3 nós | Cadernos em comp. ≥ 3 | Díades | Singletons (nonzero) |
|---|---:|---:|---:|---:|---:|---:|---:|
| > 0,60 | 834 | 3 | 106 | 1 | 106 | 0 | 2 |
| > 0,70 | 318 | 8 | 100 | 1 | 100 | 1 | 6 |
| > 0,80 | 79 | 48 | 51 | 3 | 59 | 4 | 41 |
| **> 0,85** | 27 | **81** | **7** | **6** | **27** | **6** | **69** |
| > 0,90 | 12 | 94 | 5 | 3 | 12 | 5 | 86 |

**Escolha do limiar.** Os três limiares pedidos (0,6/0,7/0,8) não separam. Em 0,6 e 0,7 o grafo forma um **giant component** que engole 92-98% dos cadernos não-nulos e não tem valor de leitura — reflete apenas que quase todo caderno da Waldisa marca alguma combinação de `prof_organizacao_trabalho`, `rel_nomes_telefones`, `cult_desenhos` e `rel_redes_relacao`, o eixo comum descrito em A-03 e D-01. Em 0,8 o giant ainda tem 51 cadernos (aprox. metade do banco não-nulo). **Só em 0,85 o grafo se torna informativo**: 6 componentes de tamanho leitivo, 6 díades específicas, e uma cauda longa de idiossincrasias. A partir daí, a análise adota 0,85 como limiar principal.

### Componentes com ≥ 3 cadernos (limiar > 0,85)

| # | N | Cadernos | Categorias em ≥ 50% do componente | Período |
|---|---:|---|---|---|
| **C1** | 7 | 056, 096, 101, 102, 104, 111, 113 | `prof_organizacao_trabalho` (100%), `rel_nomes_telefones` (100%), `rel_redes_relacao` (100%), `cult_desenhos` (100%), `org_lembretes` (86%) | 1970: 1 · 1980: 3 · s/data: 3 |
| **C2** | 5 | 005, 011, 014, 071, 098 | `rel_nomes_telefones` (100%) — e só. Todos com **1 única marcação** | 1990: 1 · s/data: 4 |
| **C3** | 5 | 043, 049, 064, 075, 090 | `rel_nomes_telefones` (100%), `rel_redes_relacao` (100%), `rel_contatos` (80%), `org_lembretes` (60%) | 1980: 3 · s/data: 2 |
| **C4** | 4 | 020, 051, 055, 109 | `prof_reflexoes_museologia` (100%), `prof_organizacao_trabalho` (100%), `cult_desenhos` (100%), `rel_redes_relacao` (75%) | 1970: 1 · 1980: 2 · s/data: 1 |
| **C5** | 3 | 003, 004, 073 | `prof_reflexoes_museologia` (100%), `rel_nomes_telefones` (100%), `prof_planos_aula` (67%), `prof_organizacao_trabalho` (67%) | 1980: 3 |
| **C6** | 3 | 035, 048, 065 | `prof_reflexoes_museologia` (100%), `prof_planos_aula` (100%), `org_listas_tarefas` (100%), `org_lembretes` (100%), `rel_nomes_telefones` (100%), `rel_redes_relacao` (100%), `cult_desenhos` (100%), `prof_perguntas_alunos` (67%) | 1980: 2 · s/data: 1 |

### Díades (pares vizinhos sem terceiro membro, limiar > 0,85)

| Par | Datas | Categorias em comum |
|---|---|---|
| 002 + 095 | 1980 / 1982 | prof_org_trabalho, org_lembretes, org_agendas, org_compromissos, rel_nomes_tel, **dom_anotacoes_praticas** |
| 009 + 010 | 1983 / 1987 | prof_org_trabalho, org_listas_tarefas, org_compromissos, rel_nomes_tel, econ_valores, cult_citacoes |
| 018 + 105 | s/data / s/data | prof_org_trabalho, cult_desenhos |
| **032 + 033** | 1987 / 1987 | **13 categorias em comum**: prof_reflexões, prof_perguntas_alunos, prof_org_trabalho, org_listas_tarefas, org_lembretes, org_compromissos, rel_nomes_tel, rel_redes_relação, econ_valores, econ_registros, cult_citações, cult_desenhos, **epist_esbocos_cartas** |
| 060 + 078 | s/data / 1980 | prof_reflexões, prof_org_trabalho, rel_nomes_tel, rel_contatos, rel_redes_relação, cult_desenhos |
| 107 + 108 | s/data / 1982 | prof_org_trabalho, econ_contas, cult_desenhos |

### Singletons (limiar > 0,85)

**69 cadernos não-nulos sem nenhum vizinho** com similaridade > 0,85 — 64% dos cadernos com marcação alguma. Distribuição por década: 1960 = 1 · 1970 = 10 · 1980 = 36 · 1990 = 1 · sem-data = 21. Por predominância: profissional = 48, misto = 12, pessoal = 9.

Singletons especialmente idiossincráticos (marcações ≥ 7, assinaturas únicas no banco):
- **WR-CAD-031** (1984, 10 marcações): agenda densa de organização + relacional + econômica, sem `cult_*` — perfil raro no acervo.
- **WR-CAD-036** (s/data, 10 marcações): único a combinar `refl_reflexoes_pessoais` com `cult_referencias_culturais` e `cult_citacoes` — o "caderno de leitura + auto-reflexão".
- **WR-CAD-070** (1977-1978, 10 marcações): o único caderno do acervo com `refl_perguntas_proprias`; também tem `epist_esbocos_cartas`, `refl_reflexoes_pessoais`, `econ_contas`, `econ_registros_financeiros`. Isolamento total é assinatura.
- **WR-CAD-097** (1982, 10 marcações): a ficha "vitrine" do banco — três categorias `econ_*`, três `rel_*`, `refl_reflexoes_pessoais` — mas sem `prof_*` marcado.
- **WR-CAD-085** (1980-1981, 9 marcações): único com `dom_anotacoes_praticas` + `epist_esbocos_cartas` + `rel_contatos` + `rel_redes_relacao` na mesma assinatura.
- **WR-CAD-087** (1979, 7 marcações): quatro `rel_*/org_*` + `refl_registros_emocionais` — perfil "agenda com afeto" só dele.

Oito singletons têm 1-2 marcações (WR-CAD-012, 016, 019, 034, 053, 059, 072, 110) — estão sozinhos por baixa densidade, não por singularidade.

## Leitura interpretativa

**A rede não confirma a expectativa ingênua de "clusters de 3-8 cadernos densamente similares".** Confirma algo mais interessante: no limiar em que o grafo se torna interpretável (0,85), **a maioria dos cadernos do acervo é única em assinatura**. 69 dos 108 cadernos não-nulos (64%) não têm parente próximo. Os 27 cadernos que caem em componentes ≥ 3 são a minoria (25%), e boa parte deles é minimamente diferenciada — cadernos de assinatura curta (2 a 5 categorias) sobre o eixo comum do acervo. A leitura correta deste resultado é: **o acervo é um mosaico de mãos, não um catálogo de tipos**. A tese "caderno-arquivo híbrido" formulada em B-04 ganha aqui um argumento novo: se cada caderno híbrido combina 6-16 categorias, a chance de dois híbridos coincidirem em assinatura fica pequena. A singularidade é estrutural.

**Os seis componentes leitivos, ainda assim, contam uma história.** **C6** (WR-CAD-035, 048, 065) é o núcleo mais denso — três cadernos que compartilham simultaneamente 8 subitens (`prof_reflexoes_museologia + prof_planos_aula + org_listas + org_lembretes + rel_nomes + rel_redes + cult_desenhos + prof_perguntas_alunos`), todos dos 1980. Se a Renata quer um "caderno-tipo" para ler primeiro, é este triângulo — a assinatura da museóloga-professora-que-organiza-tudo-num-caderno-só. **C4** (020, 051, 055, 109) é o irmão mais enxuto: `prof_reflexoes_museologia + prof_organizacao_trabalho + cult_desenhos + rel_redes_relacao`, o "caderno de museologia teórica"; **C5** (003, 004, 073) acrescenta `prof_planos_aula` ao mesmo eixo, virando "caderno de aula/museologia". **C1** (7 cadernos) e **C3** (5 cadernos) são cadernos-agenda: C1 profissional-relacional (nomes + redes + lembretes + desenhos), C3 puramente relacional (nomes + contatos + redes). **C2** é um artefato: cinco fichas com **uma** marcação única (`rel_nomes_telefones`) — são agendas telefônicas mínimas ou fichas com verso pouco preenchido, agrupam-se por vacuidade, não por afinidade.

**As díades acrescentam material qualitativo.** A díade **032 + 033** (ambos de 1987) é o par mais espetacular do banco: 13 categorias em comum, incluindo `epist_esbocos_cartas` — os dois cadernos mais híbridos do acervo (13 e 16 marcações totais, respectivamente) reconhecidos como quase-gêmeos. Para uma leitura serial "arquivo de si nos 1980", esta díade é o material. A díade **002 + 095** é a única do banco em que `dom_anotacoes_praticas` aparece dos dois lados: é o par "vida doméstica anotada". As demais são pares profissionais-lembrete.

**A relação com C-02 (clusters por k-means) precisa ser lida com cuidado.** A hipótese antecipada era coincidência entre os dois métodos — mas D-03 diz outra coisa. K-means força cada caderno num cluster; D-03 admite que a maioria não tem parente próximo. Provavelmente C-02 vai produzir 3-5 macro-perfis (agenda profissional, museologia, misto, íntimo residual) que agrupam **grandes vizinhanças**, enquanto D-03 mostra a **microestrutura**: dentro de cada macro-perfil de C-02, só existem 1-2 pequenos "núcleos rígidos" (os componentes ≥ 3 aqui). O uso complementar é: C-02 dá o tipo; D-03 aponta os quase-gêmeos dentro do tipo.

**O que fazer com os singletons.** Os cadernos idiossincráticos com marcação densa (WR-CAD-031, 036, 070, 085, 087, 097) são, por definição da métrica, **os mais singulares do banco**. Não têm par próximo porque sua combinação de categorias é única. Isto os torna leituras obrigatórias: se a hipótese "arquivo de si" precisa de casos exemplares, WR-CAD-070 (único com `refl_perguntas_proprias`), WR-CAD-036 (único a juntar reflexão e leitura culta) e WR-CAD-097 (a ficha densa que já é vitrine em B-04) são o material. Já os singletons de baixa densidade (1-2 marcações) são artefatos de ficha, não achados.

## Limites e cavalos-de-Troia

- **Cosseno com vetores binários é medida grosseira.** Dois cadernos com um único subitem em comum e nenhum outro têm similaridade 1,00 (ver C2: cinco fichas com só `rel_nomes_telefones` = Sim). A métrica não distingue "coincidência forte" de "vetor curto". Este é o principal artefato do C2 e explica boa parte das díades entre cadernos com poucas marcações.
- **Topologia depende do limiar.** Diferença entre 0,7 e 0,85 é enorme (um único componente vs. 81 componentes). Nenhum limiar é "o certo" — 0,85 foi escolhido por dar a leitura mais informativa, não por critério estatístico. Uma pesquisadora poderia legitimamente preferir 0,80 (giant + 3 sub-clusters) para uma leitura mais integrada.
- **Fichas ≠ conteúdo íntimo** (PROJETO.md §4.1). Vizinhança categórica não significa vizinhança de conteúdo. WR-CAD-032 e WR-CAD-033 têm 13 subitens em comum, mas o que Waldisa escreveu em cada um pode ser radicalmente diferente. O grafo aponta candidatos à leitura serial; a leitura confirma ou refuta.
- **Marca ≠ intensidade** (ANALISE.md §5.5). Um "Sim" em `cult_desenhos` conta como um em qualquer caderno — dois rabiscos ou vinte páginas de desenho, mesma coisa.
- **Vetores nulos foram excluídos, não interpretados.** Os 7 cadernos com zero marcação (WR-CAD-001, 044, 047, 066, 084, 086, 088) são tratados como "isolados por definição" — mas suas observações mostram usos muito específicos (WR-CAD-086 é um "livro para registro de frases"; WR-CAD-088 são "aulas de história"). A ausência de marcação diz mais sobre o vocabulário das 24 categorias do que sobre singularidade. C-04 trata disso.
- **Viés de datação** (§5.1): 21 dos 69 singletons não têm data — se muitos deles forem dos 1970, o retrato "singularidade concentrada nos 1980" está inflado. B-03 pode aliviar.

## Evidência primária

- **C6 — núcleo mais denso do acervo (1980s museologia-professora)**: WR-CAD-035 (1988), WR-CAD-048 (1982), WR-CAD-065 (s/data).
- **C4 — museologia teórica**: WR-CAD-020 (1984), WR-CAD-051 (1984), WR-CAD-055 (1979), WR-CAD-109 (s/data).
- **C5 — museologia + aula**: WR-CAD-003 (1988), WR-CAD-004 (1983), WR-CAD-073 (pós-1981).
- **C1 — agenda profissional-relacional**: WR-CAD-056, WR-CAD-096 (1985), WR-CAD-101 (1988), WR-CAD-102, WR-CAD-104 (1976-1979), WR-CAD-111 (1980), WR-CAD-113.
- **C3 — libreta relacional**: WR-CAD-043, WR-CAD-049 (1985), WR-CAD-064 (1983), WR-CAD-075 (1986), WR-CAD-090.
- **Díade 032+033**: WR-CAD-032 (1987, 13 marcações), WR-CAD-033 (1987, 16 marcações) — os dois cadernos mais híbridos do acervo, gêmeos categóricos.
- **Díade doméstica**: WR-CAD-002 (1980) + WR-CAD-095 (1982).
- **Singletons idiossincráticos densos (candidatos a "cadernos-assinatura")**: WR-CAD-031 (1984), WR-CAD-036 (s/data), WR-CAD-070 (1977-1978, único com `refl_perguntas_proprias`), WR-CAD-085 (1980-1981), WR-CAD-087 (1979), WR-CAD-097 (1982).
- **Cadernos com vetor nulo (isolados por definição)**: WR-CAD-001, WR-CAD-044, WR-CAD-047, WR-CAD-066, WR-CAD-084, WR-CAD-086, WR-CAD-088.

## Sugestões de aprofundamento

1. **Ler C6 antes de tudo.** WR-CAD-035, 048 e 065 são, pela métrica, os três cadernos mais "cadernos-Waldisa-típicos" do acervo — máxima assinatura compartilhada. Constitui a base para depois ler o "caderno-tipo ampliado" (C1) e as duas famílias museológicas (C4, C5).
2. **Ler a díade 032+033 como par.** Ambos de 1987, ambos híbridos-máximos, 13 categorias em comum incluindo `epist_esbocos_cartas`. Se o "arquivo de si" existe em algum lugar do banco como leitura serial, é aqui.
3. **Priorizar os 6 singletons densos idiossincráticos** (031, 036, 070, 085, 087, 097) para uma dossiê-F-01 de "cadernos exemplares da hipótese". Cada um é único justamente porque combina categorias raramente combinadas — isto é a assinatura da proto-escrita diarística que a tese busca.
4. **Cruzar D-03 com C-02** quando C-02 estiver pronto: verificar se os núcleos rígidos aqui (C4, C5, C6 particularmente) caem no mesmo cluster k-means. Se sim, o clustering de C-02 tem validade interna. Se não, o k-means está agrupando por diferença estatística e não por "parentesco categórico" no sentido forte.
5. **Refazer com métrica alternativa** (Jaccard em vez de cosseno, ou distância de Hamming ponderada) para checar se o resultado depende da métrica. Suspeita: os "clusters" C1-C3 podem ganhar ou perder membros; os núcleos C4-C6 e as díades densas (032+033, 002+095) devem ser estáveis.
6. **Investigar WR-CAD-070 como contra-hipótese.** Único com `refl_perguntas_proprias`, dos anos 1970, isolado na rede — é o "caderno de si" reflexivo do acervo, e está no lugar errado do tempo para a hipótese central. Insumo direto para F-02.
