# Análise C-02 — Perfis de caderno via clustering leve

## Pergunta

Existem "tipos de caderno" recorrentes (perfis de assinatura categórica) nas fichas, além dos rótulos `profissional` / `pessoal` / `misto` da regra atual de predominância?

## Hipótese esperada (antes de rodar)

De 3 a 5 arquétipos plausíveis a partir da leitura preliminar: "agenda-diário híbrida", "caderno de teoria/museologia", "libreta de contatos", "caderno de rascunhos e desenhos", "caderno emocional/reflexivo".

## Método

1. **Vetorização**: cada caderno virou vetor de 24 dimensões (uma por subitem das 8 categorias). `Sim` = 1; `Não`, `[incerto]` e `[em branco]` = 0. Havia apenas **2 `[incerto]`** (em `prof_perguntas_alunos` e `org_agendas`) e nenhum `[em branco]` entre os subitens — impacto desprezível.
2. **K-means em `node`**: distância euclidiana ao quadrado, iteração até convergência (≤13 iterações), reinicialização de cluster vazio com o ponto mais distante.
3. **Estabilidade**: 10 seeds por `k`. Reportou-se a solução de menor inércia e a **concordância pareada média** com as 9 alternativas: 0,75 (k=3), 0,75 (k=4), 0,77 (k=5), 0,79 (k=6).
4. **Escolha de `k`**: privilegiou-se interpretabilidade. `k=3` replicou "vazio / profissional denso / profissional-relacional". `k=4` isolou os "cadernos-esqueleto". `k=5` separou "docência-teoria" de "agenda de compromissos" — o que interessa à tese. `k=6` fragmentou os profissionais sem revelar perfis novos. Adotou-se **k = 5**.

## Resultado

### Perfil dos 5 clusters (proporção de "Sim" no centroide, subitens ≥30%)

| Cluster | N | Assinatura (subitens dominantes) | Nome proposto |
|---|---:|---|---|
| **C1** | **34** | Nenhum subitem chega a 41%; `rel_nomes_telefones` 41%, `rel_redes_relacao` 32%, todo o resto < 25%. Contém os 7 cadernos com 0 marcações. | **Cadernos-esqueleto** |
| **C2** | **33** | `prof_organizacao_trabalho` **100%**, `cult_desenhos` 55%, `prof_reflexoes_museologia` 42%. Relacional < 30%, organizacional fraco. | **Caderno de trabalho puro** |
| **C3** | **21** | `rel_nomes_telefones` **100%**, `rel_redes_relacao` **95%**, `cult_desenhos` **95%**, `org_lembretes` **86%**, `prof_organizacao_trabalho` 76%, `epist_esbocos_cartas` 48%, `cult_citacoes` 43%, `econ_valores_monetarios` 33%, `refl_reflexoes_pessoais` 24%, `dom_anotacoes_praticas` 19%. Único cluster em que categorias 6, 7 e 8 aparecem com peso. | **Agenda-diário híbrida** |
| **C4** | **14** | `prof_reflexoes_museologia` **86%**, `prof_planos_aula` **71%**, `prof_organizacao_trabalho` 71%, `cult_desenhos` 71%, `org_lembretes` 71%, `rel_nomes_telefones` 64%, `rel_contatos` 64%. Categorias 6/7/8 quase ausentes. | **Caderno de docência-teoria** |
| **C5** | **13** | `org_compromissos` **100%**, `rel_nomes_telefones` **100%**, `prof_organizacao_trabalho` 92%, `org_lembretes` 62%, `org_agendas` 54%, `cult_desenhos` 54%, `org_listas_tarefas` 46%, `econ_valores_monetarios` 38%, `refl_registros_emocionais` 23%. | **Agenda de compromissos** |

Inércia = 261,3. Concordância pareada média = 0,77. C1 é o mais estável entre seeds; a fronteira C3/C5 é a mais volátil.

### Cross-tab com a `predominancia` atual

| Cluster | profissional | pessoal | misto | Total |
|---|---:|---:|---:|---:|
| C1 Cadernos-esqueleto | 7 | 1 | **26** | 34 |
| C2 Caderno de trabalho puro | **31** | 1 | 1 | 33 |
| C3 Agenda-diário híbrida | 14 | **6** | 1 | 21 |
| C4 Caderno de docência-teoria | **14** | 0 | 0 | 14 |
| C5 Agenda de compromissos | 8 | 1 | 4 | 13 |
| **Total** | 74 | 9 | 32 | 115 |

Seis dos 9 cadernos `pessoal` do banco caem em C3 — coerente com a leitura interpretativa do cluster. Os `misto` estão quase todos em C1 (26 de 32), confirmando a suspeita de C-01: "misto" no critério atual é, em grande parte, "ficha com verso quase em branco". Os `profissional` se espalham por C2/C3/C4/C5, mostrando que a etiqueta única agrupa perfis materialmente distintos.

### Exemplares representativos (mais próximos do centroide)

- **C1**: WR-CAD-001, WR-CAD-044, WR-CAD-047, WR-CAD-066, WR-CAD-084, WR-CAD-086, WR-CAD-088.
- **C2**: WR-CAD-018, WR-CAD-042, WR-CAD-055, WR-CAD-057, WR-CAD-105, WR-CAD-109, WR-CAD-110.
- **C3**: WR-CAD-096, WR-CAD-097, WR-CAD-101, WR-CAD-102, WR-CAD-104, WR-CAD-111, WR-CAD-113.
- **C4**: WR-CAD-035, WR-CAD-048, WR-CAD-060, WR-CAD-065, WR-CAD-076, WR-CAD-078, WR-CAD-079.
- **C5**: WR-CAD-002, WR-CAD-006, WR-CAD-007, WR-CAD-008, WR-CAD-083, WR-CAD-091, WR-CAD-095.

### Datação por cluster (década, quando disponível)

| Cluster | 1960 | 1970 | 1980 | 1990 | Sem datação |
|---|---:|---:|---:|---:|---:|
| C1 | 1 | 1 | 10 | 1 | **21** |
| C2 | 1 | 3 | 18 | 0 | 11 |
| C3 | 0 | 3 | **15** | 0 | 3 |
| C4 | 0 | 2 | 7 | 0 | 5 |
| C5 | 0 | 2 | 9 | 1 | 1 |

C3 e C5 são os mais ancorados no tempo (86% e 92% datados). C1 acumula 21 dos 41 sem-datação do banco.

## Leitura interpretativa

Os cinco clusters não coincidem com a divisão profissional/pessoal/misto — descrevem outro corte, o do **perfil de uso** do caderno como suporte, sempre segundo o que as fichas registraram.

O cluster mais afinado com a hipótese "proto-diarística, arquivo de si" é **C3 Agenda-diário híbrida**: é o único em que todas as oito categorias comparecem no centroide com peso apreciável, e o único em que as categorias 6 (doméstica), 7 (epistolar) e 8 (reflexiva) mostram sinal. Concentra também 6 dos 9 cadernos `pessoal`, e nele estão WR-CAD-097 e WR-CAD-096, densamente marcados, dos anos 1980. Se há uma "assinatura" de proto-diário no banco, ela está aqui.

**C4 Caderno de docência-teoria** descreve o perfil complementar: museologia + planos de aula + desenhos + contatos, sem sinal reflexivo/doméstico — a face acadêmica-institucional. **C5 Agenda de compromissos** parece o registro pragmático do calendário; **C2 Caderno de trabalho puro** concentra rotina profissional sem articulação relacional forte.

**C1 Cadernos-esqueleto** é o achado desconfortável: um terço do acervo cai num cluster cuja assinatura é a **ausência de assinatura** — 7 cadernos com zero marcações e 27 com 1-4 dispersas. Concentra 26 dos 32 `misto` e a maioria dos sem-datação. Não é "um tipo de caderno" — é o resíduo do que as fichas não capturaram, e dialoga com C-04 e B-03.

A ausência do arquétipo "caderno emocional/reflexivo" antecipado é um dado real: apenas 5 cadernos têm ≥2 marcações combinadas em categorias 6+8. Ou esse tipo de escrita não se materializa em cadernos-dedicados, ou se difunde dentro do C3, ou as fichas não a capturaram.

## Limites e cavalos-de-Troia

- K-means em 24 binários é heurística; a fronteira C3/C5 é sensível à seed.
- Os nomes dos clusters são interpretativos, não categorias validadas pela pesquisadora.
- Fichas contam presença, não intensidade: um caderno em C3 pode ter dois rabiscos "reflexivos", não um diário.
- C1 é em parte artefato do preenchimento das fichas.
- O cluster "emocional/reflexivo" **não emerge** dos dados — hipótese que o banco atual não sustenta.

## Evidência primária

Cadernos citados: WR-CAD-001, WR-CAD-018, WR-CAD-035, WR-CAD-042, WR-CAD-044, WR-CAD-047, WR-CAD-048, WR-CAD-055, WR-CAD-057, WR-CAD-060, WR-CAD-065, WR-CAD-066, WR-CAD-076, WR-CAD-078, WR-CAD-079, WR-CAD-084, WR-CAD-086, WR-CAD-088, WR-CAD-096, WR-CAD-097, WR-CAD-101, WR-CAD-102, WR-CAD-104, WR-CAD-105, WR-CAD-109, WR-CAD-110, WR-CAD-111, WR-CAD-113. Composição completa em `analises/_c02_kmeans.js` (reproducível).

## Sugestões de aprofundamento

1. Cruzar C3 com C-03 (cadernos híbridos) — a interseção deve ser o dossiê mais forte para F-01.
2. Levar C1 à revisão manual dirigida: distinguir ficha incompleta de caderno-esqueleto genuíno (input para C-04).
3. Repetir após C-01 (regra reajustada) e após ENRIQUECIMENTO, quando categorias 6/8 talvez ganhem sinal.
4. Testar distância cosseno como comparação — a volatilidade C3/C5 pede validação alternativa (input para D-03).
