# Análise E-01 — Densidade de escrita

## Pergunta

Quanto de cada caderno foi usado, medido pela razão `paginas_escritas / paginas_total`?

## Hipótese esperada (antes de rodar)

Distribuição em U: cadernos "quase totalmente usados" (agendas fechadas ano a ano, cadernos-diário híbridos) numa ponta; blocos abandonados nas primeiras páginas na outra. A leitura de "arquivo de si" espera alta densidade nos cadernos híbridos dos anos 1980.

## Método

1. Para cada ficha, `ratio = paginas_escritas / paginas_total` **somente quando ambos os valores são numéricos** e `paginas_total > 0`. Nunca converter texto (`[em branco]`, `[ilegível]`, "todas", "quase todas") em número — regra herdada de A-05.
2. **Duas versões** do cálculo:
   - **V1 (base numérica):** só as fichas em que `paginas_escritas` é número. N=74.
   - **V2 (com imputação conservadora):** V1 mais as 22 fichas em que `paginas_escritas` é textual e a observação diz "todas", "Integral", "Praticamente todas" ou "Quase todas" — para essas, assumido `ratio ≈ 0,95` (limite inferior de "quase todas"). N=96. Marcada como estimativa, não medida.
3. Histograma nas faixas 0-0.10, 0.10-0.25, 0.25-0.50, 0.50-0.75, 0.75-0.95, 0.95-1.00, >1.00, para as duas versões.
4. Estatísticas descritivas (N, média, mediana, Q1-Q3, mínimo, máximo, desvio-padrão).
5. Cruzamentos: média/mediana por `predominancia`, por década de `datacao_estimada` (extraindo primeiro ano de 4 dígitos), e por tipo de caderno normalizado (agenda / bloco / caderno A5 / caderno grande-médio-pequeno / caderno outros).
6. Rankings: cadernos com `ratio > 0,9` ("mais aproveitados") e `ratio < 0,15` ("mais abandonados"), usando apenas V1 para o ranking (evita falso ranking a partir de valor imputado).

## Resultado

### Distribuição da razão — V1 (só numérico)

| Métrica | Valor |
|---|---|
| N | 74 |
| Média | 0,377 |
| Mediana | 0,332 |
| Q1 – Q3 | 0,139 – 0,560 |
| Mínimo – Máximo | 0 – 0,978 |
| Desvio-padrão | 0,281 |

| Faixa | N | % |
|---|---|---|
| 0 – 0,10 | 15 | 20,3% |
| 0,10 – 0,25 | 16 | 21,6% |
| 0,25 – 0,50 | 19 | 25,7% |
| 0,50 – 0,75 | 12 | 16,2% |
| 0,75 – 0,95 | 11 | 14,9% |
| 0,95 – 1,00 | 1 | 1,4% |
| >1,00 | 0 | 0,0% |

### Distribuição da razão — V2 (com imputação conservadora)

Adicionadas 22 fichas com observação textual "todas"/"quase todas", ratio = 0,95.

| Métrica | Valor |
|---|---|
| N | 96 |
| Média | 0,508 |
| Mediana | 0,463 |
| Q1 – Q3 | 0,188 – 0,929 |
| Mínimo – Máximo | 0 – 0,978 |
| Desvio-padrão | 0,345 |

| Faixa | N | % |
|---|---|---|
| 0 – 0,10 | 15 | 15,6% |
| 0,10 – 0,25 | 16 | 16,7% |
| 0,25 – 0,50 | 19 | 19,8% |
| 0,50 – 0,75 | 12 | 12,5% |
| 0,75 – 0,95 | 11 | 11,5% |
| 0,95 – 1,00 | 23 | 24,0% |
| >1,00 | 0 | 0,0% |

### Cruzamentos — média da razão por grupo

**Por predominância (V1 | V2):**

| Predominância | V1 (N, média, mediana) | V2 (N, média, mediana) |
|---|---|---|
| profissional | 53 · 0,402 · 0,365 | 65 · 0,503 · 0,442 |
| misto | 20 · 0,319 · 0,164 | 24 · 0,424 · 0,350 |
| pessoal | 1 · 0,199 · 0,199 | 7 · 0,843 · 0,950 |

**Por década (V1 | V2):**

| Década | V1 (N, média) | V2 (N, média) |
|---|---|---|
| 1960 | 1 · 0,000 | 2 · 0,475 |
| 1970 | 9 · 0,539 | 12 · 0,641 |
| 1980 | 35 · 0,404 | 47 · 0,543 |
| 1990 | 2 · 0,180 | 2 · 0,180 |

**Por tipo de caderno normalizado (V2):**

| Tipo | N | Média | Mediana |
|---|---|---|---|
| agenda | 14 | 0,778 | 0,950 |
| bloco | 15 | 0,557 | 0,525 |
| caderno (outros) | 7 | 0,483 | 0,416 |
| caderno A5 | 38 | 0,449 | 0,369 |
| caderno grande/médio/pequeno | 20 | 0,409 | 0,246 |

### Ranking — 10 mais aproveitados (V1, ratio > 0,7)

Só 4 fichas passam de 0,9 em V1 (as demais 22 candidatas estão na coluna textual). Ampliado para 10 com corte em 0,7.

| Código | Ratio | pe/pt | Predominância | Datação |
|---|---|---|---|---|
| WR-CAD-049 | 0,978 | 395/404 | misto | 1985 |
| WR-CAD-070 | 0,929 | 183/197 | misto | 1977-1978 |
| WR-CAD-033 | 0,913 | 210/230 | profissional | 1987 |
| WR-CAD-076 | 0,908 | 89/98 | profissional | pós-1982 |
| WR-CAD-083 | 0,854 | 82/96 | profissional | 1973 |
| WR-CAD-067 | 0,852 | 104/122 | profissional | 1973-1974 |
| WR-CAD-046 | 0,831 | 123/148 | profissional | [em branco] |
| WR-CAD-045 | 0,803 | 53/66 | profissional | 1983 |
| WR-CAD-029 | 0,800 | 136/170 | profissional | 1983 |
| WR-CAD-048 | 0,793 | 119/150 | profissional | 1982 |

### Ranking — 10 mais abandonados (V1, ratio < 0,15)

| Código | Ratio | pe/pt | Predominância | Datação |
|---|---|---|---|---|
| WR-CAD-001 | 0,000 | 0/210 | misto | 1968 |
| WR-CAD-044 | 0,010 | 1/97 | misto | [em branco] |
| WR-CAD-019 | 0,014 | 1/70 | misto | [em branco] |
| WR-CAD-075 | 0,023 | 11/488 | misto | 1986 |
| WR-CAD-025 | 0,029 | 3/104 | profissional | [em branco] |
| WR-CAD-071 | 0,029 | 6/204 | misto | 1991 |
| WR-CAD-110 | 0,033 | 2/61 | profissional | [em branco] |
| WR-CAD-066 | 0,045 | 14/310 | misto | [em branco] |
| WR-CAD-018 | 0,052 | 13/252 | profissional | [em branco] |
| WR-CAD-105 | 0,054 | 2/37 | profissional | [em branco] |

## Leitura interpretativa

Em V1 a distribuição **não** é o U esperado — é uma cauda longa inclinada para a esquerda: quase metade das fichas com número (42%) tem menos de 25% da extensão usada, a mediana fica em 0,33 e apenas 1 caderno passa de 0,95. Se lida isoladamente, a versão numérica sugeriria uma coleção de blocos majoritariamente abandonados. Isso é o viés que A-05 anunciou: quando a pesquisadora anotou "todas" ou "quase todas" na observação, o número saiu da coluna cardinal.

Em V2 o quadro muda decisivamente. A adição das 22 fichas densas empurra a média para 0,508, a mediana para 0,463 e cria a segunda crista prevista pela hipótese: 24% dos cadernos concentram-se na faixa 0,95-1,00. A distribuição em U aparece — uma ponta em 0-0,25 (32%) e outra em 0,75-1,00 (36%) —, com um vale médio (0,25-0,75, cerca de 32%). Ler as duas versões lado a lado é essencial: **a densidade real da coleção só emerge quando aceitamos que "todas" também é medida**, ainda que grosseira.

Nos cruzamentos, três padrões saltam. Primeiro, **as agendas são as mais aproveitadas** (V2: média 0,778, mediana 0,95) — coerente com o comportamento material de agenda datada, que preenche o ano. Segundo, **os cadernos grandes são os mais parcialmente usados** (V2: mediana 0,246) — o volume-monumento tende a ser começado e não terminado; o caso extremo é WR-CAD-075, 488 páginas com apenas 11 escritas, o campeão de "espaço disponível não ocupado". Terceiro, os poucos cadernos com predominância "pessoal" (apenas 7 em V2) têm mediana 0,95 — sinal de que a escrita pessoal, quando aparece, ocupa o suporte inteiro; caveat: N=7 é pequeno demais para ser conclusivo.

Sobre a hipótese central: a leitura de década sob V1 **não** favorece os 1980 (média 0,404, abaixo dos 1970 com 0,539). Mas sob V2 a década de 1980 sobe para 0,543 e passa a comportar tanto o topo do ranking (WR-CAD-049, 1985; WR-CAD-033, 1987) quanto o extremo do abandono (WR-CAD-075, 1986; WR-CAD-062, 1986). Os 1980 são o período de **maior amplitude de uso** — nem uniformemente denso, nem uniformemente esparso: convivem lá a agenda-diário integralmente ocupada e o caderno grande interrompido. Isso é consistente com a leitura de "arquivo de si" como constelação (múltiplos suportes ativos em paralelo, cada um com função e ritmo próprios) — não sustenta uma leitura de disciplina uniforme. Cadernos-assinatura da tese, como WR-CAD-049 (misto, 1985, 395/404 páginas), oferecem material de peso; cadernos como WR-CAD-075 obrigam a reconhecer o contra-exemplo.

## Limites e cavalos-de-Troia

- **A imputação de 0,95 é estimativa, não medida.** "Todas" pode significar 1,00 ou 0,90; "quase todas" pode ser 0,85. A escolha de 0,95 é conservadora deliberada (não força a 1,0), mas qualquer conclusão fina sobre a distribuição alta depende dessa premissa. Só se sustenta como leitura, não como estatística.
- **N em V1 é 74; em V2 é 96.** Ainda faltam 19 fichas (17%) sem razão calculável nem imputável — inclui `[em branco]`, `[ilegível]`, "por volta de N" e "até a pág N", que a regra de esquema não permite converter sem decisão da pesquisadora.
- **Presença ≠ intensidade.** "Página escrita" na ficha é presença de marca, não volume de texto. Uma página com uma linha conta igual a uma cheia. E-01 herda de A-05 esse teto de precisão.
- **Datação frágil.** As décadas se apoiam nos 74 datados; 41 cadernos ficam de fora do cruzamento cronológico. Ver ANALISE.md §5.1.
- **Predominância "pessoal" com N=1 (V1) ou N=7 (V2)** não sustenta afirmação forte; a leitura "pessoal ocupa mais o suporte" é sugestão, não conclusão.
- **Rankings de "abandono" concentram fichas sem datação** (7 de 10 têm `[em branco]`) — pode indicar viés no preenchimento (cadernos pouco usados também são cadernos pouco documentados) e não característica intrínseca.

## Evidência primária

- Aproveitamento alto medido: WR-CAD-049, WR-CAD-070, WR-CAD-033, WR-CAD-076, WR-CAD-083.
- Aproveitamento alto imputado ("todas"/"quase todas"): WR-CAD-009, WR-CAD-034, WR-CAD-097, WR-CAD-085, WR-CAD-107.
- Abandono extremo: WR-CAD-001 (0/210), WR-CAD-075 (11/488), WR-CAD-066 (14/310), WR-CAD-018 (13/252).
- Contra-exemplo dos 1980 (caderno grande interrompido): WR-CAD-075, WR-CAD-062, WR-CAD-004.

## Sugestões de aprofundamento

1. **Decisão da pesquisadora sobre "todas"/"quase todas"** — converter caderno a caderno em número aproximado (ex.: "praticamente todas" com 150 páginas → 140) removeria a necessidade de imputação uniforme. Sem essa decisão, E-01 vive em duas versões.
2. **Cruzar densidade com densidade categórica (C-03)** — os 10 cadernos mais aproveitados são também os mais híbridos? Se sim, sustenta a leitura "assinatura proto-diarística = suporte inteiramente ocupado + muitas categorias".
3. **Investigar o padrão "caderno grande interrompido"** — WR-CAD-075, WR-CAD-066, WR-CAD-018, WR-CAD-071: são projetos abandonados, cadernos-arquivo abertos e postos de lado, ou marcações apenas iniciais? Releitura qualitativa recomendada.
4. **Revisar as 19 fichas fora de V1 e V2** — `[em branco]` em `paginas_escritas` com `paginas_total` numérico pode indicar não-registro, não ausência. Pode ser lapso de preenchimento.
5. **Cruzar com E-02 (materialidade × modo)** — agendas com ratio 0,78 e cadernos grandes com 0,25 já apontam material-simbólica; refinar com o tipo controlado.
