# Análise A-05 — Extensão dos cadernos (páginas total)

## Pergunta

Qual o tamanho típico dos cadernos que Waldisa usou, medido em páginas totais? E dos "escritos" — quanto de cada caderno chegou a receber marca?

## Hipótese esperada (antes de rodar)

Distribuição bimodal, com blocos curtos convivendo com cadernos grandes; mediana em torno de 138 páginas e média puxada para cima pelos outliers.

## Método

1. Leitura de `paginas_total` e `paginas_escritas` em `site/data/banco.json` (N=115 fichas), respeitando `ESQUEMA §2`: valores textuais (`[em branco]`, `[ilegível]`) nunca convertidos em número.
2. Estatísticas descritivas de `paginas_total` (N, média, mediana, quartis, mínimo, máximo, desvio-padrão) apenas sobre a subamostra numérica.
3. Histograma manual em sete faixas (0-49, 50-99, 100-149, 150-199, 200-299, 300-399, 400+).
4. Top 5 mais longos e top 5 mais curtos, com o código de cada ficha.
5. Contagem dos tipos de valor em `paginas_escritas` (número, `[em branco]`, `[ilegível]`) e classificação semântica das anotações textuais alojadas em `paginas_escritas_obs`.
6. Razão `paginas_escritas / paginas_total` apenas nas fichas em que **ambos** são numéricos.

## Resultado

### Extensão total (`paginas_total`)

| Métrica | Valor |
|---|---|
| N com número | 112 |
| `[em branco]` | 3 (WR-CAD-014, WR-CAD-098, WR-CAD-115) |
| Média | 152,2 páginas |
| Mediana | 134 páginas |
| Q1 – Q3 | 82,5 – 196 |
| Mínimo | 25 (WR-CAD-011) |
| Máximo | 488 (WR-CAD-075) |
| Desvio-padrão | 94,1 |

**Histograma (N=112):**

| Faixa | Nº de cadernos | % |
|---|---|---|
| 0-49 | 8 | 7,1% |
| 50-99 | 35 | 31,3% |
| 100-149 | 17 | 15,2% |
| 150-199 | 26 | 23,2% |
| 200-299 | 13 | 11,6% |
| 300-399 | 11 | 9,8% |
| 400+ | 2 | 1,8% |

**Top 5 mais longos:** WR-CAD-075 (488), WR-CAD-049 (404), WR-CAD-073 (394), WR-CAD-013 (373), WR-CAD-010 (362).

**Top 5 mais curtos:** WR-CAD-011 (25), WR-CAD-103 (28), WR-CAD-054 (30), WR-CAD-015 (34), WR-CAD-108 (34).

### Extensão escrita (`paginas_escritas`)

| Categoria | N |
|---|---|
| Numérico | 74 |
| `[em branco]` (sem número na ficha) | 40 |
| `[ilegível]` | 1 |
| Com observação textual em `paginas_escritas_obs` | 34 |

Estatísticas sobre os 74 valores numéricos: média 55,4; mediana 42,5; Q1–Q3 = 15–62; mínimo 0 (WR-CAD-001, "Nenhuma"); máximo 395 (WR-CAD-049).

**Top 5 mais escritas (páginas com marca):** WR-CAD-049 (395), WR-CAD-033 (210), WR-CAD-070 (183), WR-CAD-073 (174), WR-CAD-043 (150).

Perfil semântico das 34 anotações textuais (subamostra que **não** entra em cálculo numérico):

| Expressão | N | Códigos-exemplo |
|---|---|---|
| "todas" / "Integral" | 14 | WR-CAD-009, WR-CAD-034, WR-CAD-054, WR-CAD-085, WR-CAD-107 |
| "quase todas" / "praticamente todas" | 8 | WR-CAD-031, WR-CAD-097, WR-CAD-099, WR-CAD-103 |
| "por volta de N" / "mais de N" | 7 | WR-CAD-074, WR-CAD-078, WR-CAD-093, WR-CAD-100 |
| "até a pág N" | 2 | WR-CAD-010, WR-CAD-015 |
| Outros | 3 | WR-CAD-026 ("21 + 2"), WR-CAD-072 ("Somente a contra-capa"), WR-CAD-115 ("Não foi realizada numeração") |

### Razão escrita / total (só onde ambos numéricos)

N=74 (mesmo conjunto das 74 fichas com número em `paginas_escritas`; todas têm total numérico).

| Métrica | Valor |
|---|---|
| Média | 0,377 |
| Mediana | 0,332 |
| Q1 – Q3 | 0,140 – 0,558 |
| Mínimo – Máximo | 0 – 0,978 |

| Faixa de aproveitamento | N | % |
|---|---|---|
| 0 (nenhuma) | 1 | 1,4% |
| 0,01 – 0,25 | 30 | 40,5% |
| 0,26 – 0,50 | 19 | 25,7% |
| 0,51 – 0,75 | 12 | 16,2% |
| 0,76 – 1,00 | 12 | 16,2% |

Nenhum registro >1,0.

## Leitura interpretativa

O retrato de tamanho confirma quase à letra a hipótese. A mediana observada (134) fica praticamente sobre o valor de referência da pesquisadora (138), e a média (152) é maior que a mediana justamente por causa dos poucos cadernos-monumento — dois passam de 400 páginas (WR-CAD-075 e WR-CAD-049) e onze estão entre 300 e 399. O desvio-padrão de 94 páginas sobre uma amostra que vai de 25 a 488 diz que **não existe um caderno "padrão"**: existe um repertório material amplo, do bloco de 25 páginas ao volume quase-livro.

A bimodalidade é visível, embora não perfeitamente simétrica. Duas cristas se destacam no histograma: a faixa 50-99 (35 cadernos, o pico absoluto — os blocos e libretas) e a faixa 150-199 (26 cadernos — os "cadernos médios" que dominam a materialidade da coleção). Entre elas, uma leve depressão em 100-149 (17). A cauda direita, de 200 páginas em diante, soma 26 cadernos: uma minoria material, mas visível — e é lá que aparecem candidatos a "cadernos-diário", suportes longos que aguentam uso prolongado.

Sobre a escrita efetiva, a leitura é mais delicada. Apenas 74 fichas registram um número limpo; outras 34 trazem descrições em prosa em `paginas_escritas_obs` que a regra de esquema (§2) proíbe converter em número, e uma é ilegível. Dentro dos 74 numéricos, a mediana de 42,5 páginas escritas e o Q3 em 62 desenham um uso **majoritariamente parcial** — 42% dos cadernos numéricos foram usados em até um quarto da sua extensão, e a maioria (67%) ficou aquém da metade. Só 16% chegaram a passar de três quartos. O padrão "caderno aberto e não terminado" é dominante entre os que trazem contagem.

O sinal ambíguo vem justamente das 34 fichas textuais. Delas, 14 dizem "todas" ou "Integral" e 8 dizem "quase/praticamente todas": ou seja, **22 dos 34 cadernos sem contagem** foram, segundo a percepção da pesquisadora, densamente usados. Se essas 22 fossem numerizáveis, o Q3 de razão certamente subiria — o quadro atual, apoiado só nos 74 numéricos, provavelmente subestima o aproveitamento típico. A leitura honesta é: cadernos com contagem exata tendem a ser blocos parcialmente usados; cadernos densos foram descritos como "todas" e escaparam da coluna numérica. Duas populações de escrita convivem na coleção — e uma delas está, por ora, invisível ao cálculo.

## Limites e cavalos-de-Troia

- **Subamostra pequena para a razão** — o denominador honesto é 74, não 115. Os 34 registros textuais em `paginas_escritas_obs` não entram, e são justamente os candidatos a "densos" (22 dizem "todas"/"quase todas"). Toda leitura de densidade a partir deste dado é conservadora por baixo.
- **Uso ≠ intensidade** — "Página escrita" na ficha é presença de marca, não volume de texto. Um caderno com uma linha por página conta igual a um com página cheia. E-01 herda esse limite.
- **Contagem literal, não estimada** — a pesquisadora só transcreveu números que estavam anotados; a ausência de número não implica ausência de escrita, apenas ausência de contagem no momento da consulta.
- **Bimodalidade sugestiva, não estatística** — o teste é visual, sobre N=112. Nenhum teste inferencial (Hartigan, kernel density) foi rodado; a moda em 50-99 pode ser um artefato do binning.
- **Fichas ≠ conteúdo íntimo** — nada aqui diz o que Waldisa escreveu; apenas quanto papel ela ocupou.

## Evidência primária

- Cadernos-monumento (>300 páginas): WR-CAD-075, WR-CAD-049, WR-CAD-073, WR-CAD-013, WR-CAD-010.
- Blocos curtos (<40 páginas): WR-CAD-011, WR-CAD-103, WR-CAD-054, WR-CAD-015, WR-CAD-108.
- Escritos "por inteiro" (informação textual): WR-CAD-009, WR-CAD-034, WR-CAD-085, WR-CAD-107, WR-CAD-114.
- Sem `paginas_total`: WR-CAD-014, WR-CAD-098, WR-CAD-115.

## Sugestões de aprofundamento

1. **Cruzamento com datação** — os cadernos longos (>200 páginas) se concentram nos anos 1980? Serviria como evidência material da "intensidade" hipotetizada, ligando A-05 a B-01 e C-03.
2. **Cruzamento com `tipo_caderno`** — os blocos curtos são "libretas/agendas" e os longos são "caderno A5 grande"? Insumo direto para E-02.
3. **Revisão dirigida das 22 fichas com "todas"/"quase todas"** — a pesquisadora poderia decidir, caderno a caderno, se aceita converter em número aproximado (ex.: "Praticamente todas" com 180 páginas → 170?). Sem essa decisão, o cálculo de densidade em E-01 permanece enviesado por baixo.
4. **Investigar `paginas_total` `[em branco]`** — três fichas (WR-CAD-014, 098, 115); vale checar se a ausência é real (caderno sem paginação, como WR-CAD-115 sugere) ou lapso de preenchimento.
5. **Reagrupar por densidade categórica × extensão** — cadernos híbridos (C-03) são também os mais longos?
