# Análise A-01 — Distribuição de cadernos por caixa

## Pergunta
Quantos cadernos há em cada uma das 20 caixas do acervo, e a distribuição é uniforme ou concentrada?

## Hipótese esperada (antes de rodar)
Distribuição relativamente uniforme, com ~5-6 cadernos por caixa e a possibilidade de pequenos grupos mais adensados.

## Método
Contagem simples do campo `caixa` sobre as 115 linhas de `site/data/banco.json` (uma linha por caderno). Sinalizei valores atípicos do campo, calculei média, mediana, desvio-padrão e coeficiente de variação sobre as 20 caixas numéricas, agrupei em três faixas de tamanho (grande ≥10, média 5-9, pequena 1-4) e cruzei, de forma exploratória, com `predominancia` e com a década inferida a partir de `datacao_estimada`. A finalidade do cruzamento é apenas caracterizar as caixas — não sustentar conclusão cronológica.

## Resultado

**Valor atípico de campo:** o caderno `WR-CAD-070` tem `caixa = "[incerto]"`. As fichas, portanto, não localizam esse item em nenhuma das 20 caixas — o dado exige decisão da pesquisadora. Todas as estatísticas abaixo consideram as 20 caixas numéricas (N=114).

**Contagem por caixa:**

| Caixa | N | Faixa | Códigos |
|---:|---:|---|---|
| 1 | 11 | grande | WR-CAD-001 a WR-CAD-011 |
| 2 | 7 | média | WR-CAD-012 a WR-CAD-018 |
| 3 | 11 | grande | WR-CAD-019 a WR-CAD-029 |
| 4 | 5 | média | WR-CAD-030 a WR-CAD-034 |
| 5 | 11 | grande | WR-CAD-035 a WR-CAD-045 |
| 6 | 6 | média | WR-CAD-046 a WR-CAD-051 |
| 7 | 14 | grande | WR-CAD-052 a WR-CAD-065 |
| 8 | 3 | pequena | WR-CAD-066 a WR-CAD-068 |
| 9 | 1 | pequena | WR-CAD-069 |
| 10 | 3 | pequena | WR-CAD-071 a WR-CAD-073 |
| 11 | 3 | pequena | WR-CAD-074 a WR-CAD-076 |
| 12 | 3 | pequena | WR-CAD-077 a WR-CAD-079 |
| 13 | 4 | pequena | WR-CAD-080 a WR-CAD-083 |
| 14 | 3 | pequena | WR-CAD-084 a WR-CAD-086 |
| 15 | 2 | pequena | WR-CAD-087, WR-CAD-088 |
| 16 | 2 | pequena | WR-CAD-089, WR-CAD-090 |
| 17 | 4 | pequena | WR-CAD-091 a WR-CAD-094 |
| 18 | 2 | pequena | WR-CAD-095, WR-CAD-096 |
| 19 | 4 | pequena | WR-CAD-097 a WR-CAD-100 |
| 20 | 15 | grande | WR-CAD-101 a WR-CAD-115 |
| [incerto] | 1 | — | WR-CAD-070 |

**Estatísticas descritivas (20 caixas, N=114):** média = 5,70; mediana = 4; mínimo = 1 (caixa 9); máximo = 15 (caixa 20); desvio-padrão = 4,18; coeficiente de variação = 0,73.

**Faixas de tamanho:**
- Grandes (≥10 cadernos): 5 caixas — 1, 3, 5, 7, 20 — concentram 62 cadernos (54% do acervo).
- Médias (5-9): 3 caixas — 2, 4, 6 — 18 cadernos (16%).
- Pequenas (1-4): 12 caixas — 8 a 19 (exceto 13/17/19) — 34 cadernos (30%).

**Padrão de numeração:** os códigos WR-CAD-NNN seguem sequencialmente a numeração das caixas. As cinco caixas grandes se concentram nas caixas 1-7 e na caixa 20 (última). A "cauda" da caixa 8 à 19 é povoada por caixas pequenas (1 a 4 cadernos cada).

**Cruzamento exploratório com predominância:** as fichas rotulam a grande maioria dos cadernos das caixas grandes como "profissional" — caixa 3 (10/11), caixa 5 (9/11), caixa 7 (10/14), caixa 20 (12/15). Os cadernos com predominância "pessoal" (9 no total no banco) se distribuem de forma esparsa e aparecem sobretudo em caixas pequenas: caixa 9 (1/1), caixa 19 (3/4), caixa 12 (1/3), caixa 14 (1/3), caixa 15 (1/2). A caixa 19 é a única "pequena" com maioria pessoal.

**Cruzamento exploratório com década (via `datacao_estimada`):** as caixas grandes concentram cadernos catalogados como dos anos 1980 (caixa 3: 9/11; caixa 5: 6/11; caixa 20: 6/15; caixa 1: 6/11; caixa 7: 4/14). Nenhuma caixa é internamente monodecadal — todas misturam anos 1980 com alguns anos 1970 e/ou cadernos sem datação. A caixa 20 é a única em que aparecem, juntas, marcações de anos 1960, 1970 e 1980.

## Leitura interpretativa

A hipótese de distribuição uniforme não se sustenta. A média aritmética (5,7) coincide com o palpite prévio, mas a mediana (4), o desvio-padrão alto (4,18) e a razão min-max de 1:15 mostram um acervo fisicamente **muito assimétrico**. Cinco caixas concentram mais da metade dos cadernos; doze caixas guardam entre 1 e 4 itens cada. O teste rápido contra uniforme confirma o que se vê a olho — a distribuição é longe de plana.

Como a numeração dos cadernos segue a das caixas, a assimetria não é aleatória: ela reflete uma decisão prévia de arranjo (do IEB, da própria Waldisa ou de quem entregou o acervo). Não se pode, a partir das fichas, dizer o critério dessa decisão — só que ele existe. Uma leitura plausível, a ser verificada em E-03, é que caixas grandes correspondem a blocos temáticos ou cronológicos amplos, enquanto caixas pequenas guardam materiais mais específicos (um ou dois cadernos por assunto/momento).

Para a hipótese central da Renata — anos 1980 como período de intensidade —, este relatório oferece pano de fundo, não evidência. As fichas indicam que as caixas mais volumosas (1, 3, 5, 7, 20) também são as que catalogam mais cadernos como sendo dos anos 1980, o que é coerente com a tese. Mas isso é fraco: pode refletir apenas que caixas maiores têm mais oportunidade de conter cadernos de qualquer época. A concentração de cadernos "pessoais" em caixas menores, sobretudo a caixa 19 (3 dos 4 cadernos rotulados como pessoais), é uma pista mais interessante — sugere que a organização física talvez separe registros de natureza mais íntima em unidades próprias. É hipótese, não conclusão.

## Limites e cavalos-de-Troia

- N=115 (114 com caixa definida). A base é pequena; comparar 12 caixas pequenas entre si tem pouco poder informativo.
- O caderno **WR-CAD-070** carrega `caixa=[incerto]`. As fichas não permitem alocá-lo — decisão da pesquisadora.
- O campo `caixa` reflete a organização física do acervo tal como catalogado nas fichas, não uma ordem original de escrita. Correlacionar caixa a "período" ou "tema" da Waldisa é inferência, não leitura.
- Cruzamentos com `predominancia` herdam o viés da regra atual, que a análise C-01 vai reexaminar. Cruzamentos com `datacao_estimada` herdam o viés de datação descrito em ANALISE §5.1 (41 dos 115 cadernos sem data inferida).
- A associação "caixas grandes = mais anos 1980" pode ser artefato de tamanho: caixas maiores agregam mais cadernos de qualquer época.

## Evidência primária

- Caixa mais populosa: **caixa 20**, com 15 cadernos (WR-CAD-101 a WR-CAD-115).
- Caixa mais rarefeita: **caixa 9**, com 1 caderno (WR-CAD-069).
- Caso singular de campo: **WR-CAD-070** (caixa = [incerto]).
- Caixas grandes ("profissional" dominante): **caixa 3** (WR-CAD-019 a WR-CAD-029), **caixa 5** (WR-CAD-035 a WR-CAD-045), **caixa 7** (WR-CAD-052 a WR-CAD-065).
- Caixa pequena com maioria "pessoal": **caixa 19** (WR-CAD-097 a WR-CAD-100).
- Cadernos catalogados como "pessoais" em caixas isoladas: **WR-CAD-069** (caixa 9), **WR-CAD-086** (caixa 14), **WR-CAD-088** (caixa 15).

## Sugestões de aprofundamento

- **E-03 (caixas como camadas temáticas ou temporais):** verificar se as 5 caixas grandes têm perfis de categoria distintos entre si — se são "blocos" homogêneos ou apenas grandes por acaso.
- **Cruzar caixa × tipo_caderno (A-04):** ver se as caixas pequenas guardam materiais materialmente distintos (agendas, blocos) — o que reforçaria a hipótese de que a organização física é temática/formal.
- **Investigar caixa 19 e caixa 20 lado a lado:** a primeira concentra "pessoais" em unidade pequena; a segunda é a maior de todas e mistura décadas — vale mapear o que separa uma da outra.
- **Renata decide:** onde alocar (ou não) o **WR-CAD-070**. A ficha registra `caixa=[incerto]` — precisa de olhar humano nas imagens ou na etiqueta física.
- **Contexto arquivístico:** perguntar ao IEB-USP se as 20 caixas seguem uma lógica declarada de arranjo (cronológica, temática, por proveniência) — informação externa ao banco que resolveria boa parte da leitura.
