# Análise B-01 — Distribuição temporal do corpus datado

## Pergunta

Como se distribui `datacao_estimada` ao longo do tempo nos 115 cadernos do acervo Waldisa Rússio, segundo as inferências registradas nas fichas de catalogação?

## Hipótese esperada (antes de rodar)

Concentração clara nos anos 1980 — o retrato exploratório de ANALISE.md §2 já apontava 58 de 74 cadernos datados (78%) nessa década. A hipótese central da tese ("proto-escrita diarística nos anos 1980") depende de esta distribuição se confirmar.

## Método

Sobre `site/data/banco.json` (N=115), extração de um ano canônico por caderno a partir do campo `datacao_estimada`. As 32 formas distintas do campo foram normalizadas por regras determinísticas (sem inferência caso a caso):

| Forma da datação | Heurística | Marcado como |
|---|---|---|
| `YYYY` (ex.: "1983") | ano literal | exato |
| `YYYY-MM` (ex.: "1985-06") | ano da parte esquerda | exato |
| `YYYY-YYYY` (ex.: "1976-1979") | ponto médio arredondado | aproximado |
| `YYYY/YY` (ex.: "1979/80") | ponto médio arredondado | aproximado |
| `pós-YYYY` (ex.: "pós-1983") | mesmo ano (limite inferior) | aproximado |
| `YYYY ou após` | mesmo ano (limite inferior) | aproximado |
| `década de YYYY0` | ponto médio (+5) → 1985 para "década de 1980" | aproximado |
| `final da década de YYYY0` | +8 → 1978 para "final da década de 1970" | aproximado |
| `[em branco]` / `[ilegível]` | sem datação — excluído do histograma | — |

As formas "início/meio da década" foram deixadas na tabela (não ocorreram no banco atual), preservadas caso apareçam em revisões futuras. Todas as 32 formas distintas do banco foram cobertas — nenhum valor ficou sem parse. Nenhum ano foi forçado sobre `[em branco]`.

Depois: histogramas por ano (1967–1991), biênio, quinquênio e década; tabela ano a ano com amostra de códigos; percentual de concentração por período; comparação com o subconjunto sem datação (41 cadernos).

## Resultado

**Cobertura da datação.** Dos 115 cadernos, **74 têm datação estimada** (64,3%) e **41 estão sem pista** (35,7%). Dos 74 datados, **59 vêm de datação exata** (ano literal) e **15 de heurística aproximada** (range, "pós-", "década de").

### Histograma por ano (1967–1991)

| Ano | Cadernos | Nota |
|---:|---:|---|
| 1967 | 1 | |
| 1968 | 1 | |
| 1969 | 0 | |
| 1970–1972 | 0 | |
| 1973 | 1 | |
| 1974 | 1 | (do range 1973–1974) |
| 1975 | 1 | (da "década de 1970") |
| 1976 | 0 | |
| 1977 | 1 | |
| 1978 | 3 | (2 aproximados: "final da década de 1970", range 1977–1978) |
| 1979 | 3 | |
| **1980** | **10** | inclui 1 aproximado ("1979/80") |
| **1981** | **4** | inclui 2 aproximados ("pós-1981", range 1980–1981) |
| **1982** | **5** | inclui 1 aproximado ("pós-1982") |
| **1983** | **11** | inclui 2 aproximados ("pós-1983" ×2) |
| **1984** | **7** | |
| **1985** | **6** | inclui 1 da "década de 1980" |
| **1986** | **5** | |
| **1987** | **6** | |
| **1988** | **6** | inclui 1 do range 1987–1988 |
| **1989** | **0** | |
| 1990 | 1 | |
| 1991 | 1 | |

Range observado: **1967 a 1991** (25 anos). Anos-topo: **1983 (11)**, **1980 (10)**, **1984 (7)**, **1985/1987/1988 (6 cada)**.

### Histograma por biênio

| Biênio | Cadernos |
|---|---:|
| 1966–1967 | 1 |
| 1968–1969 | 1 |
| 1972–1973 | 1 |
| 1974–1975 | 2 |
| 1976–1977 | 1 |
| 1978–1979 | 6 |
| **1980–1981** | **14** |
| **1982–1983** | **16** |
| **1984–1985** | **13** |
| **1986–1987** | **11** |
| **1988–1989** | **6** |
| 1990–1991 | 2 |

### Histograma por quinquênio

| Quinquênio | Cadernos | % dos datados |
|---|---:|---:|
| 1965–1969 | 2 | 2,7% |
| 1970–1974 | 2 | 2,7% |
| 1975–1979 | 8 | 10,8% |
| **1980–1984** | **37** | **50,0%** |
| **1985–1989** | **23** | **31,1%** |
| 1990–1994 | 2 | 2,7% |

### Histograma por década

| Década | Cadernos | % dos datados (N=74) | % do total (N=115) |
|---|---:|---:|---:|
| 1960s | 2 | 2,7% | 1,7% |
| 1970s | 10 | 13,5% | 8,7% |
| **1980s** | **60** | **81,1%** | **52,2%** |
| 1990s | 2 | 2,7% | 1,7% |

**Concentração central: 81,1% dos cadernos datados (60/74) foram catalogados como sendo dos anos 1980.** Sobre o total do acervo, essa fatia é de 52,2% (60/115) — abaixo se somarmos os 41 sem datação, cuja atribuição temporal é indeterminada.

### Amostra de códigos por ano

| Ano | 3 códigos representativos |
|---:|---|
| 1967 | WR-CAD-103 |
| 1968 | WR-CAD-001 |
| 1973 | WR-CAD-083 |
| 1974 | WR-CAD-067 (aprox.) |
| 1975 | WR-CAD-069 (aprox.) |
| 1977 | WR-CAD-106 |
| 1978 | WR-CAD-070, WR-CAD-092, WR-CAD-104 |
| 1979 | WR-CAD-055, WR-CAD-061, WR-CAD-087 |
| 1980 | WR-CAD-002, WR-CAD-038, WR-CAD-042 |
| 1981 | WR-CAD-028, WR-CAD-073, WR-CAD-085 |
| 1982 | WR-CAD-048, WR-CAD-076, WR-CAD-095 |
| 1983 | WR-CAD-004, WR-CAD-009, WR-CAD-021 |
| 1984 | WR-CAD-008, WR-CAD-012, WR-CAD-020 |
| 1985 | WR-CAD-017, WR-CAD-026, WR-CAD-040 |
| 1986 | WR-CAD-027, WR-CAD-039, WR-CAD-062 |
| 1987 | WR-CAD-010, WR-CAD-024, WR-CAD-030 |
| 1988 | WR-CAD-003, WR-CAD-023, WR-CAD-035 |
| 1990 | WR-CAD-007 |
| 1991 | WR-CAD-071 |

## Leitura interpretativa

A hipótese central se sustenta com folga. Os anos 1980 concentram **60 dos 74 cadernos datados (81,1%)** — mais alto do que os 78% do retrato exploratório inicial, pequena atualização provavelmente decorrente das rodadas de revisão. O bloco 1980–1989 é maciço, com todos os anos entre 1980 e 1988 acumulando ao menos 4 cadernos (o único vazio da década é 1989). A concentração é bimodal internamente: um pico em **1982–1983 (16 cadernos)** e um platô robusto em **1984–1987 (24 cadernos em 4 anos)**. A análise B-02 vai afinar isso.

O quinquênio 1980–1984 sozinho responde por metade do corpus datado (37 de 74). Antes disso, a década de 1970 apresenta escrita esparsa mas contínua a partir de 1973; depois de 1988, o acervo praticamente cessa (só WR-CAD-007 em 1990 e WR-CAD-071 em 1991). O range é de 25 anos, mas a densidade real vive num vão de aproximadamente 10 anos (1980–1988). Isso é compatível com a leitura de "período de maior intensidade" que a tese defende — e reforça a plausibilidade do "arquivo de si" como fenômeno concentrado no tempo, não distribuído ao longo da vida profissional inteira.

Um caveat metodológico importante: das 60 fichas datadas nos 1980, **13 vêm de heurística aproximada** (ranges, "pós-", "década de 1980"). Se considerarmos apenas as 47 fichas com ano literal exato entre 1980 e 1988, a concentração ainda é de 79,7% (47/59 dos datados exatamente). Os aproximados reforçam a leitura, mas não a criam.

O ponto realmente delicado está no denominador. Se olharmos para o total do acervo (115), a concentração cai para 52,2%. Os 41 cadernos sem datação (35,7% do corpus) são o buraco negro da análise: se forem sistematicamente mais antigos — cadernos genéricos que perderam pistas contextuais nas observações da ficha — a hipótese enfraquece. Se forem majoritariamente dos 1980 (cadernos "de uso" onde a data aparecia numa página interna não catalogada), ela se reforça. A análise **B-03** existe para enfrentar isso; até lá, toda afirmação cronológica precisa carregar o intervalo "entre 52% e 81% dos cadernos são dos anos 1980, a depender de como se datem os 41 órfãos".

## Limites e cavalos-de-Troia

- **Viés de datação (ANALISE.md §5.1) é o cavalo-de-Troia central deste bloco.** 41 de 115 cadernos (35,7%) não têm datação estimada. Se esses 41 forem sistematicamente mais antigos que a média (mais provável, porque cadernos mais antigos perdem contexto e pistas com o tempo), a concentração real nos 1980 é menor do que os 81,1% dos datados sugerem. Se forem contemporâneos aos 1980 (cadernos casuais sem menção explícita a datas), a concentração é ainda mais forte. Não sabemos qual das duas.
- **Fichas ≠ conteúdo íntimo.** A datação é inferida pela pesquisadora a partir das observações da ficha (tipo de caderno, referências datadas, contexto). Não é datação empírica das páginas do caderno.
- **Heurísticas de range perdem informação.** Um "pós-1983" foi atribuído a 1983, mas pode significar 1984 ou 1988. Idem para "década de 1980" (1985). Os 15 cadernos aproximados carregam ruído sistemático, mas não o suficiente para reverter a leitura macro.
- **Anos com N=1** (1967, 1968, 1973, 1974, 1975, 1977, 1990, 1991) não sustentam interpretação — são pontos isolados. Idem 1974 e 1975, produzidos por heurística.
- **Vieses de ficha (ANALISE.md §5.2).** Se a pesquisadora catalogou primeiro cadernos que já reconhecia como dos 1980, o acervo processado pode estar sistematicamente enviesado. Este ponto só será verificável quando o corpus estiver 100% revisado; hoje 7 fichas ainda estão pendentes (ver A-02).
- **N=74 (datados) é o denominador honesto.** Quaisquer afirmações "1980 responde por 52%" devem ser lidas como "52% do corpus catalogado, mais um resíduo de 36% indeterminado".

## Evidência primária

- **Anos 1980 (60 cadernos, 81,1% dos datados)** — amostra por ponta: WR-CAD-002 (1980), WR-CAD-004 (1983), WR-CAD-008 (1984), WR-CAD-017 (1985), WR-CAD-024 (1987), WR-CAD-035 (1988).
- **Anos 1970 (10 cadernos)** — WR-CAD-055 (1979), WR-CAD-061 (1979), WR-CAD-067 (1974, aprox.), WR-CAD-070 (1978), WR-CAD-083 (1973), WR-CAD-087 (1979), WR-CAD-092 (1978), WR-CAD-104 (1978), WR-CAD-106 (1977).
- **Antes de 1970 (2 cadernos)** — WR-CAD-103 (1967), WR-CAD-001 (1968).
- **Depois de 1989 (2 cadernos)** — WR-CAD-007 (1990), WR-CAD-071 (1991).
- **Pico 1983 (11 cadernos)** — WR-CAD-004, WR-CAD-009, WR-CAD-021, WR-CAD-022, WR-CAD-029, WR-CAD-037, WR-CAD-045, WR-CAD-064, WR-CAD-074, WR-CAD-081, WR-CAD-093.
- **Sem datação (41 cadernos)** — WR-CAD-005, 006, 011, 013, 014, 015, 016, 018, 019, 025, 034, 036, 041, 043, 044, 046, 047, 053, 054, 056, 057, 059, 060, 063, 065, 066, 068, 072, 080, 082, 084, 088, 089, 090, 098, 102, 105, 107, 109, 110, 113.

## Sugestões de aprofundamento

1. **Executar B-03 antes de fechar qualquer conclusão cronológica.** Comparar tipo de caderno, número de páginas, categorias marcadas e caixa dos 41 sem datação contra os 74 datados. Se os 41 se parecerem com os cadernos de 1970 (menores, menos categorias marcadas, tipos "bloco"), a hipótese dos 1980 perde peso. Se se parecerem com os de 1980, ela ganha.
2. **Fechar as 7 fichas pendentes (A-02)** — três delas (WR-CAD-004, 039, 062) já têm datação proposta pela IA e só aguardam confirmação; as outras quatro (043, 057, 060, 105) estão em `[em branco]` e podem ou não migrar para o corpus datado. Cada migração muda ligeiramente os 74/41.
3. **Executar B-02 para investigar o pico 1982–1983.** O biênio 1982–1983 tem 16 cadernos (21,6% dos datados) — vale testar se é ano-topo estatístico ou artefato de datação (muitos "pós-1983" caem em 1983 pela heurística).
4. **Cruzar cronologia com predominância (input para B-04 e C-01).** Se a hipótese "proto-diarístico" for verdadeira, esperamos ver crescimento das categorias 6 (doméstica) e 8 (reflexiva) nos 1980 vs. 1970 — atualmente estas categorias são as menos marcadas do acervo (ver A-03).
5. **Reportar sempre em três números simultâneos.** Em relatórios e no `dashboard.html`: (i) 81,1% dos datados; (ii) 52,2% do total; (iii) 35,7% de indeterminação. A honestidade cronológica é o que dá sustentação à tese, não a concentração isolada.
