# Análise A-02 — Perfil de status de revisão

## Pergunta

Em que fase de revisão está cada uma das 115 fichas do banco, e onde ainda falta a Renata olhar antes de fechar o corpus?

## Hipótese esperada (antes de rodar)

A maior parte das fichas já está em `revisado_ok` ou `revisado_corrigido`; um resíduo pequeno segue `pendente` ou `em_revisao`, concentrado em campos difíceis (datação, predominância).

## Método

Sobre `site/data/banco.json` (115 linhas, uma por caderno):

1. Contagem por `status_revisao` e conversão em percentuais.
2. Listagem nominal das fichas fora de `revisado_ok`, com o conteúdo do campo `campos_a_revisar_lista`.
3. Contagem, por status, dos campos citados em `campos_a_revisar_lista` — para saber *o que* ainda pesa e *quantas* fichas cada campo atinge.
4. Cruzamento das fichas com campos "não-triviais" (fora do trio `datacao_estimada` + `datacao_fonte` + `predominancia`) com os apontamentos das abas `contradicoes`, `paginas_vagas` e `casos_individuais` de `site/data/apontamentos.json`, para identificar de onde vem a pendência.

## Resultado

**Distribuição por `status_revisao` (N = 115):**

| Status                | Fichas | %      |
|-----------------------|-------:|-------:|
| `revisado_ok`         | 101    | 87,8 % |
| `revisado_corrigido`  | 7      | 6,1 %  |
| `pendente`            | 7      | 6,1 %  |
| `em_revisao`          | 0      | 0 %    |

Nenhuma ficha aparece em outro status; a variável está saneada.

**As 7 fichas `pendente`:**

| Código        | Caixa | Tipo                          | `datacao_estimada` | `predominancia` | `campos_a_revisar_lista`                              |
|---------------|:----:|--------------------------------|--------------------|-----------------|-------------------------------------------------------|
| WR-CAD-004    | 1    | Bloco de Anotações             | 1983               | profissional    | datacao_estimada; datacao_fonte; predominancia         |
| WR-CAD-039    | 5    | Caderno A5                     | 1986               | profissional    | datacao_estimada; datacao_fonte; predominancia         |
| WR-CAD-043    | 5    | Caderno A5                     | [em branco]        | misto           | datacao_estimada; datacao_fonte; predominancia         |
| WR-CAD-057    | 7    | Bloco                          | [em branco]        | profissional    | datacao_estimada; datacao_fonte; predominancia         |
| WR-CAD-060    | 7    | Bloco                          | [em branco]        | profissional    | datacao_estimada; datacao_fonte; predominancia         |
| WR-CAD-062    | 7    | caderno A5                     | 1986               | misto           | datacao_estimada; datacao_fonte; predominancia         |
| WR-CAD-105    | 20   | caderno grande folhas soltas   | [em branco]        | profissional    | datacao_estimada; datacao_fonte; predominancia         |

Nas 7 pendentes, o único conteúdo listado como *a revisar* é o trio inferido pela IA (datação, fonte da datação, predominância) — ou seja, faltam as decisões da pesquisadora sobre inferências automáticas, não faltam campos da ficha original.

**As 7 fichas `revisado_corrigido`:** WR-CAD-013, WR-CAD-019, WR-CAD-027, WR-CAD-097, WR-CAD-098, WR-CAD-102, WR-CAD-115. Todas trazem o mesmo trio (datação + predominância) na lista de campos; a WR-CAD-019 acrescenta `checkboxes_verso`.

**O que aparece em `campos_a_revisar_lista` no acervo inteiro (N = 115, todas as fichas trazem algo):**

| Campo apontado                | Frequência (fichas) |
|-------------------------------|--------------------:|
| datacao_estimada              | 115                 |
| datacao_fonte                 | 115                 |
| predominancia                 | 114                 |
| paginas_escritas              | 7                   |
| prof_reflexoes_museologia     | 3                   |
| prof_planos_aula              | 2                   |
| epist_esbocos_cartas          | 2                   |
| cult_desenhos                 | 1                   |
| cult_poemas                   | 1                   |
| checkboxes_verso              | 1                   |
| data_consulta                 | 1                   |
| caixa                         | 1                   |
| outros_domestica              | 1                   |
| codigo                        | 1                   |

**Fichas com pendências "não-triviais"** (algo além do trio datação+predominância): **20 no total** — 19 estão em `revisado_ok` e 1 em `revisado_corrigido` (WR-CAD-019). Ou seja, mesmo as fichas já marcadas como revisadas trazem microapontamentos que a Renata pode querer varrer:

- **Contradições categoria × observação** (13 cadernos, aba `contradicoes` dos apontamentos): WR-CAD-015, 044, 047, 054, 058, 061, 064, 066, 067, 068, 084, 086, 091.
- **Páginas escritas vagas** (7 cadernos apontados aqui): WR-CAD-042, 044, 047, 066, 084, 086, 112.
- **Casos individuais isolados** (WR-CAD-035 data_consulta; WR-CAD-070 caixa; WR-CAD-077 outros_domestica; WR-CAD-113 codigo; WR-CAD-019 checkboxes_verso).

## Leitura interpretativa

O quadro é de banco quase fechado: 87,8 % das fichas passaram na primeira revisão (`revisado_ok`), 6,1 % foram corrigidas na rodada 1 e 6,1 % ainda esperam decisão. Nenhuma ficha está oficialmente em fase intermediária (`em_revisao` = 0), o que sugere que o fluxo aqui é binário — ou a revisora liberou, ou marcou como corrigida, ou deixou pendente.

O padrão das 7 pendentes é uniforme: todas apontam **exatamente o mesmo trio de campos** (`datacao_estimada` + `datacao_fonte` + `predominancia`). Isso é significativo. Não são fichas mal preenchidas — são fichas cuja *inferência automática* ainda aguarda validação da pesquisadora. Três dessas pendentes já têm data proposta pela IA (WR-CAD-004 = 1983, WR-CAD-039 = 1986, WR-CAD-062 = 1986); as outras quatro trazem `[em branco]`, ou seja, a própria ficha não deu pista temporal. A distinção importa para o Bloco B: as três com data proposta podem migrar para o corpus datado assim que a Renata bater o martelo; as quatro sem pista continuam órfãs.

O achado incômodo é o segundo. **Todas as 115 fichas trazem ao menos um item em `campos_a_revisar_lista`** — sempre o trio datação + predominância. Isso quer dizer que o campo `campos_a_revisar_lista` não distingue "ainda a revisar" de "já revisto", pelo menos para esses três eixos. Para saber onde de fato falta olhar, o filtro útil é o `status_revisao` (as 7 pendentes) somado às 20 fichas com pendências *não-triviais* (13 contradições categoria × observação + 7 páginas vagas + casos isolados). Essas 20 são o segundo alvo de revisão dirigida antes de fechar o banco.

Para a hipótese da tese (concentração nos 1980, distinção prof×pessoal, recorrências), a implicação prática é direta: **os 3 campos-gargalo do banco são justamente os dois pilares mensuráveis da hipótese** — datação e predominância. Enquanto as 7 fichas pendentes não decidirem, os totais dos Blocos B (cronologia) e C (modalidade) permanecem provisórios em ~6 % do corpus. O impacto quantitativo é pequeno, mas afeta o discurso "N = 74 datados / N = 41 sem pista" registrado em ANALISE.md §2.

## Limites e cavalos-de-Troia

- Este relatório lê **rótulos de fluxo de trabalho**, não conteúdo das fichas. "Revisado_ok" só significa que a revisora não sinalizou; não implica que a ficha esteja empiricamente correta.
- O campo `campos_a_revisar_lista` é ruído para o trio datação+predominância (aparece em 115/115). Foi lido como não-informativo nesse recorte e informativo apenas para os campos-extras.
- Não sei se as 7 `revisado_corrigido` ainda têm resíduo aberto ou se o "corrigido" já resolveu tudo — o próprio dado sugere que o trio permanece listado mesmo depois da correção, portanto o rótulo não distingue "corrigido e fechado" de "corrigido mas em espera".
- N pequeno (7 + 7 + 20). Todas as porcentagens têm intervalo amplo de incerteza; leia-as como ordem de grandeza.

## Evidência primária

Pendentes: WR-CAD-004, WR-CAD-039, WR-CAD-043, WR-CAD-057, WR-CAD-060, WR-CAD-062, WR-CAD-105.
Corrigidas na rodada 1: WR-CAD-013, WR-CAD-019, WR-CAD-027, WR-CAD-097, WR-CAD-098, WR-CAD-102, WR-CAD-115.
Fichas `revisado_ok` com pendência não-trivial (amostra): WR-CAD-015 (contradição `cult_desenhos`), WR-CAD-035 (`data_consulta`), WR-CAD-066 (contradição + `paginas_escritas`), WR-CAD-070 (`caixa`), WR-CAD-113 (`codigo`).

## Sugestões de aprofundamento

1. **Fechar as 7 pendentes primeiro.** Três delas (004, 039, 062) só precisam de "sim, aceito 1983/1986"; as outras quatro (043, 057, 060, 105) precisam de decisão sobre "sem datação estimada mesmo" — insumo direto para B-03 (perfil dos não datados).
2. **Rever a semântica de `campos_a_revisar_lista`.** Hoje o campo aparece igual em fichas fechadas e abertas; convém, na próxima rodada, esvaziá-lo quando a decisão for tomada, ou separar em `pendencias_automaticas` (o trio inferido) vs. `pendencias_humanas` (o que a revisora ainda quer olhar).
3. **Varrer as 20 fichas com campos-extras** (13 contradições + 7 páginas vagas + isolados). Não bloqueiam o fechamento, mas são o segundo lote para uma rodada de checagem visual antes de congelar o banco.
4. **Confirmar se `checkboxes_verso` da WR-CAD-019** já foi de fato resolvido, dado que a ficha aparece como `revisado_corrigido` mas ainda cita o campo.
