# Análise D-02 — Termos mais recorrentes em observações

## Pergunta
Que palavras, nomes e temas aparecem nas observações de vários cadernos e podem
servir de insumo para o vocabulário de tags?

## Hipótese esperada (antes de rodar)
Nomes próprios (colaboradores, alunos, familiares), lugares (IEB, ECA, museus),
termos técnicos ("museologia", "curadoria") e marcadores temporais/formativos
("aula", "curso", "viagem", "doutorado") apareceriam com força.

## Método
- Fonte por caderno: `observacoes` + `outros_*` (8 subcampos) + `anotacoes_avulsas`
  de `site/data/banco.json`.
- Pré-processamento: remoção de marcadores editoriais (`[em branco]`, `[revisor]`,
  `[ilegível]`), de datas `dd/mm/aaaa` e de referências de página (`pág 46`, `p. 50`).
- Tokenização: split por `/[^\p{L}\p{N}]+/u`; descarte de tokens com <3 caracteres
  e de números puros.
- Stopwords: ~180 formas do português brasileiro (artigos, pronomes, verbos
  frequentes, meses) mais ~30 termos meta-descritivos usados pela pesquisadora
  ("página", "escreve", "parece", "primeira", "letra", "grafia", "capa"), que
  não são conteúdo do caderno.
- Normalização: lowercase + sem acentos apenas como chave; exibição preserva
  o original.
- Contagem por caderno (não por ocorrência bruta). Corte: unigramas em ≥5
  cadernos; bigramas e tokens capitalizados em ≥2.
- Complemento: busca dirigida por termos-hipótese (IEB, USP, ECA, doutorado,
  mestrado, Rossini, etc.) para checar se a tokenização deixou algo passar.
- Cobertura: **107 / 115** fichas têm texto livre com conteúdo além de
  `[em branco]`.
- Agrupamento manual em três famílias (**Pessoas**, **Lugares**, **Temas**)
  a partir do contexto de cada termo.

Script: `analises/_d02_termos.js`. Ranking bruto: `analises/_d02_data.json`.

## Resultado

### Cobertura e escala

| Fichas com texto livre significativo | 107 / 115 (93%) |
|---|---|
| Unigramas em ≥5 cadernos | 13 termos |
| Bigramas em ≥2 cadernos | 4 termos |
| Tokens capitalizados em ≥2 cadernos | 18 formas |

A escala é modesta: as observações são curtas, descritivas e concentradas em
convenções da pesquisadora ("Anotações de terceiros", "primeira página", etc.).
Poucos termos passam do limiar de 5 cadernos distintos.

### Tabela 1 — Pessoas

| Termo | N cadernos | Exemplos WR-CAD-NNN | Nota contextual |
|---|---|---|---|
| Waldisa | 18 | 003, 006, 009, 015, 016, 019, 024, 025, 026, 071, 085, 086, 093, 094, 096, 099, 106, 107 | A pesquisadora usa o primeiro nome para dizer "Waldisa escreve", "Waldisa começa"; não é um nome citado dentro do caderno, é o sujeito da observação. |
| Rossini | 2 | 083, 087 | Em 083: "Ela faz um desenho com seu nome do de 'Rossini' seu marido". Em 087: "Há Rossini no domingo". |
| "secretário(a)" (categoria) | 2 | 085, 114 | 085 aponta letra de um(a) secretário(a) junto com Waldisa; 114 fala de "resumo de palestra de Oswaldo P... (secretário do Estado)". |
| "terceiros" (categoria) | 25 | 002, 003, 005, 008, 009, 010, 013, 019, 020, 033, 045, 049, 067, 085, 091, 111 (entre outros) | Não é um nome — é a convenção descritiva da pesquisadora para páginas escritas por outra pessoa. Reportado aqui como *pessoa-função*, não como nome. |

Observação metodológica importante: **quase nenhum nome próprio de terceiro se
repete em ≥3 fichas**. Nomes citados dentro dos cadernos (Oswaldo P..., a
possível "banca" em 008, o autor da "homenagem a Waldisa Russio Camargo
Guarnieri" em 071) aparecem uma única vez cada. O acervo de nomes é largo
mas raso: muitos hápax legómena, poucos nomes recorrentes. Isso é um achado
em si.

### Tabela 2 — Lugares

| Termo | N cadernos | Exemplos WR-CAD-NNN | Nota contextual |
|---|---|---|---|
| São Paulo / S. Paulo | 4 | 001, 061, 071, 086 | "Banco do Estado de S. Paulo" (agenda-suporte, 001); "escola de sociologia e política de são Paulo" (061); "Mus. Ind. Com. e Tec. do Estado de S. Paulo" (086); "São Paulo, 11 de junho, de 1991" (071, homenagem). |
| México | 2 | 002, 077 | 002: anotação de terceiro em espanhol menciona México (novembro/60); 077: "Pág 41: México, 14/06/1979". |
| China | 2 | 003, 037 | 003: "China International Book Trading Corporation"; 037: pergunta sobre a "construção" e operários chineses. |
| União Soviética | 1 | 003 | Só uma ficha, mas ilustra o gesto internacional; não passa o corte. |
| Lisboa / Budapeste / Boston / Manhattan / London / Wembley | 1 cada | 052, 064, 038, 034, 064, 042 | Nenhum lugar externo aparece em mais de uma ficha; a materialidade "viagem" é sinalizada por *objetos* (ticket, adesivo, carta de hotel) mais do que por topônimos repetidos. |
| Lima (Peru) | 1 | 111 | "Diário de Lima (01/08/80)" — único caso de uma cidade estrangeira nomeando um caderno inteiro. |
| Instituições nomeadas nas fichas | — | — | **Não se encontrou IEB, USP nem ECA como palavras isoladas em nenhuma observação.** Esse achado é contraintuitivo à hipótese e vale reportar. |

### Tabela 3 — Temas

| Termo | N cadernos | Exemplos WR-CAD-NNN | Nota contextual |
|---|---|---|---|
| museu / museus | 8 (uni) | 032, 038, 045, 067, 070, 077, 091, 108 | Aparece em contextos de estudo ("estudando sobre museus", 070), plano ("planos p/ museus", 091), documento ("cartão do museu da indústria e comércio e tecnologia de SP", 045) e recorte de jornal ("Item museu", 032). |
| museologia / museológic\* | 6 | 029, 068, 073, 093, 096, 108 | Inclui "museologia — mestrado" (068), "reflete sobre museologia" (096), "proposta museológica para o Museu Memória do Bixiga" (108), "pessoas interessadas na pós de museologia" (029). |
| aula(s) | 8 | 052, 054, 066, 067, 076, 079, 088, 091 | "planos de aula" (054, 076, 091); "1ª aula" (067); "Aula de 12.04.80" (079); "aula sobre o 'fato museológico'" (052). |
| curso | 6 | 006, 017, 041, 068, 093, 103 | Cursos vistos (Osvaldo Cruz, 006; história, 041; direito, 103) e cursos planejados/dados (curso interno, 017; curso de museologia, 068 e 093). |
| agenda | 10 | 001, 009, 031, 033, 034, 049, 085, 096, 099, 112 | Suporte material recorrente. Ver especialmente 031 ("Agenda executiva sênior — 1984"), 112 ("A Agenda com MAIS RELATOS PESSOAIS", 1986) e 096 ("Waldisa utiliza esta agenda mais como um caderno em que parece que estuda"). |
| francês (idioma) | 11 | 010, 013, 025, 054, 077, 089, 093, 096, 106, 107, 115 | Frequência alta e distribuída: francês como idioma de escrita (025, 054, 106, 115), como idioma de conferência (013) e como idioma de material anexado (010, 089). É um dos marcadores mais robustos do acervo. |
| espanhol (idioma) | 3 | 002, 081, 093 | Idioma de anotações de terceiros (002) e da própria Waldisa (081, 093). |
| inglês (idioma) | 4 | 046, 056, 069, 092 | 069: "estudando inglês. Há vocabulários e gramática." |
| viagem | 5 | 064, 070, 077, 091, 111 | "relatório de viagem" (070, 091); tickets de viagem, carta de hotel, Budapeste (064); "lista de itens pessoais que ela levara em viagem" (077); "primeiras 3 páginas são relatos da viagem" (111). |
| citação / citações | 5 | 009, 013, 022, 026, 037 | "citação em francês" (013); "Começa com uma citação sobre um relatório de 1968" (022); "Palestra de Waldisa que parece uma citação: 'Mato ela?'" (009). |
| carta(s) | 4 | 052, 061, 064, 096 | "esboço de uma carta de Lisboa, em maio de 1984" (052); "Carta do Hotel Rege" (064); "faz esboço de cartas" (096). |
| desenho(s) | 4 | 006, 015, 083, 107 | Coocorre com nome do marido em 083 e com estudo de "elétrica, ou iluminação" em 107. |
| pós (pós-graduação / pós-19XX) | 7 (uni) | 029, 073, 074, 076, 081, 093, 096 | Ambivalência importante: em 073, 074, 076 é *marcador de datação* ("Pós-1981", "Pós-83"); em 029, 068, 093 é *pós-graduação em museologia*. A ambiguidade é do próprio uso da pesquisadora. |
| mestrado | 2 | 068, 073 | Só em 068 aparece como conteúdo ("museologia — mestrado"); em 073 é a datação por pós. |
| trabalho | 3 | 031, 054, 106 | "planos de aula e organizações de trabalho" (054); recorrente na categoria `prof_organizacao_trabalho`, o subitem líder do acervo (A-03). |
| memória | 2 | 087, 108 | Nome ambíguo: em 087 é "Memória 79" (título do caderno); em 108 é "Museu Memória do Bixiga". |
| exposição / exposições | 2 | 046, 093 | Em outros_* de 022: "Montagem de exposições" (uma única ficha). |
| conferência | 1 | 013 | Só um caderno cita, mas em contexto forte ("preparação de uma conferência em francês"). |
| palestra | 2 | 009, 114 | 009 (palestra da própria Waldisa); 114 (resumo de palestra de terceiro). |

### Bigramas com ≥2 cadernos (poucos, mas ilustrativos)

- **"planos de aula"** aparece em contextos convergentes em 054, 076, 091.
- **"anotações de terceiros"** / **"anotação de terceiros"** é a fórmula
  descritiva mais recorrente do acervo — não é conteúdo, é convenção da
  ficha (aparece em ao menos 25 cadernos).
- **"curriculum vitae"**: 009, 077 (em francês).
- **"estudando inglês"**: 069, 092.

## Leitura interpretativa

Três achados centrais.

Primeiro, o **vocabulário temático das fichas é enxuto e convergente**: um
punhado de termos — museu/museologia, aula/curso, agenda, francês, viagem,
carta, desenho, citação — cobre a maior parte do que as observações registram.
Isso valida a estrutura do verso da ficha (que já organiza
`prof_reflexoes_museologia`, `prof_planos_aula`, `epist_esbocos_cartas`,
`cult_desenhos`, `cult_citacoes`) e sugere que um vocabulário controlado de
8–12 tags daria conta de quase todo o acervo.

Segundo, o **eixo linguístico é um marcador forte e pouco previsto pela
hipótese inicial**. "Francês" aparece em 11 cadernos, mais do que "museu" ou
"aula" isoladamente — é idioma de escrita reflexiva (025, 054, 106, 115),
de currículo (077) e de conferência (013). Somando espanhol e inglês, chega-se
a 18 cadernos com marca linguística. Vale uma tag específica para *escrita em
segunda língua*.

Terceiro, **nomes próprios praticamente não recorrem entre cadernos**. Além
de "Waldisa" (sujeito da observação, não pessoa citada) e "Rossini" (marido,
2 fichas), nenhum antropônimo passa o corte de 3 cadernos. IEB, USP e ECA
**não aparecem literalmente em nenhuma ficha**; o mais próximo é "escola de
sociologia e política de são Paulo" (061). Isso não significa ausência das
instituições nos cadernos — significa que a pesquisadora não as registrou
nas observações. É um limite da fonte.

O termo "pós" é usado em **dois sentidos** pela pesquisadora: como marca de
datação ("Pós-1981", 073) e como pós-graduação (029). Precisa desambiguação
antes de virar tag.

Termos esperados na hipótese que não apareceram: "curadoria" (0), "doutorado"
(0), "identidade" (0), "reflexão" (0). "Mestrado" só em duas fichas. A
recorrência temática desses eixos vive nas marcações do verso da ficha
(`prof_reflexoes_museologia` tem 47 sims — A-03), não no léxico das
observações.

## Limites e cavalos-de-Troia

- **Fichas ≠ conteúdo dos cadernos.** Este ranking mede o vocabulário da
  *pesquisadora ao descrever a ficha*, não da Waldisa ao escrever. "Waldisa
  aparece em 18 cadernos" quer dizer "a Renata escreveu o primeiro nome dela
  em 18 observações".
- **Nomes próprios de terceiros exigem cuidado.** Reportamos apenas o termo
  e a ficha; não especulamos sobre relação ou vínculo. "Oswaldo P..." (114)
  e "Osvaldo Cruz" (006) provavelmente não são a mesma pessoa.
- **Tokenização é frágil.** Falsos positivos como "eca" em `moqueca` ou "rio"
  em `calendário` só foram controlados com contornos de palavra. Variações
  ortográficas ("museologia" vs. "museológica") podem ter sido tratadas como
  termos diferentes.
- **N pequeno.** Termos com 5 cadernos representam ~4,3% do acervo. Ranking
  é indicativo, não estatístico.
- **Diálogo com D-01 e C-02 é necessário.** Uma tag "museologia" só faz sentido
  se cruzar com o subitem `prof_reflexoes_museologia` — não com menção casual
  da palavra numa ficha.
- **Termos meta-descritivos foram removidos por decisão editorial** ("página",
  "escreve", "primeira", "capa", "grafia", "letra"). Lista revisável no script.

## Evidência primária

- **Museologia / museu / aula**: WR-CAD-029, WR-CAD-054, WR-CAD-067, WR-CAD-068,
  WR-CAD-076, WR-CAD-091, WR-CAD-096, WR-CAD-108.
- **Escrita em francês**: WR-CAD-025, WR-CAD-054, WR-CAD-089, WR-CAD-093,
  WR-CAD-106, WR-CAD-115.
- **Agenda como suporte**: WR-CAD-001, WR-CAD-031, WR-CAD-033, WR-CAD-096,
  WR-CAD-112.
- **Viagem**: WR-CAD-064, WR-CAD-070, WR-CAD-077, WR-CAD-091, WR-CAD-111.
- **Marido/pessoal**: WR-CAD-083, WR-CAD-087, WR-CAD-112.
- **Homenagem / evento externo**: WR-CAD-071 (Homenagem, 1991), WR-CAD-099
  (dedicatória).

## Sugestões de aprofundamento

1. **Insumo para ENRIQUECIMENTO.md**: vocabulário inicial de ~10 tags a propor
   à pesquisadora — `museologia-teoria`, `ensino-aulas`, `curso-planejado`,
   `agenda-suporte`, `escrita-em-frances`, `viagem`, `epistolar`, `desenho`,
   `citacao-cultural`, `pessoal-familia` — com os cadernos-âncora acima.
2. **Desambiguar "pós"**: separar datação-por-inferência (073, 074, 076, 081)
   de pós-graduação em museologia (029, 068, 093).
3. **Cruzar francês × datação**: se as 11 fichas com "francês" se concentram
   nos anos 1980, isso reforça o eixo proto-diarístico (idioma como camada
   de intimidade).
4. **Antropônimos hápax**: lista qualitativa (Osvaldo Cruz, Oswaldo P..., o
   dedicador da homenagem de 071) para revisão caso a caso — rede de
   interlocutores só visível por leitura contextual.
5. **Instituições ausentes**: se IEB/USP/ECA não estão nas observações mas
   estão nos cadernos, vale um sweep manual das fichas com observação mais
   curta.
