Hapax legomena
In lingvistica si stilometrie, hapax legomena sunt cuvintele care apar o singura data intr-un text.
Termenul vine din greaca veche: hapax (o singura data) + legomenon (ceea ce este spus). Este pluralul lui hapax legomenon si desemneaza acele cuvinte unice, irepetabile in cadrul unei opere sau corpus.
Frecventa hapaxurilor ofera o perspectiva clara asupra:
Bogatiei lexicale
Originalitatii vocabularului
Gradului de repetitie sau redundanta
Stilului autorului (formal vs creativ, tehnic vs literar)
In analiza stilometrica, hapaxurile functioneaza ca un fel de „amprenta lexicala”, cu cat un autor foloseste mai multe cuvinte o singura data, cu atat scriitura sa este mai variata, mai putin repetitiva.
Modalitati de masurare
Exista mai multe moduri de a folosi hapaxurile in analiza:
1. Numararea simpla
Cate cuvinte apar o singura data intr-un anumit text? (ex: 182 hapaxuri)
Este o valoare absoluta, utila doar in raport cu dimensiunea textului.
2. Raport hapax / token
Arata cat de "rare" sunt cuvintele in fluxul general al textului. Este influentat puternic de lungimea textului.
3. Raport hapax / tipuri
Arata ce procent din vocabular este folosit o singura data. Este independent de lungimea textului si reflecta fidel varietatea lexicala. Acesta este scorul pe care il folosim aici.
4. Indexul Honore (R)
N
= total cuvinte (tokens)V
= cuvinte unice (types)V₁
= hapaxuri
Este o formula mai complexa care combina raritatea cu lungimea textului. Valorile pot varia foarte mult si sunt mai greu de interpretat intuitiv.
De ce am ales raportul hapax/tipuri (hapax-to-types)?
Este usor de interpretat (valori intre 0 si 100)
Este stabil, nu “explodeaza” in functie de lungime
Ofera o masura clara a diversitatii vocabularului
Permite comparatii directe intre texte de dimensiuni diferite
Exemple interpretative:
Hapax (%) · Interpretare
sub 40% · Text repetitiv, formal, sablonat
50–60% · Echilibru intre varietate si coerenta
65–75% · Vocabular divers, stil personal
peste 75% · Explorator, poetic, stil liber
Exista multe alte variante in care hapax legomena ar putea fi folosite pentru analiza, de exemplu se poate urmari in ce parte a textului apar mai frecvent, in introducere, in concluzie etc sau se poate masura distributia lor statistica (au o distributie uniforma, sunt aleatorii?) dar pentru scopul lor de aici, al unei informari generale si intuitive procentul de cuvinte care apar o singura data din totalul cuvintelor unice este suficient.