Dicționarul de frecvență al clădirii naționale a limbii ruse

DESCĂRCARE FREZATĂ
Cazul național al limbii ruse: concepția și tehnologia creației

DICTIONARUL FREQUENȚILOR CORPULUI NAȚIONAL RUSU: PRINCIPII ȘI TEHNOLOGIE







Dicționarul conține un vocabular reprezentativ de bază al limbii ruse moderne (a 2-a jumătate a XX - începutul secolului XXI.) A furnizat informații privind frecvența de utilizare, distribuția statistică a textelor și genuri, privind stabilirea textelor. Dicționarul se bazează pe texte de rusul volumul National Corpus de 100 de milioane. Discursul.

Tabel. 1. Stilurile funcționale ale subcorpului limbii ruse moderne

2. Dimensiunea cazului și fiabilitatea prelevării de probe

Dicționar de frecvență existent al limbii ruse au fost construite în carcase relativ mici: prima generație de computere să nu funcționeze cu o carcasă mai mare. Interesant, recomandarea teoretică dezvoltată în anii 1970 (Piotrowsk et al. 1972), de asemenea, a demonstrat că, pentru fiabile descriere 1600-1700 cea mai frecventă dimensiune cuvânt suficient pentru a folosi corpul 400 mii. Jetoane. Acest argument a fost bazat pe noțiunea de intervalul de încredere, care este utilizat pe scară largă în statistici și sociologie: dacă știm mărimea eșantionului și probabilitatea experimentală a unui eveniment în eșantion (de exemplu, frecvența cazul nostru cuvântul), putem calcula intervalul de încredere al probabilității acestui eveniment în întreaga UE populație (de exemplu, frecvența de utilizare a aceluiași cuvânt în întregul spațiu al limbii).

Tabel. 2: Compararea frecvenței cuvintelor individuale (medie pe milion de cuvinte).

După cum puteți vedea, recomandările teoretice privind dimensiunea suficientă a corpului în acest caz nu sunt foarte fiabile. Motivul pentru aceasta constă în ipotezele inițiale privind distribuția normală de frecvență Gaussian de cuvinte, în care fiecare cuvânt apare cu aceeași frecvență în toate textele. În cazul în care cuvântul este întâlnit în text o dată, atunci în cadrul distribuției normale acest lucru nu afectează probabilitatea de utilizare acolo a doua oară. Dar, în realitate, nu este așa. Fiecare text are o temă proprie, ale cărei cuvinte din acest text vor fi folosite mult mai des decât media. Textul despre hobbiți pitică cuvântul va fi folosit la fel de des cât mai multe cuvinte auxiliare, care va crește în mod semnificativ frecvența sa în organism, care va include cel puțin un astfel de text [1]. Ca urmare, lista de frecvență, construită pe baza corpului, reflectă specificitatea textelor care au venit să-l în elaborarea acestuia.


unde # 956; - frecvența medie a cuvântului în întreg corpul, # 963; - deviația standard a acestei frecvențe pe documente individuale, n - numărul de documente în care are loc acest cuvânt.

Valoarea D în cuvinte, în cele mai multe documente, aproape de 100, în timp ce cuvintele sunt adesea întâlnite doar într-un număr mic de documente aproape de 0. Frecvența Lenngrena chiar și lista de vocabular este sortată de valoarea acestui produs asupra coeficientului mediu de frecvența cuvintelor. Datorită faptului că statutul teoretic al acestei lucrări este neclar, nu considerăm că este recomandabil să sortați vocabularul nostru pentru ea. Cu toate acestea, indicarea acesteia pentru fiecare cuvânt face posibilă evaluarea modului în care este specifică pentru fiecare subiect. De exemplu, cuvintele eerie specifice și intermediari de sinteză sunt aproximativ egale cu frecvența (21 consumul per milion de cuvinte), dar raportul D într-un anumit - 66, ca materie primă - 18, în timp ce eerie - 78, ceea ce înseamnă că ultimul cuvânt este semnificativ pentru un număr mai mare de domenii de subiect și (cu alte lucruri egale) are o șansă mare de a fi plasate într-un dicționar nespecializat.

3. Structura dicționarului

Conceptul dicționarului presupune publicarea unei versiuni "pe hârtie" cu o versiune electronică însoțitoare, care reprezintă un dicționar de frecvență în volum mai complet. Partea de dicționare conține următoarele secțiuni:

I. Vocabular general

# 9679; lista alfabetică a lemelor

# 9679; lista de frecvențe a lemelor

# 9679; distribuția lemmaselor prin stiluri funcționale:







Ø frecvența dicționarului de ficțiune,

dicționar de vocabular semnificativ al ficțiunii

Ø Dicționarul de frecvență al jurnalismului,

vocabularul ziarului și al știrilor relevante

Ø Dicționarul de frecvență al altei literaturi non-fictive,

vocabular de vocabular semnificativ

Ø dicționarul frecvenței de vorbire orală live,

dicționar de vocabular semnificativ al vorbirii vii

# 9679; lista alfabetică a formularelor de cuvinte

# 9679; lista de frecvențe a substantivelor

# 9679; lista de frecvențe a verbelor

# 9679; lista de frecvențe de adjective

# 9679; lista de frecvențe de adverbe și predicate

# 9679; lista de frecvențe a pronumelor (pronume-substantive, adjective, adverbe, predicate)

# 9679; lista de frecvențe a lemmei din părțile oficiale de vorbire

III. Tabele auxiliare

# 9679; date privind frecvența claselor cu jumătate de normă și alte informații statistice

IV. Numele propriu și abrevieri

# 9679; lista alfabetică a lemelor

În lista alfabetică a leme este numele Lema, partea de vorbire, frecvența generală a Lema, numărul de documente în care ea sa întâlnit și coeficientul de variație D. Incidența globală descrie numărul de apariții de un milion de cuvinte organism, sau ipm (cazuri la un milion de cuvinte). Acest lucru se face în scopul de a simplifica compararea frecvenței cuvintelor în diferite clădiri, care pot fi destul de diferite în dimensiune. De exemplu, în cazul în care puterea cuvântului are loc de 55 de ori, în funcție de mărimea corpului de 400 de mii. Cuvinte 364 ori într-un milion de locuințe și 40598 de ori pe o sută de caz milionime de limba rusă modernă și 55673 ori într-o mare de 135-millio¬nnom corp NKRYA, frecvența în ipm va fi 137.5, 364.0, 372.06 și 412.39, respectiv. Lista alfabetică electronice de publicare include 60 000 de leme cele mai frecvente.

În lista de leme, ordonate în funcție de frecvență, cu un nume de Lema, partea de vorbire, frecvența generală a Lema, numărul de documente, coeficientul D și frecvența de distribuție de zeci de ani. Lista frecvențelor include 20 000 de lemne cele mai frecvente.

Dicționarele de frecvență ale stilurilor funcționale se fac pe baza subcorpselor de ficțiune, jurnalism, altă literatură non-ficțiune și vorbire orală. Lista cuprinde 5 000 de lemne cele mai frecvente ale acestor subcorpi. O listă a celor mai tipice lemne pentru fiecare tip de text a fost evidențiată pe baza unei comparații a frecvenței lemelor în astfel de texte și în restul corpului. Ca metric comparativ, a fost utilizat criteriul raportului probabilității (log-probabilitate), calculat pe baza următoarei matrice:

Dicționarele vocabularului relevant pentru diferite stiluri funcționale includ 500 lemmas fiecare.

Lista alfabetică a formularelor de cuvinte include toate formularele de cuvinte ale cazului cu o frecvență mai mare de 0,1 ipm (doar aproximativ 15 mii); frecvența totală a formei cuvântului este dată. Formulele de cuvinte omogene sunt marcate cu *.

În secțiunea „Părți de vorbire“ listă frecvența leme este împărțită în șase sub-liste: substantive, verbe, adjective, adverbe și predicatives, pronumele și piese auxiliare de vorbire. Pentru fiecare Lema conține frecvența generală și gradul (număr) în listă. Fiecare listă conține 1 mie dintre cele mai frecvente lemne.

Pentru o listă a numelor proprii și abrevierile de locuințe au fost identificate concordanță substantive și contracții, scrierea textelor, care, cu un capital de peste 95 la suta prag, Miercuri Rusia, Smirnov, Centrala electrică regională de stat, Ministerul Afacerilor Externe, Codul Muncii. [2] O parte nucleară a acestei liste, care numără 3.000 de unități cele mai frecvente, este inclusă în dicționar.

Conform tradiției stabilite pentru astfel de publicații pe paginile dicționarului prezinta rubrica „Fun Facts“: listele publicate de cele mai populare cuvinte ale diferitelor grupuri lexicale (zile ale săptămânii, vremea, culori, verbe de mișcare, etc.), precum și cele mai lungi forme de cuvinte și o listă de frecvențe cu semne de punctuație.

Tabel. 3: Lista frecvențelor de îmbrăcăminte și încălțăminte.

Ca un exemplu, în tabelul 3 se prezintă frecvența substantivelor denotând îmbrăcăminte și încălțăminte. Așa cum s-ar putea fi de așteptat, lista reflectă, pe de o parte, elementul „tipic“ al dulapului (cizme ocupă doar locul 26 în listă), iar pe de altă parte, „importanța“ lor pentru a descrie apariția unei persoane în text (costum - lucru mai perceptiv izolat decât pantofi).

4. Pregătirea vocabularului

limba rusă ca limbă cu inflexiune bogat creează dificultăți suplimentare în dicționarul preparatori de frecvență, cât mai multe cuvinte-forme în texte omonime (Mie forme flexionare apartinand a început ca o formă a verbului a deveni un oțel substantiv. sintactic Wordform forma flexionara banca. Reprezentarea Lema Bank și Banca. Cuvinte ca credință și credința) . Cu toate acestea, în frecvență dicționar forma originală a cuvântului sau lema, trebuie să fie atribuită oricărui cuvânt formă este unic.

Deoarece rezoluția automată a omonime și interpretarea formelor non dicționar permit unele, deși mici, eroare, omonime aparținând primelor 20.000 de cuvinte de frecvență, au fost supuse inspecției manuale suplimentare.

Vinogradov V.V. (nota editorului). Dicționar de limbă a lui Pushkin. T. I - IV. M. 1956-1961.

Zasorina L.N. (Eds.). Dicționarul de frecvență al limbii ruse. Moscova: limba rusă. 1977.

Piotrovsky R.G. Bektayev K.B. Piotrovskaya A.A. Lingvistică matematică. M. Liceu. 1972.

Stepanova E.M. Dicționarul de frecvență al vocabularului științific general. M. 1976.

Steinfeld E.A. Dicționarul de frecvență al limbii literare moderne ruse. Tallinn. 1963.

Josselson H.H. Numărul de cuvinte din limba rusă și analiza frecvențelor gramaticale. Detroit: Wayne University Press, 1953.

Juilland A. Brodin D. Davidovitch C. Dicționarul de frecvență al cuvintelor franceze. Haga - Paris: Mouton, 1970.

[2] Notați mai ales că adjective precum Hristov, Petin, Kostroma / Kostroma aparțin vocabularului general.







Articole similare

Trimiteți-le prietenilor: