De ce aveți nevoie de o clădire națională

Cum se dezvoltă Corpul Național?

Rus Corpus Național acoperă în principal perioada de la mijlocul XVIII la începutul secolului XXI: această perioadă este modul în care limba de epocile anterioare, și modern, în diferite variante socio-lingvistice - literare, colocvial, vernaculară, parțial dialect. Șasiul include original (netradus) operă literară (proză și teatru, în continuare, de asemenea, poezie) având semnificație culturală, și, de asemenea, de interes în ceea ce privește limba. Dar Corpul Național nu este în nici un caz doar corpul limbii fictive. În plus față de texte literare în organism în cantități mari includ alte exemple de scris (și stadiul actual - și vorbit) limba: memorii, eseuri, jurnalism, știință populară și literatura științifică, discursuri publice, corespondență privată, jurnale, documente și așa mai departe. n.







Corpul Național al limbii ruse include în prezent următoarele subcore:

organism adânc adnotat. în care pentru fiecare propoziție este construită o structură morfologică și sintactică completă (un arbore al dependențelor);

paralel rus-engleză corpus de texte. În care puteți găsi toate traducerile pentru un anumit cuvânt sau expresie rusă sau engleză;

corp de texte dialect. inclusiv înregistrarea discursului dialect al diferitelor regiuni ale Rusiei, cu păstrarea specificelor lor gramaticale; există o căutare specială ținând cont de morfologia dialectală;

corpus de texte poetice. care pot căuta nu numai prin lexicale și gramaticale, dar, de asemenea, cu privire la caracteristicile specifice ale liniei (căutare în anumite combinații sonet în epigrame, un poem scris amfibrah, cu un anumit tip de rima, etc ...);

clădirea didactică a limbii ruse este un corp cu omonimia îndepărtată, a cărei marcare este orientată spre curriculumul școlar al limbii ruse;

Fiecărui cuvânt și fiecărui text din Corpus i se atribuie o adnotare lingvistică pe baza unui standard special elaborat cu participarea specialiștilor ruși.

În opinia membrului corespondent al Academiei de Științe din Rusia, A.M. Director al Institutului de limbă rusă. VVVinogradov RAS, "crearea Corpului Național al limbii rusești este o sarcină cu adevărat națională, deoarece majoritatea limbilor importante ale lumii au deja propriul lor corpus național de texte. Soluția acestei probleme compensează lacuna în lingvistica rusă și traduce studiul și predarea limbii ruse în condiții calitativ noi. Fără exagerare, putem spune că, odată cu apariția Corpului, pentru prima dată primim o bază materială pentru judecăți obiective și fiabile cu privire la starea actuală și la modalitățile de dezvoltare a limbii ruse ".

Corpul este destinat oricui este interesat de probleme legate de limba rusă: lingviști profesioniști, profesori de limbi străine, elevi și studenți, străini care studiază limba rusă.

"Am participat la acest proiect cu placere", spune Ilya Segalovich, director tehnic al Yandex. "Un corpus adnotat gramatic este nu numai o modalitate de a învăța limba, ci și un instrument public important pentru crearea și personalizarea instrumentelor software care funcționează cu textele rusești".

Postat pe acest site National Corpus al limbii literare ruse concepută ca un instrument universal, care asigură o funcționare mai eficientă a tuturor celor implicați în cursul activităților lor cu limba modernă literară rusă sau interesat doar de starea și funcționarea limbii. Incinta trebuie să se alăture familiei organismelor naționale existente ale altor limbi - cum ar fi National Corpus britanic, American National Corpus, Tresor de la langue Francaise și colab.







Limba Corpus - o colecție de un anumit mod de Selectat (sprijinit de expertiza filologica) a textelor în această limbă, care a intrat într-un calculator și stocate în format electronic, potrivit pentru căutarea acelor,, unități stilistice gramaticale lexicale și evenimente de interes pentru utilizator.

Clădirea națională este o clădire care oferă cea mai completă reflecție a vocabularului și gramaticii limbii. Corpul Național al limbii literare ruse reflectă folosirea cuvintelor, formularelor de cuvinte, a construcțiilor gramatice, a combinațiilor de cuvinte ale limbii literare ruse, de la mijlocul secolului al XX-lea. și până în prezent. Completitudinea corpului se realizează atunci când absența în el a unui cuvânt, a unei forme de cuvânt, a unei construcții gramaticale, a unei combinații de cuvinte mai mult sau mai puțin stabile înseamnă că aceste unități sau fenomene:

sunt o greșeală, o utilizare abuzivă;

Ele sunt un anacronism, folosit în mod evident învechit;

nu sunt asimilate (adică nu sunt încă incluse în limba rusă)

Obiectivele și obiectivele Corpului:

să servească drept o sursă sigură de material factual pentru compilarea dicționarelor, gramatiilor, manualelor, cărților de referință;

pentru a asigura posibilitatea testarii ipotezelor lingvistice pe cel mai reprezentativ material;

Să servească drept instrument de referință pentru clarificarea întrebărilor despre utilizarea literaturii contemporane ruse, adică pentru a servi ca asistent eficient pentru toți cei care lucrează cu cuvântul (lingviști, critici literari, jurnaliști, scriitori, traducători, profesori de limbă rusă etc.);

Pentru a servi drept bază pentru modelarea pe calculator a activității de vorbire.

Căutarea în Corpul Național al limbii literare rusești este asigurată de un program special care permite:

pentru a detecta orice cuvânt dat (forma de cuvânt) în toate textele sau textele specific stipulate;

dacă este necesar, să furnizeze statistici privind utilizarea cuvântului (forma de cuvânt) în general sau în anumite texte, contexte etc.

stabili concordanțe - cuvintele și expresiile folosite împreună cu un cuvânt dat (formă de cuvânt, combinație de cuvinte);

pentru a afla toate caracteristicile statistice ale vocabularului și gramaticii limbii (de exemplu, pentru a stabili de câte ori în textele lui Leo Tolstoi, incluse în structura Corpului, cuvântul femeie în cazul acuzativ);

Pe baza Corpului, a fost creat un dicționar (de frecvență) al formularelor de cuvinte rusești. Toate formele de cuvinte ale Corpului și ale dicționarului, fără excepție, sunt furnizate cu un set de descriptori morfologici care creează o marcare morfologică a dicționarului și a textului.

Un descriptor morfologic este un litter cu o formă de text a unui text sau a unui dicționar care indică caracteristica gramaticală (morfologică) corespunzătoare cuvântului, de exemplu, sg. și anume "Singurul număr". Toți descriptorii morfologici au forma abrevierilor de 2-4 litere, produse din termenii englezi corespunzători. Pentru formularele de cuvinte care aparțin unei anumite părți a discursului, setul de descriptori utilizați pentru a caracteriza forma cuvântului este un set de compoziție constantă. De exemplu, deși verbele în prezent / viitor tensionată nu are o formă de soiuri, atunci când au pus așternut „0“ în poziția corespunzătoare a descriptorului, cât și pentru „0“ a verbe la trecut este plasat în poziția de tărgi „față“. Secvența de utilizare a simbolurilor corespunzătoare descriptorilor este, de asemenea, întotdeauna aceeași. Dacă descriptorul este incompatibil cu această formă de cuvinte, poziția sa în lista descriptorilor liniare este înlocuită cu "zero".

Marcajul morfologic este o atribuire pentru fiecare cuvânt (fiecare formă de cuvânt) în dicționar și în textul unui set de descriptori morfologici. Formele de cuvânt identice morfologic au seturi identice de descriptori morfologici. În viitor, se propune introducerea marcajului sintactic.

Sintaxa de marcare - o structură sintactică reflectare a sentinței în textele de, de exemplu, atribuind fiecare frază sau cuvânt forma funcției lor în ceea ce privește o sintaxă ales teoria sintactică (de exemplu, 1 a 2 actant etc pentru forme de cuvinte nominale actant și suplimente) .

Frecvența cuvântului este un index special, care este scris în dicționar pentru fiecare formular de cuvinte, indicând frecvența utilizării acestei forme de cuvinte în textele Corpus.

Corpul național al limbii literare rusești este conceput ca o serie de texte adnotate morfologic prezentate în formă electronică în limba literară rusă.

Prezența Corpului Național al limbii ruse literare - o condiție prealabilă pentru crearea de noi gramaticii academice și de vocabular academic al limbii ruse, care ar servi drept bază pentru dezvoltarea unei familii de gramatici și dicționare de diferite orientări, inclusiv școlii, precum și o varietate de manuale și manuale. Corpus Național al limbii literare ruse poate servi ca un instrument pentru cercetătorii care lucrează în domeniul gramaticii, lexicologie, lingvistică aplicată, tipologia cu includerea limbii ruse ca obiect de studiu. Corpul va fi, de asemenea, o sursă valoroasă de informații pentru profesioniștii din domeniul mass-mediei și a celor ale căror activități profesionale necesită "sprijin lingvistic".







Articole similare

Trimiteți-le prietenilor: