Baza de date a morfologiei și a vocabularului rus și englez

Conținutul bazei morfologice

Dicționarul generat conține o alegere a unui lexicon rusesc sau englez, cu paradigme complet deschise ale părților variabile ale discursului sub forma mai multor tabele (a se vedea mai jos).







Pentru limba rusă, lexicul include formulare pentru substantive, adjective, participi, verbe și, de asemenea, grade comparative de adverb.

Pentru limba engleză, lexicul conține forme ale substantivului, adjectivului și adverbului cu un model sintetic pentru formarea de grade, precum și formele verbului.

Fiecare formă de cuvânt din lexicon este însoțită de atribute morfologice: caz, sex, număr, formă, starea de spirit, grad, animație, față și așa mai departe. Nivelele de vorbire neschimbate (prepoziții, conjuncții etc.) sunt de asemenea reprezentate în dicționar printr-un singur formular și o listă de caractere morfologice.

Dicționarul include tezaurul. Include o listă extinsă de sinonime, antonime și cuvinte rădăcină.

Pentru confortul utilizării practice, un lemmatizator este alocat tabelelor separate. O listă de lemne pentru fiecare formă de cuvânt.

Problemele rezolvate folosind dicționarul gramatical

Baza de date morfologică permite rezolvarea unor astfel de sarcini, cum ar fi:

obținerea formei gramatice dorite a cuvântului, adică declenarea substantivelor, a adjectivelor și a participărilor, conjugarea verbelor. obținând forme comparative și excelente de adverbe

lemmatizarea - aducerea cuvântului în forma dicționarului de bază, precum și fundamentarea și alte transformări gramaticale

căutați sinonime. antonime. traduceri, hiperonisme și hiponime. și altele.

selecția cuvintelor prin mască, în special formarea de liste de cuvinte cu un anumit final, etc.

SDMS suportate

Scripturile sunt disponibile pentru formarea bazei de date dicționar într-unul din suporturile DBMS:

MS Access (versiune simplificată a dicționarului)

Accesul software-ului la dicționar

Această variantă a dicționarului de gramatică este o bază de date relațională obișnuită, "clasică", astfel încât instrumentele și interfețele convenabile pentru aplicatorul programator pot fi utilizate pentru accesul programatic la acesta. În funcție de DBMS-ul folosit și limbajul de programare, puteți utiliza API native de tip OCI, tipuri generice ODBC și platforme specifice ADO.NET specifice OLE DB.







În plus, conținutul dicționarului este pe deplin accesibil la instrumentele procedurale obișnuite ale DBMS, adică puteți scrie proceduri și funcții stocate pe PL / SQL, T-SQL sau alte limbi.

Documentație și exemple

Pentru principalele părți ale discursului, soluția problemelor tipice este descrisă în detaliu:

Versiunea demo a bazei de date

Următoarele sunt linkuri către arhivele pentru SGBD specifice și note despre cum să le descărcați.

În Windows, încărcarea se poate face astfel:

Dicționarul bazei de date poate fi încărcat utilizând utilitarul consolei uzual isql. Script script pentru MS Windows:

Baza de date ar trebui să fie în codificarea win1251 (din motive de natură istorică, legate de comoditatea de a lucra cu dicționarul din versiunile mai vechi ale Delphi).

Pentru a încărca baza de date a dicționarului, puteți folosi utilitarul consolei mysql obișnuit.

Script script pentru MS Windows:

Pentru a încărca baza de date a dicționarului, puteți utiliza utilitarul PSG pentru consola obișnuită.

Script script pentru MS Windows:

Baza de date în care dicționarul va fi descărcat trebuie să aibă codificarea "utf-8".

Încărcarea efectivă a dicționarului poate fi efectuată de instrumentele obișnuite ale DBMS, de exemplu, utilitarul consola sqlcmd.exe:

În ceea ce privește alte baze de date, încărcarea bazei de date a dicționarului în Oracle se poate face cu instrumentele standard incluse în livrarea bazei de date. Avem nevoie de două utilitare pentru console: sqlplus și sqlldr. Prima dintre ele efectuează o secvență de instrucțiuni SQL pentru a crea tabele, a le încărca în ele și a crea indexurile necesare. Și al doilea efectuează încărcarea în masă a datelor în câteva tabele "mari", pentru care modul obișnuit de inserare a înregistrărilor prin INSERT este prea lung, având în vedere prezența a zeci de milioane de înregistrări.

Aici este un script pentru MS Windows care efectuează toate descărcările necesare:

Versiunea bazei de date dicționar pentru MS Access este oarecum separată. În primul rând, este în format XML, deoarece oferă o încărcare rapidă a unor cantități mari de date în tabele. În al doilea rând, setul de date portabile este simplificat. În baza de date sunt create doar trei tabele pentru capacele intrărilor de vocabular, formularelor de vocabular și descrierilor unor părți ale discursului.

Pentru a descărca dicționarul, trebuie să completați 2 pași în MS Access. Primul este crearea unei noi baze de date goale. Al doilea este de a importa fișierul lexicon.xml în el (File-External Data-Import). Descrierea schemei din lexicon.xsd va fi încărcată automat.

Site-ul are, de asemenea, o versiune demonstrativă on-line a dicționarului







Articole similare

Trimiteți-le prietenilor: