Abstractizarea automată a textului

Traducerea din engleză: Mashchenko Nikita

Creșterea enormă și disponibilitatea ușoară a informațiilor de pe World Wide Web au condus recent la reînnoirea sarcinii clasice de lingvistică - condensarea informațiilor din documentele text. Această sarcină este procesul de prelucrare a datelor. Acest proces a fost folosit manual din timpuri imemoriale, și pentru prima dată, folosind un computer a fost folosit la sfârșitul anilor '50. Informațiile furnizate ar trebui să se bazeze pe selectarea și generalizarea sau pe baza conținutului important și a concluziilor din textul original. Cele mai recente cunoștințe științifice și computerele mai puternice formează o nouă problemă, oferind o șansă de a rezolva problema informațiilor legate de supraîncărcare sau cel puțin amânarea soluției și reducerea impactului său negativ.

Există multe definiții diferite care înseamnă, de fapt, că textele abstracte. De exemplu:

o prezentare concisă dar precisă a conținutului documentului;
distilarea celor mai importante informații din sursă pentru a produce o versiune redusă pentru un anumit utilizator / utilizator și sarcini / sarcini;

Caracteristicile cantitative care pot caracteriza principalele informații includ:

informații semantice (poate fi considerată o măsură a capacității de restructurare din informațiile de bază ale textului original);
secvență (arată modul în care părțile din rezumat creează împreună o secvență integrată);
raportul de compresie.

Istoria automată, adică abstractizarea computerizată, a început acum 50 de ani. Metoda Lună folosește termenul de frecvențe pentru a evalua acceptabilitatea propozițiilor pentru informațiile de bază. Ideea sa principală se bazează pe cunoașterea faptului că cuvintele esențiale care transporta majoritatea informațiilor nu sunt prea des și nu prea repetate în text. Stabilirea limitelor semnificației cuvintelor prin intermediul frecvențelor lor ar fi o chestiune de experiență. Următorul pas este clasarea propozițiilor, care reflectă numărul de cuvinte semnificative și distanța dintre ele în propoziție. După aceasta, rămâne să selectați unul sau mai multe rezultate mai puțin semnificative. Trebuie remarcat faptul că motivația pentru Lună a fost supraîncărcarea informațiilor.

Următorul progres semnificativ a fost făcut după zece ani. Edmandsona Jobs a introdus ipoteza unei valori relativ mare de informații de fraze, fraze de la începutul și încheierea articolului, propozițiile care conțin replica cuvântul și fraze ca, „rezultatele“, „importante“, „articol este“, etc. Chiar dacă următorii ani au adus rezultate suplimentare, renașterea acestei zone și progrese semnificative au avut loc în anii '90. Acesta este un moment de utilizare mai largă a metodelor de inteligență artificială în acest domeniu și o combinație de metode diferite în sistemele hibride. În noul mileniu, în legătură cu extinderea WWW mutat interesul în studiul de generalizare a grupurilor de documente, documente multimedia și utilizarea noilor tehnici algebrice de reducere a datelor.

1. O scurtă trecere în revistă a metodelor bazate pe principii clasice

1.1 Muncă inovatoare

Primele abordări ale abstractizării automate textuale au folosit doar un nivel (simplu de suprafață) al indexului de decizie, care părți ale textului trebuie incluse în textul principal. În 1958, sa dezvoltat cel mai vechi algoritm al importanței propunerii. Ideea de bază era că scriitorul ar repeta anumite cuvinte atunci când a scris despre un subiect. Semnificația termenilor este considerată proporțională cu frecvența lor în documentele rezultate. Alți indicatori de relevanță sunt utilizați de documente în prezența unor cuvinte specifice de replici (adică cuvinte precum "important" sau "relevante") sau cuvinte conținute în titlu. Combinația cuvintelor de replici, a cuvintelor de nume și propoziții a fost folosită pentru a genera extrase, iar similitudinea lor a fost demonstrată cu scrierea umană a rezumatului.

1.2 Metode statistice

În [] 4, sa dovedit că relevanța termenilor documentului este invers proporțională cu numărul de documente din incinta care conține termenul. Formula pentru evaluarea gradului de adecvare a termenului dat TFI x idfi, unde TFI - i frecvență pe termen lung în documentul și idfi - frecvența documentelor care conțin termenul. Propunerile pot fi selectate ulterior, de exemplu, prin însumarea relevanței termenilor într-o propoziție.

1.3 Metode bazate pe capacitatea de conectare a textului.

Expresiile anaforice care se referă la părțile menționate anterior ale textului trebuie să-și cunoască predecesorii pentru a fi înțeleși. Este posibil ca metodele de adăugare să nu reflecte relația dintre concepte din text. Dacă o teză care conține o conexiune anaforică este extrasă fără contextul anterior, textul principal poate deveni de neînțeles. Proprietățile conectate includ relația dintre expresiile de text. Ele au fost investigate prin diferite abordări de abstractizare.

Să ne amintim metoda lanțului Lexical, care a fost prezentată în [7]. Acesta utilizează tezaurul WordNet pentru a identifica relația conectată dintre condițiile (adică, repetiție, sinonime, antonime, hypernymy și holonymy) și este un lanț de condiții conexe. Setul lor este determinat pe baza numărului și tipului relațiilor din lanț. Numai acele propoziții în care cele mai puternice lanțuri sunt extrem de concentrate sunt selectate pentru textul principal. O metodă similară, în care pedeaptele au fost alese în funcție de obiecte, a fost prezentată în [8]. Obiectele sunt identificate de sistemul de rezoluție de co-referință. O rezoluție de referință determină dacă două expresii se referă la același obiect într-o limbă naturală. În textul principal sunt incluse sentințele în cazul în care apariția obiectelor frecvent menționate depășesc o anumită limită.

Într-un grup de metode bazate pe capacitatea de a conecta textul, putem include utilizarea metodei teoriei structurii retorice (RST). RST este o teorie despre organizarea textuală. Se compune din multe relații retorice care conectează unitățile de text împreună. Relațiile leagă nucleul - ceea ce este principalul scop al scopului scriitorului. Din relații este o vedere de copac, care este folosit pentru a extrage o unitate de text din textul principal. Evaluarea finală a sentinței este dată de suma greutăților de la rădăcină la propoziție. În [10], fiecare nod părinte identifică copiii săi nucleari ca fiind semnificativi. Copiii contribuie la nivelul parental. Acest proces este recursiv într-un copac. Contul unității i se dă nivelul obținut după promovare.

1.4 Repetarea metodelor grafice

1.5 Abordarea la teze

concluzie

Am prezentat istoria și starea domeniului de cercetare automată a abstractizării textului. Ei au acordat cea mai mare atenție abordărilor bazate pe metode algebrice de reducere. Particularitatea lor este că ei lucrează numai în contextul condițiilor și astfel nu depind de o anumită limbă. Evaluarea metodelor de abstractizare are aceeași importanță ca și rezumarea proprie. Conferința anuală a Conferinței Anuale a Conferinței DUC (Documentation Understanding Conference) a stabilit îndrumări în procesul de evaluare a textului. Cu toate acestea, singura metodă de abstractizare complet automată este ROUGE [32], care compară articole scrise de om și texte de sistem în conformitate cu n-grame. Planificăm să participăm la DUC '08 cu noua noastră metodă de abstractizare, al cărei nucleu se va baza pe tensorul LSA. În loc de două dimensiuni, vor fi utilizate trei condiții, propuneri și documente. Trei dimensiuni, în loc de două, vor fi folosite - condiții, propuneri și documente. Ideea metodei este că cele două propoziții vor fi proiectate aproape unul de celălalt în sens.