23:59
Comentarii Adauga Comentariu

Cercetătorii examinează modul în care modelele BERT multilingve codifică caracteristicile gramaticale

Cercetătorii examinează modul în care modelele BERT multilingve codifică caracteristicile gramaticale

de Tech Xplore

În ultimele câteva decenii, cercetătorii au dezvoltat modele profunde bazate pe rețele neuronale care pot finaliza o gamă largă de sarcini.

Unele dintre aceste tehnici sunt concepute special pentru a procesa și genera texte coerente în mai multe limbi, pentru a traduce texte, pentru a răspunde la întrebări despre un text și pentru a crea rezumate de articole de știri sau alt conținut online.

Sistemele de învățare profundă cu capacități lingvistice sunt deja disponibile pe scară largă, de exemplu, sub formă de aplicații pentru traducere în timp real, instrumente de analiză a textului și asistenți virtuali precum Siri, Alexa, Bixby, Google Assistant și Cortana.

Unele dintre aceste sisteme utilizează un model specific de învățare profundă lansat de Google numit Multilingual BERT (mBERT).

Acest model a fost instruit în aproximativ 100 de limbi simultan.

Acest lucru îi permite să finalizeze o varietate de sarcini lingvistice , de exemplu, traducerea conținutului dintr-o limbă în alta.

Utilizatorii pot interacționa cu sisteme bazate pe mBERT într-o multitudine de limbi, variind de la engleză, spaniolă și franceză la bască și indoneziană.

Deși s-a constatat că modelul mBERT funcționează bine în multe sarcini lingvistice, modul în care codifică informațiile legate de limbă și își face predicțiile este încă puțin înțeles.

Cercetătorii de la Universitatea Stanford, Universitatea din California, Irvine și Universitatea din California, Santa Barbara au realizat recent un studiu menit să înțeleagă mai bine cum funcționează tehnicile bazate pe mBERT și cum codifică caracteristicile gramaticale.

Lucrarea lor, al cărei autor principal este Isabel Papadimitriou, absolventă de informatică la Stanford, urmează să fie prezentată la conferința de lingvistică computațională EACL. Lucrarea oferă o perspectivă valoroasă asupra bazelor acestor modele utilizate în mod obișnuit și asupra modului în care acestea analizează limbajul atunci când îndeplinesc diverse sarcini.

"Modele precum Multilingual BERT sunt foarte puternice, dar, spre deosebire de modelele de învățare profundă pre-instruite, nu este evident ce informații conțin de fapt, chiar și pentru creatorii lor", Kyle Mahowald, lingvist la Universitatea din California, Santa Barbara și unul dintre cercetători seniori care au supravegheat studiul, au declarat pentru TechXplore.

"Acest lucru se datorează faptului că modelele sunt instruite, nu programate; astfel, ei învață parametrii printr-un proces de instruire privind cantități enorme de date.

" În esență, modelul mBERT reprezintă textele ca o serie de vectori, fiecare dintre aceștia constând din mii de numere.

Fiecare vector corespunde unui cuvânt, în timp ce relațiile dintre cuvinte sunt codificate ca relații geometrice în spațiul de înaltă dimensiune.

„Deoarece aceste modele se descurcă atât de bine atunci când se ocupă de limbajul uman , știm că acești vectori de numere trebuie să reprezinte cunoștințe lingvistice”, a spus Mahowald.

"Dar cum codifică aceste informații și este ceva asemănător cu modul în care cunoașterea este reprezentată în creierul uman? Munca noastră face parte din acest efort de a înțelege modurile în care modelele neuronale profunde ale limbajului reprezintă și utilizează informațiile lingvistice.

" Înțelegerea modului în care modelele mBERT codifică limbajul nu este atât de diferită de încercarea de a înțelege modul în care oamenii îl procesează.

Prin urmare, echipa din spatele studiului recent a fost compusă atât din informaticieni, cât și din lingviști.

Obiectivul lor principal a fost de a determina dacă modelele vectoriale mBERT conțin de fapt informații despre unele dintre aspectele mai profunde ale limbajului uman și structura acestuia.

Mai precis, au dorit să stabilească dacă aceste modele au descoperit în mod autonom generalizările pe care câteva decenii de cercetare în lingvistică le-au identificat ca fiind deosebit de utile pentru analiza limbajului.

"Acesta este un moment deosebit de interesant pentru a studia lingvistica computațională", a spus Richard Futrell, un om de știință în limbi străine la Universitatea din California, Irvine și un alt consilier senior al proiectului.

„De ani de zile, lingviștii au vorbit despre idei precum„ spațiul semantic ”, gândindu-se la semnificațiile cuvintelor și frazelor ca puncte într-un spațiu, dar totul a fost oarecum vag și impresionist.

Acum, aceste teorii au fost făcute complet precise: avem de fapt un model în care sensul unui cuvânt este un punct în spațiu și acel model se comportă într-adevăr într-un mod care sugerează că înțelege (o parte din) limbajul uman.

" Pentru a procesa limbajele umane, modelele mBERT și alte cadre bazate pe învățarea profundă pentru analiza limbajului ar fi putut, de fapt, să redescopere teoriile concepute de cercetătorii lingvistici după ce au analizat în profunzime limbile umane.

Alternativ, ei și-ar putea baza predicțiile pe teorii sau reguli lingvistice complet noi.

Mahowald și colegii săi au dorit să exploreze ambele aceste posibilități în continuare, întrucât înțelegerea modului în care aceste tehnici de calcul codifică limbajul ar putea avea implicații importante pentru cercetarea atât în ​​informatică, cât și în lingvistică.

„Înțelegerea modului în care funcționează aceste modele (adică, ce informații au învățat și cum le folosesc) nu este doar fascinantă din punct de vedere științific, este, de asemenea, practic critică dacă dorim să dezvoltăm sisteme de IA pe care să le putem folosi și să avem încredere”, a spus Futrell.

„Dacă nu știm ce știe un model de limbă, atunci nu putem avea încredere că va face ceea ce trebuie (adică, că traducerile sale vor fi corecte, că rezumatele sale vor fi corecte) și, de asemenea, nu putem avea încredere că nu a învățat lucruri nedorite, cum ar fi rasele sau părtinirea de gen ".

Deoarece modelele mBERT sunt, în general, instruite cu privire la seturile de date compilate de oameni, ar putea prelua unele dintre greșelile pe care oamenii le fac în mod obișnuit atunci când abordează problemele legate de limbaj.

Studiul realizat de echipa multidisciplinară ar putea juca un rol în descoperirea unora dintre aceste greșeli și alte erori pe care instrumentele AI le fac atunci când analizează limbajul.

În primul rând, cercetătorii și-au propus să investigheze modul în care modelele mBERT reprezintă diferența dintre subiecte și obiecte în diferite limbi (de exemplu, cine face ce și cui / ce).

„Când se introduce o propoziție în mBERT, fiecare cuvânt primește o reprezentare vectorială”, a spus Mahowald.

"Am construit un nou model (mult mai mic decât mBERT) pe care îl întrebăm apoi: dacă vă oferim un vector cuvânt de la mBERT, ne puteți spune dacă este un subiect sau un obiect ? Adică, aici este reprezentarea cuvântului" câine.

" Ne puteți spune dacă această utilizare a „câinelui” a făcut subiectul unei propoziții, ca în „Câinele a urmărit pisica?” sau obiectul unei propoziții, ca în „Pisica a urmărit câinele? '” S-ar putea presupune că relațiile subiect și obiect sunt delimitate în toate limbile și că sunt reprezentate în moduri similare.

Cu toate acestea, există de fapt diferențe uriașe în ceea ce constituie un subiect și un obiect în diferite limbi.

Papadimitriou și colegii ei au încercat să valorifice aceste diferențe pentru a înțelege mai bine modul în care modelele mBERT procesează propozițiile.

„Dacă vorbiți o limbă precum engleza, ar putea părea evident că cuvântul„ câine ”din„ Câinele a urmărit pisica ”joacă un rol similar cu cuvântul„ câine ” din „ Câinele a fugit ”, a spus Papadimitriou.

„În primul caz, verbul are un obiect („ pisică ”), iar în cel de-al doilea caz nu are obiect; pisica 'este obiectul - lucrul care i se face ceva.

Cu toate acestea, nu este cazul în toate limbile.

" Engleza și majoritatea limbilor vorbite în Europa au o structură cunoscută sub denumirea de aliniere nominativă, care caracterizează în mod clar subiectele și obiectele din propoziții.

Pe de altă parte, unele limbi, inclusiv basca, hindi și georgiana, folosesc o structură cunoscută sub denumirea de aliniere ergativă.

În alinierea ergativă, subiectul dintr-o propoziție fără obiect (de exemplu, cuvântul „câine” din propoziția „câinele a fugit”) este tratat mai mult ca un obiect, în sensul că urmează structura gramaticală utilizată pentru obiecte.

"Scopul principal al muncii noastre a fost să testăm dacă BERT multilingv înțelege această idee de aliniere, ergativă sau nominativă", a spus Papadimitriou.

„Cu alte cuvinte, ne-am întrebat: BERT multilingv înțelege, la un nivel profund, (1) ce constituie agentul și pacientul unui verb și (2) cât de diferite limbi sculptează acel spațiu în subiecte și obiecte? Se transformă afirma că mBERT, care este instruit în aproximativ 100 de limbi simultan, este conștient de aceste distincții în moduri lingvistice interesante.

" Descoperirile oferă informații noi și interesante despre modul în care modelele mBERT și poate alte modele de calcul pentru analiza limbajului reprezintă informații gramaticale.

Interesant este faptul că modelul examinat de cercetători, bazat pe reprezentări vectoriale mBERT, a dovedit, de asemenea, că face erori consistente care ar putea fi aliniate cu cele făcute de oamenii care procesează limbajul.

„În toate limbile, modelul nostru era mai probabil să numească incorect un subiect obiect atunci când acel subiect era un substantiv neînsuflețit, adică un substantiv care nu este un om sau un animal”, a spus Papadimitriou.

„Acest lucru se datorează faptului că majoritatea persoanelor care execută propoziții tind să fie substantive animate: oameni sau animale.

De fapt, unii lingviști cred că subiectul este de fapt într-un spectru.

subiecții care sunt animale sunt mai mult subiecți decât subiecții care nu sunt nici oameni, nici animale și exact acest lucru pare să găsească modelul nostru în mBERT.

" În general, studiul sugerează că modelele mBERT identifică subiectul și obiectele din propoziții și reprezintă relația dintre cele două în moduri care sunt aliniate cu literatura de lingvistică existentă.

În viitor, această constatare importantă ar putea ajuta informaticienii să înțeleagă mai bine modul în care tehnicile de învățare profundă concepute pentru a procesa funcționarea limbajului uman, ajutându-i să își îmbunătățească performanța în continuare.

„Sperăm acum să explorăm în continuare modalitățile prin care modelele neuronale profunde ale limbajului reprezintă categorii lingvistice, precum subiectul și obiectul, în spațiile lor vectoriale continue”, a spus Mahowald.

„Mai exact, credem că munca în lingvistică, care urmărește să caracterizeze roluri precum subiectul și obiectul nu ca categorii discrete, ci ca un set de caracteristici, ar putea informa modul în care gândim aceste modele și ceea ce fac.


(Fluierul)


Linkul direct catre Petitie

CEREM NATIONALIZAREA TUTUROR RESURSELOR NATURALE ALE ROMANIEI ! - Initiativa Legislativa care are nevoie de 500.000 de semnaturi - Semneaza si tu !

Comentarii:


Adauga Comentariu



Citiți și cele mai căutate articole de pe Fluierul:

SUA. Ce au mai pus la cale Biden și Progresiștii. Viața copiilor americani în temeiul "Legii egalității" va fi groaznică

COVID. Cum să vă dați seama dacă erupția copilului dumneavoastră poate fi MIS-C: Oamenii de știință dezvăluie tipurile de erupții cutanate pe care părinții ar trebui să le aibă în vedere în bolile inflamatorii rare legate de coronavirus

Dezastrul al lui Mourinho la Tottenham. Încrederea și forma au dispărut, Bale abia e folosit, Dele și alții sunt înstrăinați și ÎNCĂ ei cred că este cel mai bun antrenor din lume ... 10 motive pentru care sezonul lui Tottenham a cedat sub Jose

Jurgen Klopp „ar putea ÎNCHEIA cu Liverpool de vara viitoare pentru a deveni următorul manager al Germaniei”, scrie BILD care sugerează că șeful lui Liverpool este de două ori mai probabil să plece în comparație cu varianta de a rămâne pe Anfield

Chiar și moliile se bucură de lumina roșie. Lumina roșie slabă mărește activitatea sexuală, făcând bărbații mai sensibili la mirosurile provocate de femei

BILDERBERGUL TIMMERMMANS VREA SĂ LE DEA LOVITURA DE GRAȚIE MINERILOR DIN ROMÂNIA cu ajutorul slugilor rețelei progresiste ce conduc Guvernul Soroșist de la București. Timmermans SOMEAZĂ România: România trebuie să PUNĂ CAPĂT folosirii cărbunelui

MIZERABIL. SUA. Cu o majoritate de un singur vot Curtea Supremă din SUA a decis să nu investigheze nici un caz de Fraudă Electorală făcută de progresiștii lui Biden. Doi judecători numiți de Trump au votat cu Progresiștii inclusiv ipocrita judecătoarea Amy

ROMÂNIA. Cele trei scenarii de evolutie a pandemiei anuntate de autoritati: toate prevad o crestere a numarului de cazuri. Scenariul 3 prevede că vom ajunge din nou la 10.000 de cazuri oficiale pe zi

SUA: Cenzura Progresistă Devine Paranoică. Congresmani Progresiști întreabă prin scrisori oficiale firmele de Cablu TV, "de ce nu cenzurează ?" posturile de știri conservatoare.

BBC. Mai rău ca la bolșevici. 8% din personal și manageri Trebuie sa fie Homosexuali, 12% Trebuie să fie Handicapați, 20% Trebuie să Nu fie englezi ci Negrii, Asiatici sau alți Minoritari Etnici. Se vor lua măsuri împotriva "Deviațiai Inconștiente".

Breitbart News: "Bil Gates bea rahat uman la propriu și se preface că e om de știință"

Vânătorul de tigri din Tasmania susține că are dovadă că marsupialul nu este dispărut - și promite să lanseze fotografii ale unei întregi familii de tilacine

PARIS, VARA LUI 1927. VIDEO. Imagini incredibile colorate îi arată pe parizienii anilor 1920 furând săruturi pe străzi, dansând în parc și luând masa în cafenelele aglomerate. Gripa Spaniolă trecuse...

Cozmin Gușă, reales în funcția de președinte al Federației Române de Judo

Fotbal: Manchester City, cu un pas în sferturile Ligii Campionilor, după 2-0 cu Moenchengladbach, la Budapesta

Ce arată primul studiu privind imunizarea post-vaccin COVID. Ce se întâmplă cu persoanele care nu au trecut prin infecție și se vaccinează. Ce recomandă specialiștii autorităților

William Burns, desemnat director al CIA: SUA trebuie să contracareze China, un "adversar autoritarist"

Mărțișoarele la școală, mărul discordiei în pandemie

Galați: Bărbat decedat în fața apartamentului familiei; el avea interdicție de a se apropia de aceasta

SUA. Biden numește în noua sa administrația progresistă indivizi care susțin Schimbarea Sexului la Copii prin operații de schimbare de sex și administrarea de Hormoni care să blocheze pubertatea

Adrian-Ștefan Cîrstea și Csongor Oltean - numiți secretari de stat la Ministerul Tineretului și Sportului

Fotbal: Real Madrid a smuls victoria la Bergamo (1-0), în optimile Ligii Campionilor

GERMANIA. VIOLENȚĂ MARXISM-PROGRESISTĂ DE STRADĂ. Stephan Schwarz, candidat Alternativa pentru candidatul Germaniei (AfD) a fost internat în spital după un atac brutal al militanților progresiști Antifa

Avionul Egyptair prăbuşit: Analiza uneia din cutiile negre arată că s-a pronunţat cuvântul "foc"

SUA. Deputata Lauren Boebert: "Progresiștii jertfesc drepturile femeilor pe 'Altarul ideologiei de gen' "

Portugalia l-a nominalizat oficial pe Antonio Guterres pentru un al doilea mandat de secretar general al ONU

PARANOIA NOUL MARXISM-PROGRESISM face ravagii în SUA. Studenții progresiști de la Universitatea Washington, cer eliminarea statuii lui George Washington pentru că perpetuază „Supremația Albă”

CRIMĂ. Soroșiștii vor închide Minele. "Green Deal"-ul cioclilor progresiști de la conducerea UE va închide minele din Valea Jiului și Oltenia. Guvernanții trădători au semnat măcelul. 15.000 de mineri vor rămâne muritori de foame

SPANIA. Ultima statuie a Generalului Franco a fost dărâmată de Progresiști.

INCENDIUL DE LA MARIUS NASTA. VIDEO. Șoșoacă l-a luat la întrebări pe Soroșistul Vlad Voiculescu care a fugit ca un șobolan, fără să răspundă la întrebări, după care Soroșistul a pus ILEGAL, bodyguarzii spitalului să o oprească pe Senatoare.

ITALIA. Zeci de profesori sunt bolnavi după ce au primit vaccinul Astra-Zeneca împotriva coronavirusului

Robotul Spot pus să tragă cu arma. Creatorii lui au criticat evenimentul

ISRAEL. Parlamentul israelian a autorizat miercuri Ministerul Sanatatii sa comunice altor autoritati identitatea persoanelor nevaccinate, suscitand ingrijorari in ceea ce priveste respectarea vietii private a cetatenilor care refuza sa se vaccineze

Coronavirus/ 3.800 de cadre didactice, vaccinate în prima zi, în București și 22 de județe

Hochei: Corona Brașov și-a consolidat poziția de lider în Erste Liga

E valabil și pentru România? CHINA. Femeie rămase singure ar trebui să-și găsească bărbați de la țară - Studiu

Larisa Bercea, dansatoarea la bară de la Românii au talent, cu părţile intime la vedere la plajă FOTO

SUA: 83% dintre suporterii președintelui Donald Trump sunt convinși că Biden și Rețeaua lui Progresistă AU FURAT MASIV la Alegerile Prezidențiale din SUA.

Opt echipe din școlile din Satu Mare, la concursul de inovare și creativitate tehnică Eurotehnicus

UE cere Venezuelei să revină asupra deciziei de expulzare a ambasadoarei sale (purtător de cuvânt)

Fotbal: Tottenham, prima echipă calificată în optimile Europa League

Un satelit european a detectat o pată de petrol ce ar putea proveni de la avionul EgyptAir prăbușit (ESA)

Alina Alexandra Popovici, campioană naţională la haltere, suspendată 4 ANI pentru DOPAJ

QATAR. Jucătoarele de volei pe plajă vor să boicoteze turneul din Qatar pentru că arabii le-au interzis să joace în Bikini

Mihaela Rădulescu, din nou GOALĂ pe Internet. IMAGINILE-ŞOC cu care a surprins pe toată lumea FOTO

Motivul banal pentru care nu se mărită Lora cu Ionuţ Ghenu, fostul iubit al Doinţei Oancea

Cel mai haios copil. Freza lui l-ar face invidios și pe Johnny Bravo

CAZUL LAVRIC | Prima reacție a Grațielei Vâjâială, șefa ANAD: "Mirela riscă între doi ani și patru ani de suspendare"

Membrii trupei DJ Project, în continuare în spitalul din Vâlcea, dar în afara pericolului. Mesaje de încurajare pentru Mira pe Facebook

Mădălin Ionescu nu va mai prezenta show-ul tabloid "WowBiz" de la Kanal D: "Pentru mine urmează, fie și temporar, un alt drum". Ce planuri are realizatorul

Au apărut ochelarii cu care cicliștii pot vedea în spate

UK, femeile din Marea Britanie continuă să prostesteze împotriva Progresiștilor. Ștergerea identității femeii: odată, au fost doar proteste zgomotoase din partea unei mici minorități. Dar acum o nouă eră a intoleranței ne amenință însăși identitatea

MARTE. O privire de ansamblu al craterului Jezero, locul unde Perseverence va ateriza pe Marte, AZI.

Nicușor Dan taie tot și revine la PUG-ul din 2000

Europa League. Tottenham s-a calificat cu 8-1 la general în dubla cu Wolsberger

Nelu Tătaru propune testarea pentru COVID-19 în farmacii

Vaccinarea profesorilor. 3.800 de cadre didactice vaccinate în prima zi

Germania și Franța reiterează că nu vor accepta acordarea de privilegii persoanelor vaccinate

Coronavirus: Noile tulpini riscă să aducă un al treilea val în Germania, avertizează cancelarul Angela Merkel

Pierderi de miliarde de euro pentru dezvoltatorii imobiliari. Urbanist: Primarul Capitalei putea suspenda parțial PUZ-urile


Pag.1 Pag.2 Pag.3

Nr. de articole la aceasta sectiune: 174, afisate in 3 pagini.



ieri 06:44 CITATUL ZILEI