Arantxa Otegi
Quick Facts
Biography
Arantxa Otegi Usandizaga (Asteasu) Euskal Herriko Unibertsitateko ikerlaria da IXA taldean, baita HiTZ, Hizkuntzaren Teknologiaren Euskal Zentroko kidea ere. Informatika Fakultatean lan egiten du 2006tik.
Informatikako ingeniaria da (EHU, 2006) eta hizkuntzaren analisian eta prozesamenduan doktorea (EHU, 2012). Gaur egun, UPV/EHUko Ixa hizkuntzaren prozesamendurako ikerketa-taldeko doktoratu ondoko ikertzailea da, Ixa taldeko kide izan da 2003az geroztik, eta arlo hauetan aritu da batez ere: elkarrizketa-sistemak, erantzunen bilaketa, informazioaren berreskurapena, ahaidetasun semantikoa eta hizkuntza prozesatzeko tresnen integrazioa.
Informazioaren berreskurapena hobetzea hizkuntzaren prozesamenduko teknikekin
Hizkuntzaren prozesamenduaren arloan aritzen den Ixa Taldeko ikertzailea da. 2012an defenditu zuen doktorego-tesian bere helburua Informazioaren berreskurapenaren ikerketan urrats bat egitea izan zen, hitzen adiera-desanbiguazioko teknikak eta ahaidetasun semantikoko hainbat metodo erabiliz. Hau izan zen izenburua: “Hedapena informazioaren berreskurapenean: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak“. Zuzendariak Eneko Agirre eta Xabier Arregi izan ziren. Tesiak Koldo Mitxelena saria lortu zuen 2013an.
Informazioaren berreskurapena (IB) erabiltzaile baten informazio-beharra asetuko duten dokumentuak bilatzean datza. Hain ezagun eta erabilia den Google web-bilatzaileak IB sistemen adibide garbia da.Honela bada, IB sistemak erabiltzaileari dokumentu adierazgarriak, alegia, erabiltzaileak behar duen informazioa eduki dezaketen dokumentuak, topatzen lagunduko dio, beti ere erabiltzaileak egindako kontsultan oinarrituz. Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web-bilatzaileak IB sistemen adibide garbiak dira.
IB sistema perfektu batek dokumentu adierazgarriak bakarrik berreskuratu beharko lituzke, eta ez-adierazgarriak baztertu. Alabaina, sistema perfektuak ez dira existitzen. IB sistemek aurre egin behar dien arazo nagusienetako bat kontsulta eta dokumentuen arteko parekatze-arazoa deiturikoa da: dokumentu bat kontsulta batentzako adierazgarria izan daiteke nahiz eta bietan erabilitako hitzak guztiz berdinak ez izan, eta, alderantziz, dokumentu bat ez-adierazgarria izan daiteke kontsulta batentzat nahiz eta termino batzuk komunean eduki. Lehena ideia edo gauza bera adierazteko hitz edo esamolde bat baino gehiago erabili ditzakegulako (sinonimia) gerta daiteke. Bigarrena, berriz, testuinguruaren arabera hainbat interpretazio izan ditzaketen hitzek (anbiguotasuna) eragiten dezakete. Hau kontuan izanik, IB sistema batek dokumentu bat adierazgarri edo ez-adierazgarri bezala sailkatzerakoan kontuan hartzen duen irizpide bakarra kontsultako hitzak egotea (edo ez egotea) denean zaila suerta daiteke dokumentu egokiak topatzea, eta baita adierazgarriak ez direnak baztertzea. Honen aurrean, hitz horien esanahiak kontuan hartuz gero berreskurapen arrakastatsuago bat egiteko aukera gehiago egongo direla pentsatzea bidezkoa dirudi.
IBaren hastapenetatik parekatze-arazoaren inguruan ikerketa-lan dezente egin badira ere, oraindik guztiz ebatzi gabe jarraitzen du, eta bilatzaile askok ez dute aintzat hartzen. Otegiren tesi-lanean hizkuntzaren prozesamenduaren (HP) bidez arazo hori arintzerik ba ote den aztertu zen. Hitz gutxitan esanda, kontsulten eta dokumentuen hedapena egin zuten HPko bi teknikaz baliatuz: hitzen adiera-desanbiguazioa eta ahaidetasun semantikoa. Alde batetik, teknika hauetako bakoitzerako hedapen-prozesu bat proposatzuten, non kontsulta eta dokumentuetako hitzen sinonimo eta bestelako ahaidetasuna duten hitzak lortuko zituzten. Bestetik, hedapenetik lortutako hitz horiek, kontsulta eta dokumentuetako jatorrizko hitzekin batera, IB sistemaren prozesuan txertatu eta ustiatzeko modu eraginkor bat azaltzen zuten kasu bakoitzerako. Are gehiago, erabili zuten hedapen-teknikak kontsulta eta dokumentuak berreskuratzeko balio zuenez, hedapen-teknika hori erabiliz hizkuntza arteko berreskurapenean hobekuntzak lortzen zrela erakutsi zuten. Hiru datu-multzotan egindako esperimentu eta analisiek erakusten zuten tesi-lan honetan proposatutako hedapen-metodoek parekatze-arazoari aurre egiteko balio zutela eta, ondorioz, baita IB sistemaren eraginkortasuna hobetzeko ere.
Sariak
Hainbat sari lortu ditu Arantza Otegik. Sari aipagarrienak hauek dira:
- 2020: Hizkuntzaren prozesamendua lantzen duen COLING nazioarteko kongresuan Aparteko Artikuluaren Saria jaso zuen (Outstanding Paper Award). Artikulua beste ikertzaile hauekin idatzi zuen: Eneko Agirre, Jon Ander Campos, Kyunghyun Cho, Aitor Soroa, eta Gorka Azkune. Izenburua hau zen: Improving Conversational Question Answering Systems after Deployment using Feedback-Weighted Learning. (Elkarrizketa moduko galdera-sistemak hobetzea inplementazioaren ondoren, atzeraelikaduraz haztatutako ikaskuntza erabiliz).
- 2019: COVID-19 Open Research Dataset Challenge. Estatu Batuetako gobernuak bultzatutako COVID-19 gaixotasunaren inguruan antolatutako adimen artifizialeko txapelketan saria. Ixa Taldeko Arantxa Otegi eta Jon Ander Campos ikertzaileek eta Eneko Agirre eta Aitor Soroa irakasleek hartu zuten parte.
- Eneko Agirreren taldeko kidea izan zen 2017an, 2019an, eta 2020an, hiru aldiz jarraian Google-ren ikerketa-sari bat irabazi zuenean. Google Faculty Research Award saria hirutan lortu duen ikertzaile bakanetakoa da Agirre. 2020ko proiektua batez ere ingelesezko elkarrizketetan zentratzen bada ere (sukaldaritzari eta elikadurari buruzko galderak), euskarazko elkarrizketekin ere lan egin dute. Horretarako 2019an Ixa taldeak euskarazko elkarrizketak biltzeko kanpaina bat jarri zuen martxan. Kanpainak oso harrera ona izan zuen, pertsona ospetsuei buruz euskarazko galdera-erantzunezko elkarrizketak jaso ziren, beti ere Wikipedian dagoen informazioan oinarrituta.
- 2013: Euskaltzaindiak eta EHUk antolatzen duten Euskarazko Tesien III. Koldo Mitxelena saria eman zioten Ikasketa Teknikoen jakintza-arloan.
- 2013: Abbadia saria jaso zuen Ixa Taldeak Gipuzkoako Foru Aldundiaren eskutik.
- 2013: Donostiako udalaren eskutik Ixa taldearen aldeko adierazpen instituzionala.
- 2012: Ibilaldian omendua izan zen teknologia berrietan euskara sartzeko egindako lanengatik, beste hauekin batera: Lapurdiko Harluxetar lehengusu ingeniariak: Klaudio Harluxet eta René Harluxet; Aurki, Sustatu, Codesyntax: Luistxo Fernandez; UEUko Informatika saila: Olatz Arbelaitz; EHUko Donostiako Informatika Fakultatea (Ixa taldea eta Eneko Agirre tartean; EHUko Aholab Taldea: Inma Hernaez; puntueus: Iratxe Esnaola; kaixo.com: Aitor Lopez de Aberasturi; Erentzun ikastola: Fultxo Crespo; Hachtibista, sare sozialak: Gorka Julio; Euskal Jakintza: Maite Goñi.
Erreferentziak
- ↑ «Arantxa Otegi» scholar.google.es .
- ↑ «Arantxa Otegi | Ixa taldea» ixa.si.ehu.eus .
- ↑ (Ingelesez) «Arantxa Otegi - ACL Anthology» aclanthology.org .
- ↑ (Ingelesez) «Arantxa Otegi» The Conversation .
- ↑ (Ingelesez) Technology, Blog index « Ixa Group Language. «Koldo Mitxelena award for PhD theses to Arantxa Otegi» Ixa Group. Language Technology. .
- ↑ Lexiko-semantikaren erabilera informazio-berreskurapenean – Hizkuntza-teknologiak, Ixa Taldearen bloga. .
- ↑ (Ingelesez) «COLING’2020 outstanding papers announcement» COLING’2020 2020-11-29 .
- ↑ Campos, Jon Ander; Cho, Kyunghyun; Otegi, Arantxa; Soroa, Aitor; Agirre, Eneko; Azkune, Gorka. (2020-12). «Improving Conversational Question Answering Systems after Deployment using Feedback-Weighted Learning» Proceedings of the 28th International Conference on Computational Linguistics (International Committee on Computational Linguistics): 2561–2571. .
- ↑ Ixa ikerketa-taldeak Estatu Batuetako gobernuak bultzatutako COVID-19 gaixotasunaren inguruan antolatutako adimen artifizialeko txapelketan saria jaso du – Hizkuntza-teknologiak, Ixa Taldearen bloga. .
- ↑ (Ingelesez) «COVID-19 Open Research Dataset Challenge (CORD-19)» kaggle.com .
- ↑ «Elkarrizketak sortzen - Ixa taldea» www.ixa.eus .
- ↑ Google-saria hirugarrenez irabazi du Eneko Agirre ixakideak – Hizkuntza-teknologiak, Ixa Taldearen bloga. .
- ↑ Google-ren ikerketa-saria Eneko Agirreri hitzen esanahiak grafikoki erakusteagatik – Hizkuntza-teknologiak, Ixa Taldearen bloga. .
- ↑ Google Research saria Eneko Agirre taldekideari – Hizkuntza-teknologiak, Ixa Taldearen bloga. .
- ↑ Ixa Taldea. (2012). Koldo Mitxelena saria Arantxa Otegiri.. EHU.
- ↑ Ixa Taldea. (2013). Gipuzkoako Foru Aldundiak emandako Anton Abadia Saria, Euskararen normalkuntza lanetan izandako eraginagatik.. .
- ↑ Ixa Taldea, Abbadia Saria – Hizkuntza-teknologiak, Ixa Taldearen bloga. .
- ↑ Ibilaldia 2012 omenaldia: Euskara teknologia berrietan sartzeko aintzindariak – Hizkuntza-teknologiak. .
Ikus, gainera
- Donostiako Informatika Fakultatea
- Emakumeak informatikan
- Arantza Diaz de Ilarraza Sanchez
- Xabier Arregi Iparragirre
- HiTZ zentroa
- Eneko Agirre