Bonvenon al la “Tekstaro de Esperanto”, projekto iniciatita kaj financata de “Esperantic Studies Foundation”
La serĉilo funkcias nur kun moderna TTT-legilo, kaj kun ŝaltita Javaskripto.
En 2002 “Esperantic Studies Foundation”, ESF, iniciatis projekton por starigi elektronikan lingvosciencan tekstaron (korpuson) de Esperanto. ESF kontraktis kun Bertilo Wennergren por plani kaj efektivigi la unuan projektofazon, kiu pretiĝis fine de Aprilo 2003. Helpis al Bertilo Wennergren “Korpusa Konsila Komitato” konsistanta el Ilona Koutny, Jouko Lindstedt, Carlo Minnaja kaj Chris Gledhill.
La unua fazo koncentriĝis je kolektado kaj unuecigado de tiaj tekstoj, kiuj jam ekzistas en ia elektronika formo, precipe gravaj tekstoj Zamenhofaj kaj aliaj klasikaĵoj. Bertilo Wennergren elektis, prilaboris, normaligis kaj markis la tekstojn per la XML-a marklingvo TEI (Text Encoding Initiative). En Oktobro 2003 komenciĝis la dua fazo de la Tekstarprojekto. ESF kontraktis denove kun Bertilo Wennergren por plivastigi la Tekstaron, espereble ĝis 10 milionoj da vortoj. Al la Konsila Komitato aliĝis Mauro La Torre.
La tekstomaso nun (en Februaro 2009) ampleksas 4.675.412 vortojn.
Esploristoj, kiuj volas alimaniere utiligi la tekstaron, povas elŝuti la tekstaron (krom la protektitaj tekstoj) kaj prilabori ĝin laŭ siaj celoj kaj bezonoj. Por elŝuti la Tekstaron oni rekte alskribu Bertilon: “bertilow” ĉe “gmail.com”.
Mi korektis tre multajn tajpajn kaj skanajn erarojn en pluraj el la tekstoj. Samtempe mi forigis multajn signojn "{" kaj "}", kiuj akcidente aperis en la tekstoj. Temas pri restaĵoj de provizoraj kodoj, kiuj mi antaŭe uzis en prilaborado de la tekstoj. La versinumero estas ŝanĝita al 2.3.
La serĉilo estas nun komplete reverkita. Ankaŭ la serĉointerfaco estas tralaborita kaj esence plene renovigita. Ĝi nun funkcias nur se Javaskripto estas aktivigita, kaj nur se la TTT-legilo estas sufiĉe moderna kaj laŭnorma. Se vi jam antaŭe uzis la serĉilon, tiam indas relegi la klarigojn. La specialaj serĉokodoj restas ĝenerale neŝanĝitaj, sed legu tamen pri la iomete ŝanĝita kodo \LI kaj pri la novaj kodoj \LD kaj \NE.
Mi forigis la neceson aliĝi kaj ensaluti por uzi la serĉilon. Por elŝuti la Tekstaron oni tamen devas rekte alskribi min: “bertilow” ĉe “gmail.com”.
En la teksto mi faris multegajn pliajn korektojn. Tial mi ŝanĝis la versinumeron al 2.2 (la dua eldono kun ankoraŭ pli da korektoj).
La tuta Tekstaro estas nun rekodita laŭ la nova versio 5 de la marklingvo TEI.
La Tekstaro konsistas el aro da dosieroj markitaj per la markolingvo TEI 5. Tia markado povas esti farata en diversaj manieroj, atentante diversajn flankojn de la teksta enhavo, je diversaj gradoj de detaleco. La nuna markado ne estas en definitive finita formo, sed povas esti plu prilaborata kaj riĉigata.
Unu grava flanko estas aparta markado de ne-Esperantaj partoj de la tekstoj (ekz. propraj nomoj ne-Esperantigitaj). Tia markado estas grandparte jam plenumita, sed ne ĉiuj partotekstoj enhavas tiajn markojn de fremdaj vortoj, kaj tiuj tekstoj, kiuj ilin ja havas, povas bezoni plian kompletigan prilaboradon de tiu markado. Sed jam nun eblas en la serĉoservo laŭbezone indiki, ke la serĉo ekskluzivu vortojn markitajn kiel fremdajn. Fremdaĵoj estas nun plejparte indikitaj nur kiel ne-Esperantaj, per atributo xml:lang="", sed multaj havas precizajn lingvoindikojn kiel xml:lang="en" (la Angla lingvo), xml:lang="la" (Latino) k.s. Ĉe propraj nomoj estas tamen ofte malfacile aŭ eĉ neeble decidi, al kiu preciza lingvo ili apartenas. Tial verŝajne ankaŭ estonte restos multaj tiaj neprecizaj lingvoindikoj.
La uzataj lingvokodoj sekvas la rekomendojn de TEI kaj W3C. Baze temas pri la ofte uzataj du-literaj lingvokodoj de la normo ISO 639. Jen ĉiuj lingvo-kodoj, kiuj nun aperas al la Tekstaro:
La tekstaro atentas precipe la lingvan enhavon de la tekstoj, kaj tial multaj eksterlingvaj (tipografiaj) detaloj de la diversfonta materialo estas unuecigitaj kaj normaligitaj. Uzo de citiloj kaj alispecaj tipografiaĵoj estas unuformigitaj pli-malpli laŭ tipografia stilo Angla. Tipografiaj indikoj de emfazado (kursiva teksto, grasa teksto, granda stilo k.s.) estas konservitaj en la formo de hi-markoj, kiuj plej ofte respondas al kursiva stilo, sed kiuj povas reprezenti ankaŭ alispecan elstarigadon en la originaj tekstoj. Informoj pri origina grasa teksto k.s. estas tamen plurloke konservitaj kiel atributoj ĉe la hi-markoj: rend="grase", rend="grande" k.t.p.
Multaj evidentaj kaj nedubeblaj tajperaroj kaj preseraroj estas korektitaj (sen indiko pri tio). Eventualaj gramatikaj kaj alispecaj lingvaj eraroj tamen ne estas tuŝitaj.
La originaj tekstoj prezentas tre riĉan repertuaron de signoj. Tie aperas ne nur la Esperantaj specialsignoj, sed ankaŭ Grekaj literoj, Hebreaj literoj kaj multaj aliaj specialaj signoj. La materialo estas kodita laŭ Unikodo por povi konservi ĉiujn tiujn signojn. Por legado de la tekstoj tial necesas sufiĉe modernaj programoj kun riĉe ekipitaj tiparoj.
Ĉiu alineo de teksto, kaj ĉiu alia alinesimila tekstosekcio (ekz. linio de poemo), havas en la XML-kodo unikan identigilon (xml:id-atributon), kiu ebligas precizan indikadon de unuopaj tekstopecoj en referencoj al la tekstaro. Tiuj identigiloj estas jam uzataj en la serĉorezultoj de la ĉi-tiea serĉoservo.
La tekstaro ankoraŭ estas relative modesta laŭ amplekso, kaj indas ĝin kreskigi per aldonado de plia materialo. Indas ankaŭ evoluigi la markadon de la tekstoj. Tio prezentas du precipajn evoluajn vojojn por la estonteco, kaj ankaŭ elekton, kiun el tiuj vojoj prioritati:
La nuna materialo forte emfazas la klasikajn tekstojn. Povas esti, ke ankoraŭ iuj Zamenhofaĵoj estas aldonindaj, kaj verŝajne indas ankaŭ aldoni plian materialon de aliaj gravaj klasikuloj. Tamen verŝajne al esploristoj pli utilos vasta aldonado de modernaj tekstoj. Jam estas en la kolektita materialo pluraj tekstoj modernaj, sed ili estas plejparte de relative polurita speco: literaturaj tekstoj kaj tekstoj korektitaj kaj unuformigitaj fare de redaktistoj. Se oni volas, ke la tekstaro prezentu vere aŭtentikan bildon de la tuta gamo de lingvouzo Esperanta, oni bezonas aldoni multon da tekstoj, kiuj prezentas pli spontanan lingvouzon de ordinaraj uzantoj. Da tia materialo jam ekzistas abundo en la Interreto, kaj ne estus tro malfacile aldoni tian materialon sen grandaj kostoj. En posta fazo certe estus tre utile aldoni ankaŭ transskribojn de parola uzo.
En la Korpusa Konsila Komitato leviĝis voĉoj por aldoni detalan lingvosciencan markadon (distingadon de morfemoj, kaj eble ankaŭ klasadon de la morfemoj laŭ diversaj kategorioj). Tio ankoraŭ ne estas farita, precipe ĉar tio postulus tre grandan kaj temporaban laboron. Indas tamen pripensi, ĉu tia markado tamen povos esti aldonita, almenaŭ al parto de la materialo. Verŝajne indas unue perfektigi la markadon de fremdaj elementoj. Poste oni kredeble povus fari nemalgrandan parton de la lingvoscienca markado aŭtomate (per programoj). Necesus ankaŭ detala planado de la bezonataj lingvosciencaj markoj.
Se la jam starigita serĉoservo montriĝos interesa por esploristoj, oni povos konsideri evoluigi ankaŭ tiun servon, ekz. per aldonado de diversaj specoj de serĉado, pliriĉigado de la haveblaj specialaj serĉosimboloj, k.s. Tio povus konsistigi trian vojon de evoluigado de la projekto.
La serĉilo funkcias plej bone en la TTT-legilo Fajrovulpo kaj parencaj programoj (Geko-bazitaj). Mi rekomendas uzi Fajrovulpon. Mi provis zorgi, ke la serĉilo funkciu ankaŭ en versio 7 de la TTT-legilo Internet Explorer. Plejparte ĝi ŝajnas funkcii ankaŭ en versio 6 de Internet Explorer, sed pri tio estas nenia garantio. Kredeble oni ankaŭ povas uzi modernajn versiojn de Operao, Safari kaj Konkrerilo, sed tiujn legilojn mi tute ne testis.
La serĉilo funkcias nur se Javaskripto estas aktivigita en la TTT-legilo.
La serĉilo troviĝas en la serĉilopaĝo.
En la tiea tekstokampo “Serĉesprimo” vi povas enskribi tekstopecon serĉotan. Kiam vi aktivigas la butonon “Serĉi” (aŭ simple premas la enigo-klavon), la serĉoprogramo trairas ĉiujn elektitajn tekstojn, kaj montras al vi la rezultajn trovojn kun iom da kunteksto.
Esperantajn literojn vi povas tajpi rekte (Unikode) aŭ per X-surogatoj: cx, gx... ux. Vi ankaŭ povas miksi rektan kaj X-surogatan skribojn.
Se vi volas uzi samtempe pli ol unu serĉesprimon, vi povas aldoni pliajn tekstokampojn per la pluso-butono maldekstre de la vorto “Serĉesprimo”. Kiam estas pli ol unu serĉesprimo, aperas ankaŭ minuso-butono, per kiu vi povas forigi la lastan el la serĉesprimoj. Ankaŭ eblas fermi serĉesprimon per aparta ferma “×”-simbolo en ties supra dekstra angulo. La unua serĉesprima tekstokampo tamen ne estas forigebla. (Antaŭe oni povis enskribi pli ol unu serĉesprimon en la sama tekstokampo, disigante la esprimojn per “_”-signo. Tiu eblo estas forigita.)
Per la suba falmenua elektilo vi povas elekti, ke la serĉo inkluzivu ankaŭ ne-Esperantan (“fremdan”) tekston (“Inkluzivi ankaŭ fremdaĵojn”), aŭ ke serĉo ignoru ĉiujn trafojn, kiuj aperas ene de fremdaĵoj, aŭ kiuj enhavas fremdaĵojn ene de si (“Ignori trafojn en/kun fremdaĵoj”). Ignorado de fremdaĵoj tamen funkcias nur por fremdaĵoj, kiuj estas eksplicite markitaj kiel tiaj en la Tekstaro. Multaj fremdaj vortoj bedaŭrinde ankoraŭ ne estas tiel markitaj. Normale vi kredeble volas, ke fremdaĵoj estu ignorataj.
Poste vi povas elekti kiom da signoj estu montrataj por ĉiu trafo (baza elekto: 100 signoj). Prezentiĝas kune kun ĉiu trafo la kunteksto antaŭa kaj posta, kaj tiu tuto ampleksos (proksimume) tiom da signoj, kiom vi elektos. La maksimumo estas 200 signoj (kaj la minimumo estas 10 signoj). La montrota kunteksto tamen ĉiam limiĝas al la koncerna alineo (aŭ alinesimila tekstoparto).
Per la sekva elektilo vi povas elekti la maksimuman nombron da trafoj, kiujn la serĉilo montru. La maksimumo estas 1000 trafoj.
Per la elektilo “Daŭrigi” vi povas elekti, ĉu daŭrigi la serĉon ankaŭ post atingo de la maksimumo da montrotaj trafoj. Se vi elektas, ke la serĉo pludaŭru, tiam post atingo de la maksimumo, la serĉilo raportas nur la nombron da trafoj, sed ne la efektivajn trafojn.
Per la elektilo “Atenti usklecon”, vi povas indiki, ĉu la serĉo atentu la diferencon inter majuskloj kaj minuskloj. Normale vi elektu, ke ĝi ja atentu pri uskleco, ĉar serĉado, kiu ne atentas pri uskleco okazas iom malrapide. Vidu ĉi-poste ĉe la specialaj simboloj | kaj [] alternativajn metodojn por serĉi kaj minusklojn kaj majusklojn.
Poste sekvas ses butonoj:
Post la butonoj aperas la nomoj de ĉiuj tekstoj de la Tekstaro kun po unu elektilo, kiun vi povas ŝalti aŭ malŝalti per musa alklako. Ankaŭ eblas simple alklaki la nomon de la teksto por ĝin elekti aŭ malelekti. La tekstoj estas ordigitaj laŭ la la jaro, kiam la esperanta teksto estis kreita (verke aŭ traduke).
Se vi elektas unu tekston, kaj poste alklakas duan tekston tenante samtempe majuskligan klavon de la klavaro, tiam elektiĝas tiuj du tekstoj kaj ankaŭ ĉiuj tekstoj inter ili. Same eblas malelekti tutan vicon de tekstoj per teno de majuskliga klavo.
Maldekstre de ĉiu tekstoelektilo estas blua litero M. Se vi ĝin alklakas, aperas ligilo al HTML-a prezento de la tuta koncerna teksto, kaj alia ligilo al prezento de la baza XML-kodo de la tuta koncerna teksto.
Se vi musumas sur la nomo de teksto, la TTT-legilo montras detalajn informojn pri la koncerna teksto.
Ĉiuj elektoj, kiujn vi faras en la serĉila interfaco, estas memorataj pere de kuketoj (se via TTT-legilo akceptas uzon de kuketoj). Tial, kiam vi revenas al la serĉilo, reaperas aŭtomate ĉiuj elektoj, kiuj estis validaj, kiam vi laste vizitis la serĉilon.
La rezultoj de ĉiu serĉo aperas en aparta folio. Supre de la fenestro aperas langetoj, per kiuj vi povas elekti, kiun folion rigardi. Estas unu folio por la serĉilo mem, kaj poste po unu folio por ĉiu serĉorezulto. Aldone povas aperi ankaŭ folioj, kiuj montras tutajn tekstojn aŭ partojn de tekstoj. Ĉiun folion (krom tiu de la serĉilo) vi povas fermi per tiucela fermilo (kun la signo “×” en la koncerna langeto). Se vi volas fermi samtempe ĉiujn foliojn (krom tiu de la serĉilo), estas aparta tiucela fermilo plej dekstre de la langetoj.
Kiam nova serĉofolio malfermiĝas, aperas tie la serĉorezultoj. Se vi elektis pli ol unu tekston, la rezultoj aperas iom post iom. Vi povas en ajna momento interrompi la serĉadon per alklakado de la “Fini”-butono. Dum la serĉo daŭras, vi eĉ povas ŝanĝi al alia folio. La daŭranta serĉo ne interrompiĝas pro tio. Vi eĉ povas iri al la serĉilo, kaj tie komenci novan serĉon, kiu malfermiĝos en aparta folio. Pluraj serĉofolioj povas labori samtempe.
En serĉofolio ĉiu trafo estos montrata en aparta linio kun iom da teksto antaŭ la trafo, kaj iom da teksto post ĝi. La trafo mem estas markita ruĝe. Se vi alklakas la ruĝan trafotekston, aperas la tuta koncerna alineo (aŭ alia alinesimila tekstoparto). Tie ĉiu trafo estas markita flave. La alineo tiam aparte elŝutiĝas el la servilo, kio povas eble daŭri iomete. Post la alineo aperas butono por vidi ankoraŭ pli da kunteksto. Se vi alklakas tian butonon, malfermiĝas la koncerna teksto en aparta folio. Se la teksto estas tre longa, montriĝas tamen nur parto de ĝi. Iafoje temas pri tre grandaj partoj, alifoje temas pri mallonga eltiraĵo, depende de la strukturo kaj karaktero de la koncerna teksto. Se montriĝas nur parto de la teksto, estas tamen en tiu tekstofolio aparta butono por malfermi la tutan tekston en aparta fenestro. Se la teksto estas ekstreme granda, vi tiam tamen ricevas anstataŭe liston de ligiloj al ĉiuj partoj de la teksto.
Kiam vi rigardas teksto-folion, la responda serĉo-folio estas markita flave (se ĝi ankoraŭ estas malfermita).
Se vi provas rigardi trafon kun pli da kunteksto, kaj se jam estas malfermita teksto-folio kun la koncerna teksto, tiam reuziĝas tiu teksto-folio. Simile, se vi havas plurajn serĉojn, kaj provas el pli ol unu el ili malfermi la saman tekston, ankaŭ tiam reuziĝas la sama teksto-folio.
En serĉo-folio kun jam plenumita serĉo aperas butono nomata “Ŝanĝi” supre post la prezento de la uzitaj serĉoparametroj. Se vi alklakas tiun butonon, aperas la serĉilo kun la serĉoparametroj kaj teksto-elektoj de tiu serĉo, por ke vi povu reprilabori tiujn elektojn, kaj eble fari novan similan serĉon (kiu aperos en nova serĉo-folio).
En serĉesprimoj vi povas uzi diversajn specialajn simbolojn. Ĉi-sube estas klarigoj pri la plej gravaj el tiuj signoj, sed principe vi povas uzi la tutan repertuaron de regulesprimaj signoj de la programada lingvo Perlo. Atentu tamen, ke ĝusta uzado de komplikaj kunmetoj de tiaj signoj povas esti iom malfacila. Eble indas legi libron pri la regulesprimoj de Perlo. Vi povas krome uzi la specialajn simbolojn en la dua listo ĉi-sube (ili ne ekzistas en Perlo).
Se vi iam volas serĉi la signon “\”, vi skribu \\.
Se vi iam volas serĉi efektivan literon “x”, kiu ne estu interpretata kiel surogato por supersigno, vi skribu \x aŭ \X. (En ordinara uzado de Perlo \x havas tute alian signifon.)
En la serĉataj tekstoj ekzistas nur unu speco de blanksigno, ordinara spaceto. Ne aperas taboj (tabeligaj signoj), nek linifinoj.
Ĉiuj specialaj simboloj devas esti skribataj ekzakte tiel, kiel ili aperas ĉi-antaŭe. Atentu pri la uskleco: Estu \FI, \OF k.t.p, (ne \fi, \of aŭ simile).
Post ĉiu el la finaĵaj specialsimboloj, \FI, \VF, \OF, \AF, \EF, vortlimo estas subkomprenata. Ne necesas aldoni la vortliman simbolon \b.
La specialaj gramatikaj simboloj ne kapablas distingi inter veraj finaĵoj/sufiksoj kaj ŝajnaj. Tial ekz. \btr\FI trafas vortojn kiel “tro”, “tre” kaj “tri”, kvankam en ili “o”, “e” kaj “i” ne estas gramatikaj finaĵoj. Kaj \bkont\AP\AF\b trafas ankaŭ la vorton “kontanta”, kvankam tiu vorto ne estas participo.
Iuj tekstoj en la Tekstaro ne rajtas esti plene montrataj pro kopirajtaj kialoj. Vi povas tiujn tekstojn plene priserĉi, sed vi ne povas ilin plene legi ĉi tie. Se vi elektas tian tekston por montrado vi ricevas nur la bibliografiajn informojn pri la teksto.
Tia protekto de teksto estas montrata per krisigno ! (anstataŭ “M”) en la serĉopaĝo.