Kaskabarra's Weblog

Kaixo guztioi! Alba Estrada naiz, euskal filologiako ikaslea Deustuko Unibertsitatean. Blog hau "Language Resorces" gaiarako egina dago eta teknologia berriei buruz hainbat artikulu idatziko dira. Eskerrik asko bisitatzeagatik!

ZT corpusa 2009/06/21

Filed under: RDF0809 — kaskabarra @ 10:35 pm

Zientzia eta Teknologiaren Corpusa (ZT corpusa) Euskal Herriko Unibertsitateko IXA taldeak eta Elhuyar Fundazioak elkarlanean sortu dute. Corpus honek zientzia eta tekonologiari buruzko testuak batzen ditu eta erabilerari buruzko arauak ematen ditu euskera ondo erabiltzeko arlo hauetan. Corpus espezializatua da.

Ezaugarriak hauek dira:

-1990 eta 2002 urteren bitartean argitaratutako idazlanak batzen ditu.

-Sailkapena hurrengoa da
*Eremua
*Generoa

-Corpus etiketatua da; formatukoki eta linguistikoki.

8,5 milioi hitz daude.

-Corpusa XMLn etiketatuta dago eta TEI estandarrari jarraitu diote.

 

Ereduzko prosa gaur 2009/06/21

Filed under: RDF0809 — kaskabarra @ 10:21 pm

Ereduzko Prosa Gaur” corpusa Euskal Herriko Unibertsitateko lana da. Hemen agertzen diren testuak, euskal idazleenak dira eta azken urteetan argitaratuak daude. Corpus konplexu bat egitea da helburua. 

Cospus honen ezaugarriak hauek dira:

-2001.urtean hasi zen egiten, baina 2007.urterarte ez zen amaitu.

25,1 milioi hitz daude barruan (liburuetatik, prentsatatik…hartuta)

Gaur egun eguneratzen jarraitzen da

 

UZEI corpusa 2009/06/21

Filed under: RDF0809 — kaskabarra @ 10:08 pm

UZEI corpusari buruz hitz egin baino lehen, zer den UZEI jakin behar dugu.   

 

UZEI euskara mundu modernora egokitzeko asmoarekin sortu zen 1977.urtea.

Hainbat hiztegi terminologiko sortu zituzten urtetan zehar eta honen ondorioz, 1986. urtean EUSKALTERM banku-terminologikoa sortu zen. 

1987. urtean Eusko Jaurlaritzaren Babespeko Elkarte bihurtu zen hizkuntza-plangintzako ikerlanean aritzeko baimendua izan zen.

Orain arte, Uzei jarduera-lerro ezberdin eraman ditu. Adibidez: Hiztegi Orokorra, corpusgintza, hiztegi teknikoak, itzulpengintza eta abar luze bat. 

UZEIren corpusa “XX.mendeko euskeraren corpus estilistikoa da eta hurrengo ezaugarriak dauzka:

-Corpus hau 4.658.036 testu-hitzez osatua dago.

-Corpus irekia da oraingoz, urtero eguneratzen da, baina laster itxia izango da.

-Euskera idatzia jasotzen da, ez ahozkoa.

Sailkapen irizpideak:
*Epea
*Euskalkia
*Euskera batua
*Sailkatu gabeak

Testu motak:
 *Saio-artikuluak
 *Administrazio-idazkiak
 *Ikasliburual
 *Saio-liburuak

*Literatur prosa

*Poesia

*Antzerkia

*Bertsoak

*Ikerketa-lanak

*Haur- eta gazte-literatura

*Ahozkoak: ahozko jardunen transkripzioak

*Liturgia

*Egunkariak

*Aldizkariak

 

Corpus 2009/06/21

Filed under: RDF0809 — kaskabarra @ 9:09 pm

Askotan entzun dugu corpus hitza, baina badakigu benetan zer esan nahi duen?

 

Etimologikoki nahiko argi dago, latinetik dator eta gorputza esan nahi du. Baina benetako esanahia jakin nahi baduzu, jarraitu irakurtzen.

 

Corpus-a hizkuntz baten benetako adibideen bilketa erabilerari buruz. Adibide hauek testuak edo ahozko ereduak izan ahal dira.

 

Corpus hitzarekin, corpusaren linguistika sortzen da. Linguistika mota honek hizkuntza aztertzen du corpus baten ereduak oinarritzat hartuz. Hau, Chomsky-k hizkuntza bat ikasteko zeukan ideiarekin kontrajartzen da, hau da, hizkuntz bat ikastea hiztunaren intuizio linguistikoaren bidez.

 

Esan dezakegu ere, diziplina honek linguistika konputazionalaren barruan sar dezakegula, berezko lengoaiarekin harreman asko duelako.

 

A taldearen proiektua 2009/06/21

Filed under: RDF0809 — kaskabarra @ 8:28 pm

Language Resources gaiarako proiektu bat egin behar izan dugu. Janire Etxebarrieta, Arrate Pavón, Mari Lanz, Odei Barroso eta Alba Estrada (ni) A talde osatzen dugu eta juntagailu hautakariei buruz egitea erabaki dugu, hau da, edo, ala, edota, nahi(z) eta zein juntagailuen gainean azalpenak emango dira erabilerari dagokionez. Lana egiteko hanbat corpus erabili ditugu, helburua hau zen eta.

Hona hemen internetetik hartutako materialak:

 

Corpus-ak

   UZEI: http://www.uzei.com
   Ereduzko prosa euskeraz:  http://www.ehu.es/euskara-  orria/euskara/ereduzkoa/
  XX.mendeko euskararen corpus   estilistikoa:   http://www.euskaracorpusa.net/XXmendea/

Besteak

       Euskaltzaindia http://www.euskaltzaindia.net
       Hiru www.hiru.com
       Erabili www.erabili.com

 

International Conference on Language Resources and Evaluation 2009/06/21

Filed under: RDF0809 — kaskabarra @ 8:03 pm

International Conference on Language Resources and Evaluationa edo LREC bi urteetan behin egiten den konferentzia da. European Language Resources Association erakundeak antolatzen du natural language processingan interesatuta dauden beste instituzio eta erakundeeekin batera. 

Hona hemen hitzaldia egin den lekuen izenak eta urteak:

2008 Marrakech (Marruecos)

2006 Genova (Italia)

2004 Lisboa (Portugal)

2002 Las Palmas (Espainia)

2000 Atenas (Grezia)

1998 Granada (Espainia)

 

RDF eta RDF0809: Zer dira? 2009/02/08

Filed under: RDF0809 — kaskabarra @ 9:07 pm

   Klasean erabiltzen ditugu baina zer dira, kategoria ala etiketa? Orain ikustera goaz:

  • RDF: kategoria bat da eta Deustuko Unibertsitatean ematen den gaiari egiten dio erreferntzia.

  • RDF0809: etiketa bat da RDFren barnean. Lehen esan dugun bezala, RDF gaiari egiten dio erreferentzia eta RDF0809 gai hori zein ikasturtetan egiten dutenei.

 

NUEVA BIBLIOTECA CRAI EN DEUSTO 2009/02/08

Filed under: Ana Elejabeitia — kaskabarra @ 9:00 pm

   La Universidad de Deusto ha construído una nueva biblioteca CRAI diseñada por Rafael Moneo. La biblioteca fue inaugurada por sus majestades los Reyes de España el pasado 27 de enero y es el “mayor centro de sabiduría” del Pais Vasco. 

   Pero bien ¿Sabemos exactamente qué es un centro CRAI? un CRAI es un centro en un entorno dinámico en el que se da importancia al estudio y la investigación por medio de las nuevas tecnologías. Es un lugar que no sólo se relaciona con el estudio, se puede ir ha hacer una lectura informal, a comprar libros, a consultar toda clase de publicaciones, es, en definitiva, un centro social dentro del campus.

   Los que tenemos la suerte de estudiar en la Universidad de Deusto ya hemos empezado a disfrutar de este lugar, aunque nos llege un poco tarde, pues hemos estado este primer semestre del curso sin biblioteca y ésto nos ha traido algún que otro quebradero de cabeza. Pero como se suele decir, lo bueno se hace esperar.

 

EL LIBRO DIGITAL EMPIEZA A ATRAER A LOS LECTORES 2009/02/08

Filed under: Ana Elejabeitia — kaskabarra @ 8:45 pm

Noticia publicada en el periódico El pais el pasado 31 de enero.

Podrían los amantes de los libros estar por fin dispuestos a cambiar del papel a los píxeles? Durante una década, los consumidores prácticamente hicieron caso omiso de los aparatos digitales de lectura, que a menudo eran difíciles de usar y ofrecían pocas obras populares para leer. Pero últimamente, en parte debido a la popularidad del dispositivo inalámbrico Kindle de Amazon.com, el libro electrónico empieza a imponerse.

El Kindle, un aparato delgado y blanco que cuesta 280 euros, tiene aproximadamente el tamaño de un libro en rústica y salió al mercado el año pasado. Aunque Amazon se niega a hacer públicas sus cifras de ventas, el Kindle ha hecho al menos honor a su nombre [en inglés significa despertar, encender] al crear un amplio interés por los libros digitales. Ahora se ha agotado y no estará disponible hasta febrero. Los analistas atribuyen el mérito a Oprah Winfrey, la popular presentadora de televisión que elogió el Kindle en su programa en octubre, y culpan a Amazon de mala planificación para la temporada navideña.

La escasez está haciendo sitio a Sony, que se embarcó en una intensa campaña de publicidad para su aparato Reader cuando los consumidores estaban comprando los regalos este diciembre. El aumento de la competencia puede representar la madurez de la idea de leer textos más largos en un aparato digital portátil. “Se tiene la idea de que los libros electrónicos tienen 10 años de existencia y no han cuajado”, comenta Steve Haber, presidente de la sección de lectura digital de Sony. “Pero ahora está ocurriendo. Realmente empiezan a despegar”. Amazon eclipsó los esfuerzos de Sony. Pero esta última inició en diciembre una promoción relámpago en aeropuertos, estaciones y librerías, con el ambicioso objetivo de demostrar personalmente el Reader a dos millones de personas.

El modelo más reciente de la empresa, el Reader 700, es un aparato de 310 euros con lámpara para leer y una pantalla táctil que permite a los usuarios hacer anotaciones en lo que leen. Haber afirma que en Navidad las ventas de Sony se triplicaron con respecto a las pasadas en parte porque el aparato está ahora disponible en cadenas como Target, Borders y Sam’s Club. Dice que Sony ha vendido más de 300.000 aparatos desde el lanzamiento del Reader original, en 2006.

Es difícil cuantificar el éxito del Kindle, porque Amazon se niega a publicar cuántos ha vendido y los cálculos de los analistas varían. Peter Hildick-Smith, presidente del Grupo Codex, empresa de investigación del mercado de libros, cree que Amazon había vendido 260.000 unidades hasta comienzos de octubre, antes del empujón de Winfrey. Otros creen que el número podría ascender al millón.

Muchos compradores de Kindle parecen situarse fuera del habitual grupo demográfico obsesionado por los aparatitos. Lo compran casi tantas mujeres como hombres, afirma Hildick-Smith, y es más popular entre el grupo de edad situado entre los 55 y los 64 años.

Por el momento, editoriales como HarperCollins, Random House y Simon&Schuster dicen que las ventas de libros electrónicos para cualquier aparato -incluidas las simples descargas en ordenadores- constituyen menos del 1% de las ventas totales de libros. Pero hay señales de que están creciendo. Según las editoriales, las ventas de libros digitales se triplicaron o cuadruplicaron el año pasado.

Incluso autores antes reacios a vender su obra en bites empiezan a cambiar de idea. Tras las dudas iniciales, se espera que autores de superventas como Danielle Steel y John Grisham añadan pronto sus títulos al catálogo de libros electrónicos, dicen sus agentes.

“Los libros digitales se convertirán en el formato principal para un grupo creciente de lectores que ahora están descubriendo cuánto les gusta leer libros en una pantalla”, vaticina Markus Dohle, director ejecutivo de Random House.

Puede que el empujón a los libros electrónicos más pasado por alto este año procediese del iPhone de Apple. Se han creado varios programas de lectura de libros electrónicos para este aparato, y al menos dos de ellos, Stanza de LexCycle y eReader de Fictionwise, se han descargado más de 600.000 veces. Otra empresa, Scroll Motion, anunciaba recientemente que empezará a vender libros electrónicos para el iPhone de grandes editoriales como Simon & Schuster, Random House y Penguin.

Todas estas empresas explican que están adaptando sus programas a otros tipos de teléfonos inteligentes, como las BlackBerry. Las editoriales consideran que estas aplicaciones del iPhone ya están empezando a generar casi tantas ventas de libros digitales como el Reader de Sony, aunque todavía van a la zaga del Kindle.

Se espera que Amazon y Sony introduzcan nuevas versiones de sus lectores este año, y, concretamente, que el nuevo Kindle tenga un diseño más ligero y un microprocesador mejor, que permita pasar las páginas con más rapidez.

Mary Ann van Hengel, de 51 años, diseñadora gráfica de Croton-on-Hudson, un barrio residencial de Nueva York, criticó en una ocasión a los lectores de libros electrónicos en su club de lectura. Pero se ha aficionado al Kindle que su marido le regaló este otoño, poco después de la recomendación de Winfrey.

Van Hengel afirma que el Kindle la ha llevado a comprar más libros de los que normalmente compraría impresos.

 

SUMMPLEMENTUM CHRONICARUM ORBIS AB INITIO MUNDI 2009/02/08

Filed under: Ana Elejabeitia — kaskabarra @ 8:22 pm

   Èste incunable fue escrito por Jacobo Filippo Foresti y fue impreso en Venecia el 15 de diciembre de 1486 por Bernardinum de Bernaliis. Las características de éste incunable son las siguientes:

  1. El tipo de letra que utiliza es gótica.

  2. Disposición del texto: no hay columnas, está escrito todo seguido en un párrafo. Hay un grabado insertado en el texto.

  3. Tiene anotaciones manuscritas en los márgenes.

  4. Mayúsculas en color negro y bastante discretas.

  5. Se ve un precedente del pie de página.

  6. Importantes grabados de la ciudad de Venecia.

  7. El tamaño del libro es tamaño folio.

  8. El papel es grueso y de mala calidad.

  9. La encuadernación es en pergamino.

  10. Pone anno mundi en la parte derecha o izquierda superior de las páginas.

 

 
Follow

Get every new post delivered to your Inbox.