Euskera
Nace el mayor corpus del euskera, con 205 millones de palabras
Elaborado por el Instituto del Euskera de la UPV/EHU, está disponible online a través de ehu.es/etc.
La comunidad educativa vasca cuenta con el corpus de euskera más grande jamás elaborado con un total de 204,9 millones de palabras. Elaborado por el Instituto del Euskera de la UPV/EHU, está disponible online a través de ehu.es/etc. Egungo Testuen Corpusa (ETC) ha sido presentado en Bilbao en un acto en el que han intervenido el lehendakari Urkullu, el rector de la UPV/EHU Iñaki Goirizelaia, el director del Instituto del Euskera, Pello Salaburu y el investigador Ibon Sarasola, así como el director general de Lagun Aro, Pablo Mongelos.
ETC es el corpus más grande jamás elaborado en euskera que ha necesitado cuatro años para llevarlo a cabo. En formato online y abierto a cualquiera, cuenta con 204,9 millones de palabras en vasco y ofrece información de cada una de ellas, donde la posibilidad de distinguir entre lema y todas sus variantes. También se pueden hacer consultas sobre todos los ejemplos de cada variante, comparar entre varios términos el uso que se les a o consultar conjuntos de palabras. Además permite observar la evolución del uso de un termino mostrando año a año si se va utilizando más o menos, lo que permite abrir vías para analizar los motivos de esa evolución.
Todos los textos en prosa sacados de libros, prensa y textos de la Wikipedia escogidos por su calidad pero del siglo XXI. "El euskera se ha estabilizado mucho a partir del 2000, pues ese año publicó Euskaltzaindia Hiztegi Batua' y eso ha tenido gran influencia", ha indicado Salaburu. ETC se complementa con otros corpus elaborados en la anterioridad por el Instituto del Euskera de la UPV/EHU, como son 'Ereduzko prosa Gaur' con 25 millones de palabras. Para elaborar 'Orotariko Euskal Hiztegia' de Euskaltzaindia utilizó un corpus de cinco millones de palabras.