Das PaGeS-Korpus, ein Parallelkorpus der deutschen und spanischen GegenwartsspracheEl corpus PaGeS, un corpus paralelo de textos alemanes y españoles contemporáneos

  • Irene Doval Universidade de Santiago de Compostela
Palabras clave: Corpus paralelos, lingüística contrastiva, traducción, lingüística de corpus, lingüís¬tica computacional, lengua alemana, lengua española

Resumen

El corpus PaGeS es un corpus bilingüe paralelo que incluye una colección de textos con­temporáneos alemanes y españoles. Este artículo describe las sucesivas fases en la elaboración del corpus. Esta descripción incluye el proceso de preparación de los textos para procesarlos, la anotación lingüística y el procedimiento de alineación automático y manual. Se aborda el tema del acceso y de la visualización de los resultados, así como las diferentes posibilidades de búsqueda. Finalmente se esbozan los pasos futuros.

Citas

Braune, F. / Fraser, A., «Improved Unsupervised Sentence Alignment for Symmetrical and Asymmetrical Parallel Corpora», in: Huang, Ch. / Jurafsky, D. (ed.), Coling. Beijing 2010, 81-89.

Brown, P. et al., «The Mathematics of Statistical Machine Translation: Parameter Estima-tion», Computational Linguistics 19/2 (1993), 263-311.

Doval, I., «Raumerfassung kontrastiv Deutsch / Spanisch», in: Ogawa, A. (Hg.), Raumerfassung – Deutsch im Kontrast. Tübingen: Stauffenburg Verlag 2016, 209-236.

Fabricius-Hansen, C., «Paralleltext und Übersetzung in sprachwissenschaftlicher Sicht», in: Kittel, H. et al. (Hg.), Übersetzung, Translation, Traduction, vol 1, Berlin / New York: de Gruyter 2004, 322-29.

Gale, W. / Church, K., «A program for aligning sentences in bilingual corpora», Computa-tional Linguistics 19/1 (1993), 75-102.

Kay, M. / Röscheisen, M., «Text-Translation Alignment», Computational Linguistics 19/1 (1993), 121-142.

Koehn, P., EuroParl, «A parallel corpus for statistical machine translation». Proceedings of the machine translation summit, Thailand, Phuket 2005, 79-86. http://www.statmt.org/europarl/ [15.07.2017].

Krause, M. / Doval, I., Spatiale Relationen – kontrastiv Deutsch – Spanisch. Tübingen: Groos 2011.

Lemnitzer, L. / Zinsmeister, H., Korpuslinguistik. Eine Einführung. Tübingen: Narr, 2. Aufl. 2010.

Lüdeling, A. / Walter, M., «Korpuslinguistik für Deutsch als Fremdsprache Sprachvermittlungund Spracherwerbsforschung», 2009, https://www.linguistik.hu-berlin.de/de/institut/ professuren/korpuslinguistik/ mitarbeiter-innen/anke/pdf/-Luedeling¬WalterDaF.pdf ¬¬[12.06.2017].

Mcenery, A. / Xiao, Z., «Parallel and comparable corpora: What are they up to?», Incorpo-rating corpora: Translation and the linguist. Translating Europe. Multilingual matters, Chap XX, Clevedon, UK, 2007. http://someya-net.com/104-IT_Kansai_Initiative/corpora_and_translation.pdf [15.07.2017].

Padró, L., «Analizadores Multilingües en FreeLing», Linguamatica 3/ 2 (2011), 13-20.

Schmid, H., «Improvements in Part-of-Speech Tagging with an Application to German», Proceedings of the ACL SIGDAT-Workshop. Dublin: 1995. http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger2.pdf [15.07.2017].

Schmid, H., «Probabilistic Part-of-Speech Tagging Using Decision Trees», Proceedings of International Conference on New Methods in Language Processing, Manchester 1994. Reviewed version: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger1.pdf [15.07.2017].

Steinberger, R. et al., «An overview of the European Union’s highly multilingual parallel corpora», Language Resources and Evaluation, 48, 4 (2014), 679-707. doi:10.1007/s10579-014-9277-0.

Storrer, A., «Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie», in: Knapp, K. et al. (Hg.), Angewandte Linguistik. Ein Lehrbuch. 3. Auflage. Tübingen: Francke 2013, 216-239.

Tiedemann, J., «Parallel Data, Tools and Interfaces in OPUS». Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC-2012) ELRA 2012, 2214-2218, www.lrec-conf.org/proceedings/lrec2012/pdf/463_Paper.pdf [12.06.2017].

Tiedemann, J., Bitext Alignment. Toronto: Morgan & Claypool 2011.

Varga, D. et al., «Parallel corpora for medium density languages», Proceedings of the RANLP 2005, 590-596 https://doi.org/10.1016/j.protcy.2014.11.024. [15.07.2017].

Volk, M. / Graën, J. / Callegaro, E., «Innovations in parallel corpus search tools», in: Ninth International Conference on Language Resources and Evaluation (LREC'14), Reykja-vik, 2014, http://www.zora.uzh.ch/id/eprint/97282/1/Volk_Graen_Callegaro_LREC_2014_v06.pdf [15.07.2017].

Zinsmeister, H., «Corpora», in: Carstensen, K.-U. et al. (Hg.), Computerlinguistik und Sprachtechnologie: Eine Einführung. Heidelberg: Spektrum, Akad. Verl., 3. Aufl., 2010, 481-492.

Sección
Artículos. Estudios lingüísticos