PLATCOL, Plataforma Multilingüe de Diccionarios de Colocaciones: el caso del chino
- José Manuel Pazos Bretaña
- Adriane Orenha Ottaiano Universidade Estadual Paulista “Júlio de Mesquita Filho”
- Zhongmei Xiong Universidad de Granada
El objetivo de esta contribución es realizar algunas observaciones sobre el procesamiento de las colocaciones extraídas de la lengua china, así como discutir los problemas que hemos observado al trabajar con esta lengua en la Plataforma Multilingüe de Diccionarios de Colocaciones (PLATCOL). PLATCOL incluirá colocaciones en inglés, portugués, español, francés y chino (Orenha-Ottaiano et al. 2021) y forma parte del proyecto A phraseographical methodology and model for an Online Corpus-Based Multilingual Collocations Dictionary Platform (Proceso FAPESP 2020/01783-2). En la plataforma se ha seguido una metodología unificada para obtener los datos que poblarán las entradas. Esta metodología que funciona con razonable eficacia en las demás lenguas –aunque requiere una fase supervisada de corrección y validación– conlleva un esfuerzo suplementario en el caso de la lengua china donde, por ejemplo, discrepancias en la asignación de categorías gramaticales pueden afectar a la eficacia del método a la hora de extraer candidatos.
Bibliographies de l'auteur
José Manuel Pazos Bretaña es Profesor Titular de Universidad en el Departamento de Lingüística General y Teoría de la Literatura de la Universidad de Granada. Su campo de trabajo es la Fraseología Comparada y Computacional.
Adriane Orenha-Ottaiano works as a Lecturer and Researcher at the Department of Modern Languages, in the English Language area, at the São Paulo State University (UNESP), São José do Rio Preto Campus, since 2010, and Lecturer, level II, since 2014. She works at the Graduate Program in Linguistic Studies, from UNESP, in the research lines "Translation Studies" and "Corpus-based Translation and Lexicon Pedagogy", having supervised undergraduates, master's and doctoral students, with CAPES, CNPq and FAPESP scholarships. He has a PostDoctoral Fellowship in Translation from Université de Montréal, Canada (FAPESP scholarship Process ner 2018/22943-8), a PhD in Linguistics Studies, from São Paulo State University (UNESP) and a Master's in Languages, from University of Sao Paulo (USP). She has a B.A. in Translation, from São Paulo State University (UNESP). She coordinates the research project "A phraseographical methodology and model for an Online Corpus-Based Multilingual Collocations Dictionary Platform", funded by FAPESP (Process 2020 / 01783-2). She is leader of the CNPq Research Group FRASCORP - Fraseologia e Colocações a partir de Corpora (PHRASCORP - Corpus-based Phraseology and Collocations) and Vice leader of the group Lexicon and Translation Pedagogy and Corpus Linguistics", and collaborator of the research group "Linguistic Policies for Education and Internationalization of Portuguese (PLIP)". She has been a member of the "American Organization of Teachers of Portuguese", since 2018. In 2015, he did an internship at the University of Surrey, in the United Kingdom, (EDITAL Nº 03/2015-PROPG/PAREex). She has experience in Applied Linguistics, working mainly in research areas with an interface between Corpus-Based Translation Studies, Teaching English and Portuguese as a foreign language, Corpus Linguistics, Corpus-based Phraseology and Phraseography, focusing on general language and specialized collocations. (Source: Lattes Curriculum)
Zhongmei Xiong es estudiante en el Programa de Doctorado Lenguas, Textos y Contextos de la Universidad de Granada. En la actualidad está trabajando en la elaboración de su tesis doctoral en el campo de la fraseología en el par de lenguas chino y español.
Alonso-Ramos, Margarita (1994). Hacía una definición del concepto de colocación: de J. R. Firth a I. A Mel’čuk. Revista de Lexicografía, 1, 9-28.
Alonso-Ramos, Margarita (2001). Construction d’une base de données des collocations bilingue français-espagnol. Langages, 35 (143), 5-27.
Alonso-Ramos, Margarita (2008). Papel de los diccionarios de colocaciones en la enseñanza de español como L2. En E. Bernal y J. DeCesaris (Eds.), Proceedings of the XIII EURALEX International Congress (pp. 1215-1230). IULA/Documenta Universitaria.
Alonso-Ramos, Margarita y García-Salido, Marcos (2019). Testing the Use of a Collocation Retrieval Tool Without Prior Training by Learners of Spanish. International Journal of Lexicography, 32 (4), 480-497.
Artetxe, Mikel, Labaka, Gorka y Agirre, Eneko (2018). A robust self-learning method for fully unsupervised crosslingual mappings of word embeddings. En Iryna Gurevych y Yusuke Miyao (Eds.), Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 1, 789-798.
Atkins, B. T. Sue y Rundell, Michael (2008). The Oxford guide to practical lexicography. Oxford University Press.
Barfield, Andy y Gyllstad, Henrik (Eds.) (2009). Researching Collocations in another language: Multiple Interpretations. Palgrave Macmillan.
Baroni, Marco; Bernardini, Silvia; Ferraresi, Adriano y Zanchetta, Eros (2009). The WaCky wide web: A collection of very large linguistically processed web-crawled corpora. Language Resources and Evaluation, 43 (3), 209-226.
Bergenholtz, Henning y Tarp, Sven (2003). Two opposing theories: On H.E. Wiegand’s recent discovery of lexicographic functions. HERMES - Journal of Language and Communication in Business, 31, 171-196.
Bernardini, Silvia (2007). Collocations in Translated Language: Combining Parallel, Comparable and Reference Corpora. En Matthew Davies, Paul Rayson, Susan Hunston y Pernilla Danielsson (Eds.), Proceedings of the Corpus Linguistics Conference (CL2007) (pp. 1-16). University of Birmingham. Disponible en:
Bird, Steven; Klein, Ewin y Loper, Edward (2009). Natural Language Processing with Python. O’Reilly Media Inc.
Bond, Francis y Foster, Ryan (2013). Linking and extending an open multilingual Wordnet. En Hinrich Schuetze, Pascale Fung y Massimo Poesio (Eds.), Proceedings of the 51st annual meeting of the association for computational linguistics (Volume 1: Long papers) (pp. 1352-1362). Association for Computational Linguistics. Disponible en: 1133.pdf
Bothma, Theo. J. D., y Tarp, Sven (2012). Lexicography and the Relevance Criterion. Lexikos, 22, 86-108.
Chen, Yaju. (2006). Xian dai han yu ci yu da pei de zi dong chou qu fang fa 现代汉语词语搭配的自动抽取方法 [Método de extracción automática de colocaciones de palabras en chino moderno]. East China Normal University.
Corpas Pastor, Gloria (1996). Manual de fraseología española. Gredos.
de Gregorio-Godeo, Eduardo y Molina, Silvia (2011). Collocations and the Translation of News: An English–Spanish Electronic Dictionary of Multi-Word Combinations as a Translation Tool. Perspectives, 19 (2), 135-152.
de Marneffe, Marie Catherine; Manning, Christopher D.; Nivre, Joakim y Zeman, Daniel (2021). Universal Dependencies. Computational Linguistics, 47 (2), 255-308.
Evert, Stefan (2008). Corpora and collocations. En A. Lüdeling & M. Kytö (Eds.), Corpus Linguistics (Vol. 2, pp. 1212-1248). Mouton de Gruyter.
Filho Wagner, Jorge A., Wilkens, Rodrigo; Idiart, Marco y Villavicencio, Aline (2018). The brWaC Corpus: A New Open Resource for Brazilian Portuguese. En K. C. Nicoletta, C. Cieri, T. Declerck, S. Goggi, K. Hasida, H. Isahara, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, S. Piperidis y T. Tokunaga (Eds.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018) (pp. 4339-4344). European Language Resources Association. Disponible en:
Fuertes-Olivera, Pedro Antonio y Tarp, Sven (2014). Theory and Practice of Specialised Online Dictionaries: Lexicography versus Terminography. De Gruyter.
Gamallo, Pablo, García, Marcos, Piñeiro, César, Martínez-Castaño, Rodrigo y Pichel, Juan C. (2018). LinguaKit: A big data-based multilingual tool for linguistic analysis and information extraction. Fifth International Conference on Social Networks Analysis, Management and Security (SNAMS), 239-244.
García, Marcos; García-Salido, Marcos y Alonso-Ramos, Margarita (2017). Using bilingual word-embeddings for multilingual collocation extraction. En S. Markantonatou, C. Ramisch, A. Savary y V. Vincze (Eds.), Proceedings of the 13th Workshop on Multiword Expressions (MWE 2017) (pp. 21-30). ACL.
García, Marcos; García-Salido, Marcos y Alonso-Ramos, Margarita (2019a). A comparison of statistical association measures for identifying dependency-based collocations in various languages. En A. Savary, C. P. E. Agata, F. Bond, J. Mitro-vić y V. B. Mititelu (Eds.), Proceedings of the Joint Workshop on Multiword Expressions and WordNet (MWE-WN 2019) (pp. 49-59). ACL.
García, Marcos; García-Salido, Marcos y Alonso-Ramos, Margarita (2019b). Towards the automatic construction of a multilingual dictionary of collocations using distributional semantics. En I. Kozem, M. Correia, J. P. Ferreira, M. Jansen, I. Pereira, J. Kallas, M. Jakubíček, S. Krek, C. Tiberius y T. Zingano Kuhn (Eds.), Proceedings of eLex 2019: Smart Lexicography (pp. 747-762). Lexical Computing CZ. Disponible en:
García, Marcos; García-Salido, Marcos y Alonso-Ramos, Margarita (2019c). Weighted compositional vectors for translating collocations using monolingual corpora. En G. Corpas Pastor & R. Mitkov (Eds.), Computational and Corpus-Based Phraseology (pp. 113-128). Springer.
Gries, Stephan Th. (2013). Statistics for linguistics with R: a practical introduction (2nd revised). De Gruyter Mouton.
Hausmann, Franz Josef (1985). Kollokationen im deutschen Wörterbuch. Ein Beitrag zur Theorie des lexikographischen Beispiels. En H. Bergenholtz y J. Mugdan (Eds.), Lexikographie und Grammatik (pp. 118-129). De Gruyter.
Hausmann, Franz Josef (1989). Le dictionnaire de collocations. En O. Reichmann, H. E. Wiegand y L. Zgusta (Eds.), Wörterbücher: Ein internationales Handbuch zur Lexicographie. Dictionaries. Dictionnaires (pp. 1010-1019). De Gruyter.
Heylen, Dirk y Maxwell, Kerry (1994). Lexical functions and the translation of collocations. International Conference on Computational Linguistics, Kyoto, Japan, pp. 298-305.
Higueras-García, Marta (2005). Necesidad de un diccionario de colocaciones para aprendientes de ELE. En M. A. Castillo et al. (Eds.). Las gramáticas y los diccionarios en la enseñanza del español como segunda lengua: deseo y realidad. Actas del XV Congreso Internacional de ASELE (pp. 480-490). Universidad de Sevilla.
Jousse, Anne-Laure y Polguère, Alain (2005). Le DiCo et sa version DiCouébe. Document descriptif et manuel d’utilisation. Université de Montréal: Observatoire de linguistique Sens-Texte (OLST). Disponible en:
Kenny, Dorothy (2001). Lexis and creativity in translation: A corpus-based study. St. Jerome Pub.
Kilgarriff, Adam; Husák, Miloš; McAdam, Katy; Rundell, Michael y Rychly, Pavel (2008). GDEX: Automatically Finding Good Dictionary Examples in a Corpus. En E. Bernal y J. DeCesaris (Eds.), Proceedings of the 13th EURALEX International Congress (pp. 425-432). Institut Universitari de Linguistica Aplicada. Universitat Pompeu Fabra. Disponible en:
Kilgarriff, Adam; Marcowitz, Fredrik; Smith, Simon y Thomas, James (2015). Corpora and Language Learning with the Sketch Engine and SKELL. Revue française de linguistique appliquée, XX (1), 61-80.
Koehn, Philipp (2005). Europarl: A parallel corpus for Statistical Machine Translation. Proceedings of the 10th Machine Translation Summit, 79-86. Disponible en:
Kosem, Iztok, Koppel, Kristina; Kuhn, Tanara Z.; Michelfeit, Jan y Tiberius, Carole (2019). Identification and automatic extraction of good dictionary examples: The case(s) of GDEX. International Journal of Lexicography, 32 (2), 119-137.
Laufer, Batia (2011). The Contribution of Dictionary Use to the Production and Retention of Collocations in a Second Language. International Journal of Lexicography, 24 (1), 29-49.
Manning, Christopher; Surdeanu, Mihai; Bauer, John; Finkel, Jenny; Bethard, Steven y McClosky, David (2014). The Stanford CoreNLP Natural Language Processing Toolkit. Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 55-60.
Mei, Jiaju (Ed.) (1999). Xian dai han yu da pei ci dian 现代汉语搭配词典 [‘Diccionario de Colocación del Chino Moderno’]. Shanghai: Han yu da ci dian chu ban she 汉语大词典出版社.
Mikolov, Tomas; Chen, Kai; Corrado, Greg y Dean, Jeffrey (2013). Efficient estimation of word representations in vector space. En Y. Bengio y Y. LeCun (Eds.), Workshop Proceedings of the International Conference on Learning Representations (ICLR).
Moon, Rosamund (2008). Sinclair, Phraseology, and Lexicography. International Journal of Lexicography, 21 (3), 243-254.
Nesselhauf, Nadja (2005). Collocations in a Learner Corpus. John Benjamins.
Orenha-Ottaiano, Adriane (2009). A compilação de corpora comparáveis na área de negócios e sua relevância para a tradução e terminologia. Calidoscópio, 7 (3), 232-36.
Orenha-Ottaiano, Adriane (2012). English collocations extracted from a corpus of university learners and its contribution to a language teaching pedagogy. Acta Scientiarum, 34 (2), 241-251.
Orenha-Ottaiano, Adriane (2013). The proposal of an electronic bilingual dictionary based on corpora. En O. M. Karpova (Ed.), Life Beyond Dictionaries. Proceedings of X Anniversary International School on Lexicography (pp. 405-408).
Orenha-Ottaiano, Adriane (2016). The compilation of a printed and online corpus-based bilingual collocations dictionary. En G. Meladze, T. Margalitadze e I. Javakhishvili (Eds.), Proceedings of the 17th EURALEX international congress (pp. 735-745). Tbilisi University Press.
Orenha-Ottaiano, Adriane (2017). The compilation of an Online Corpus-Based Bilingual Collocations Dictionary: motivations, obstacles and achievements. En I. Kosem, C. Tiberius, M. Jakubíček, J. Kallas, S. Krek y V. Baisa (Eds.), Proceedings of eLex 2017–Electronic lexicography in the 21st century: Lexicography from Scratch (pp. 458-473). Lexical Computing CZ, s.r.o.
Orenha-Ottaiano, Adriane (2020). The creation of an online English collocations platform to help develop collocational competence. Phrasis: Revista di studi fraseologici e paremiologic. Associazone Italiana di Fraseologia e Paremiologia, 1, 59-81.
Orenha-Ottaiano, Adriane (2021). Escollas colocacionais a partir dun corpus de estudantes de tradución e a importancia do desenvolvemento da competencia colocacional. Cadernos de Fraseoloxía Galega, 21, 35-64.
Orenha-Ottaiano, Adriane; García, Marcos; Olímpio De Oliveira, Maria Eugênia; L’Homme, Marie-Claude; Alonso Ramos, Margarita; Valêncio, Carlos Roberto y Tenório, William (2021). Corpus-based methodology for an Online Multilingual Collocations Dictionary: First Steps. En I. Kosem, M. Cukr, M. Jakubíček, J. Kallas, S. Krek y C. Tiberius (Eds.), Proceedings of eLex 2021 (pp. 1-28).
Padró, Luís y Stanilovsky, Evgeny (2012). FreeLing 3.0: Towards wider multilinguality. Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC’12), 2473-2479. Disponible en:
Pamies, Antonio (2019). La fraseología a través de su terminología. En J. J. Martín Ríos (Ed.), Estudios lingüísticos y culturales sobre China (pp. 105-134). Comares.
Penadés Martínez, Inmaculada (2017). Arbitrariedad y motivación en las colocaciones. RLA, 55 (2), 121-142.
Pérez Serrano, Mercedes (2014). ¿Son indispensables los diccionarios combinatorios? Revista de Lexicografía, 20, 121–145.
Qian, Xiaofei (2012). Automatic Extraction of Chinese V-N Collocations. En D. Ji y G. Xiao (Eds.), Chinese Lexical Semantics (pp. 230-241). Springer.
Qiao, Yun (2017). Evolución y estructura del léxico chino: Un enfoque cognitivo. Universidad de Granada.
Santos, Diana y Rocha, Paulo (2005). The Key to the first CLEF in Portuguese: Topics, questions and answers in CHAVE. En C. Peters, P. Clough, J. Gonzalo, G. J. F. Jones, M. Kluck, y B. Magnini (Eds.), Multilingual Information Access for Text, Speech and Images (pp. 821-832). Springer.
Sinclair, John McHardy (1991). Corpus, concordance, collocation. Oxford University Press.
Sinclair, John McHardy (1966). Beginning the study of lexis. In C. E. Bazell, J. C. Catford, M. A. K. Halliday y R. H. Robins (Eds.). In Memory of J.R. Firth. Longman.
Straka, Milan y Straková, Jana (2017). Tokenizing, POS tagging, lemmatizing and parsing UD 2.0 with UDPipe. En J. Hajič y D. Zeman (Eds.), Proceedings of the CoNLL 2017 shared task: Multilingual parsing from raw text to universal dependencies (pp. 88-99). Association for Computational Linguistics.
Sun, Maosong; Huang, Changning y Fang, Jie (1997). Han yu da pei ding liang fen xi chu tan 汉语搭配定量分析初探 [‘Un estudio preliminar sobre el análisis cuantitativo de la colocación china’]. Zhong guo yu wen 中国语文, 1, 29-38.
Tarp, Sven (2015). La teoría funcional en pocas palabras. Estudios de Lexicografía, 4, 31-42.
Teubert, Wolfgang (2004). Units of meaning, parallel corpora, and their implications for language teaching. En U. Connor y T. Upton (Eds.), Applied corpus linguistics: A multidimensional perspective (pp. 171–189). Rodopi.
Torner, Sergi y Bernal, Elisenda (Eds.). (2017). Collocations and Other Lexical Combinations in Spanish. Routledge.
Zeng, Tong (2015). Ji yu da gui mo yu liao ku de han yu da pei zi dong yan jiu chou qu 基于大规模语料的汉语搭配自动抽取研究 [‘Extracción automática de colocaciones en chino a partir de un corpus a gran escala’]. Nanjing Agricultural University.
La revista Estudios de Traducción, para fomentar el intercambio global del conocimiento, facilita el acceso sin restricciones a sus contenidos desde el momento de su publicación en la presente edición electrónica, y por eso es una revista de acceso abierto. Los originales publicados en esta revista son propiedad de la Universidad Complutense de Madrid y es obligatorio citar su procedencia en cualquier reproducción total o parcial. Todos los contenidos se distribuyen bajo una licencia de uso y distribución Creative Commons Reconocimiento 4.0 (CC BY 4.0). Esta circunstancia ha de hacerse constar expresamente de esta forma cuando sea necesario. Puede consultar la versión informativa y el texto legal de la licencia.