18th Workshop on Building and Using Comparable Corpora

Program: Monday, 20 Jan, 2025

9:15–9:30 Opening and introduction

9:30–10:30 Multilingual corpus development

Bilingual resources for Moroccan Sign Language Generation and Standard Arabic Skills Improvement of Deaf Children
Abdelhadi Soudi¹, Corinne Vinopol², Kristof Van Laerhoven³
¹École Nationale Supérieure des Mines de Rabat, Morocco, ²Institute for Disabilities Research and Training, USA, ³University of Siegen, Germany

Harmonizing Annotation of Turkic Postverbial Constructions: A Comparative Study of UD Treebanks
Arofat Akhundjanova
Saarland University, Germany

10:30–11:00 Coffee break, morning

11:00–13:00 Multilinguality of Large Language Models

KEYNOTE: Towards Truly Open, Language-Specific, Safe, Factual, and Specialized Large Language Models
Preslav Nakov
Mohamed bin Zayed University of Artificial Intelligence, UAE

Make Satire Boring Again: Reducing Stylistic Bias of Satirical Corpus by Utilizing Generative LLMs
Asli Umay Ozturk, Recep Firat Cekinel, Pinar Karagoz
Middle East Technical University (METU), Turkey

BEIR-NL: Zero-shot Information Retrieval Benchmark for the Dutch Language
Ehsan Lotfi, Nikolay Banar, Walter Daelemans
University of Antwerp, Belgium

13:00–14:00 Lunch

14:00–15:30 Machine Translation and Cross-lingual Processing

Refining Dimensions for Improving Clustering-based Cross-lingual Topic Models
Chia-Hsuan Chang¹, Tien Yuan Huang², Yi-Hang Tsai², Chia-Ming Chang², San-Yih Hwang²
¹Yale University, USA, ²National Sun Yat-sen University, Taiwan

The Role of Handling Attributive Nouns in Improving Chinese-To-English Machine Translation
Haohao (Lisa) Wang¹, Adam Meyers², John E. Ortega³, Rodolfo Zevallos⁴
¹Carnegie Mellon University, USA, ²New York University, USA, ³Northeastern University, USA, ⁴Barcelona Supercomputing Center, Spain

Can a Neural Model Guide Fieldwork? A Case Study on Morphological Data Collection
Aso Mahmudi¹, Borja Herce², Demian Inostroza Améstica¹, Andreas Scherbakov¹, Eduard H Hovy¹, Ekaterina Vylomova¹
¹The University of Melbourne, Australia, ²University of Zurich, Switzerland

15:30–16:00 Coffee break, afternoon

16:00–17:30 Diversity of language resources

KEYNOTE: Comparable Corpora: Opportunities for New Research Directions
Kenneth Ward Church
Northeastern University, USA

SELEXINI – a large and diverse automatically parsed corpus of French
Manon Scholivet¹, Agata Savary¹, Louis Estève¹, Marie Candito², Carlos Ramisch³
¹Université Paris-Saclay, France, ²Université Paris Cité, France ³Aix Marseille University, France

17:30–17:45 Closing remarks

Last modified: 5 Jan 2025