Xinyu Zhang (Crystina)

Crystina Xinyu Zhang |

张馨予

Hi! I am Crystina, currently in my final-year of pursuing my PhD at University of Waterloo. I'm honored and fortunate to be advised by Professor Jimmy Lin. I also had wonderful time interning at Google DeepMind, Cohere, Max Planck Institut für Informatik, and NAVER CLOVA. Prior to joining University of Waterloo, I received my Bachelor's degree in Computer Science at HKUST. I was an exchange student at the University of California, Los Angeles, and the University of Waterloo during my undergraduate.

Research Interests

My research focuses on information retrieval and natural language processing, with a particular emphasis on multilingual and multicultural scenarios, aiming to advance techniques to serve people from different languages and cultures on equal footing.

Multilingual Data: High-quality training data are fundamental for building multilingual models, and evaluation data are fundamental for understanding model capacity. We constructed large-scale training and evaluation datasets for neural retrieval models that support wide-range of languages (MIRACL and Mr. TyDi), and that sepecifically for low-resource languages (AfriCIRMatrix, CIRAL).
Training Strategies for Multilingual Retrieval: We conduct systematic studies on the best practices for training multilingual dense retrievers, covering a broad spectrum of scenarios involving varying levels of training data and language model support. More recently, we have developed multimodal retrieval models that operate over text, audio, images, and video—such as OmniEmbed, which achieved first place at the MAGMaR workshop.
Understanding Multilingual Mechanisms in LMs: We study how multilingual models internally represent meaning across languages. This includes analyzing shared semantic structures in multilingual language models (Tomato) and examining the sources of cross-lingual transfer, such as the impact of incidental multilingual text in training (Impact of Incidental Multilingual Text).

Happy to connect with people who share similar research interests, feel free to reach out! Also if you are undergraduate students at University of Waterloo and are looking for research opportunities or advice, I'm happy to chat.

News

9/2025: Hard Negative, Hard Lesson is accepted by EMNLP 2025!
7/2025: 🌐 Just for fun, I'm hosting a Multilingual Paperbase for easily browsing and collecting multilingual papers from given .bib files. See more details here.
1/2025: 🍅Tomato is accepted by NAACL 2025! See you in Albuquerque!
1/2025: I now publish under the name Crystina Zhang.
12/2024: Rank-without-GPT and Impact of Incidental Multilingual Text on the Cross-Lingual Transferring in Monolingual Retrieval is accepted by ECIR 2025!
11/2024: W1KP won the outstanding paper award at EMNLP 2024 🏝️️! []
11/2024: My Google internship work is on ArXiv! 🍅 Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models. []
10/2024: FoodieQA, W1KP, and NoMIRACL are accepted in EMNLP 2024!
07/2024: Glad that CIRAL has been nominated for the best paper at SIGIR 2024!
07/2024: I will give a talk in SIGIR 2024 LLM Day! []
03/2024: And CIRAL is accepted in SIGIR 2024!
03/2024: Happy to annouce that CELI and Found in the Middle are accepted in NAACL 2024. See you in Mexico City!
12/2023: My Cohere internship work is on ArXiv: Curious on how to build a listwise reranking without reliance on GPT? check out Rank-without-GPT! []
11/2023: I started the student researcher in Google DeepMind at the Canopy team.
08/2023: Happy to annouce that MIRACL is accepted in TACL and Best Practice in Training mDPR is accepted in TOIS!
05/2023: I started research intern in Cohere at the RAG team.
05/2023: I have been awarded the David R. Cheriton Graduate Scholarship!
02/2023: MIRACL (and me) will be on WSDM Cup 2023 in Singapore!
12/2022: I will be attending my first in-person conference at EMNLP 2022 in Abu Dhabi!

Publications show all by date / show all by topic

Topics: Multilingualism / LLM Reranking / pretrained-LM Reranking / Others (*: Equal Contribution)

BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent

Zijian Chen, Xueguang Ma, Shengyao Zhuang*, [...], Crystina Zhang, [...] (20 authors)

NeurIPS 2025 MTI-LLM Workshop (Spotlight) arXiv | Website | Code | Dataset | Leaderboard

MAGMaR Shared Task System Description: Video Retrieval with OmniEmbed

Jiaqi Samantha Zhan, Crystina Zhang, Shengyao Zhuang, Xueguang Ma, Jimmy Lin

ACL 2025 MAGMaR Workshop. arXiv | Code | Models

Hard Negative, Hard Lesson: Revisiting Training Data Quality for Robust Information Retrieval with LLMs

Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin

EMNLP 2025. arXiv | Code | Models

MMTEB: Massive Multilingual Text Embedding Benchmark

Kenneth Enevoldsen, [...], Crystina Zhang, [...] (80+ authors)

ICLR 2025. Paper | Leaderboard

Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models

Crystina Zhang, Jing Lu, Vinh Q. Tran, Tal Schuster, Donald Metzler, Jimmy Lin

NAACL 2025. Paper | arXiv

The Impact of Incidental Multilingual Text on the Cross-Lingual Transferring in Monolingual Retrieval

Andrew Liu, Edward Xu, Crystina Zhang, Jimmy Lin

ECIR 2025. Paper | Code

Rank-without-GPT: Building GPT-Independent Listwise Rerankers on Open-Source Large Language Models

Crystina Zhang, Sebastian Hofstätter, Patrick Lewis, Raphael Tang, Jimmy Lin

ECIR 2025. Paper | arXiv | Code | Models

Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation [Outstanding Paper Award]

Raphael Tang, Xinyu Zhang, Lixinyu Xu, Yao Lu, Wenyan Li, Pontus Stenetorp, Jimmy Lin, Ferhan Ture

EMNLP 2024. Paper | arXiv | Website

FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture

Wenyan Li, Xinyu Zhang, Jiaang Li, Qiwei Peng, Raphael Tang, Li Zhou, Weijia Zhang, Guimin Hu, Yifei Yuan, Anders Søgaard, Daniel Hershcovich, Desmond Elliott

EMNLP 2024. Paper | arXiv | Dataset

NoMIRACL: Knowing When You Don't Know for Robust Multilingual Retrieval-Augmented Generation.

Nandan Thakur, Luiz Bonifacio, Xinyu Zhang, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Boxing Chen, Mehdi Rezagholizadeh, Jimmy Lin

EMNLP 2024. Paper | arXiv | Dataset

CELI: Simple yet Effective Approach to Enhance Out-of-Domain Generalization of Cross-Encoders

Xinyu Zhang, Minghan Li, and Jimmy Lin

NAACL 2024 Paper

Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models

Raphael Tang, Xinyu Zhang, Xueguang Ma, Jimmy Lin, Ferhan Ture

NAACL 2024 Paper | arXiv | Code

CIRAL: A Test Collection for CLIR Evaluations in African Languages [Best Paper Nomination]

Mofetoluwa Adeyemi, Akintunde Oladipo, Xinyu Zhang, Jimmy Lin, David Alfonso-Hermelo, Mehdi Rezagholizadeh, Boxing Chen, ... (17 authors)

SIGIR 2024 Paper | Dataset

MIRACL: A Multilingual Retrieval Dataset Covering 18 Diverse Languages.

Xinyu Zhang, Nandan Thakur, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Mehdi Rezagholizadeh, and Jimmy Lin

TACL 2023 Paper | arXiv | Code | Website

Towards Best Practices for Training Multilingual Dense Retrieval Models.

Xinyu Zhang, Kelechi Ogueji, Xueguang Ma, Jimmy Lin

TOIS 2023 Paper | Poster

Evaluating Embedding APIs for Information Retrieval

Ehsan Kamalloo, Xinyu Zhang, Odunayo Ogundepo, Nandan Thakur, David Alfonso-hermelo, Mehdi Rezagholizadeh, and Jimmy Lin

ACL 2023 Paper

GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training Data Exploration.

Aleksandra Piktus, Odunayo Ogundepo, Christopher Akiki, Akintunde Oladipo, Xinyu Zhang, Hailey Schoelkopf, Stella Biderman, Martin Potthast, and Jimmy Lin

ACL 2023 Paper

What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations

Raphael Tang, Xinyu Zhang, Jimmy Lin, Ferhan Ture

Preprint. arXiv

HAGRID: A Human-LLM Collaborative Dataset for Generative Information-Seeking with Attribution

Ehsan Kamalloo, Aref Jafari, Xinyu Zhang, Nandan Thakur, Jimmy Lin

Preprint. arXiv | Website | Dataset |

Zero-Shot Listwise Document Reranking with a Large Language Model

Xueguang Ma, Xinyu Zhang, Ronak Pradeep, and Jimmy Lin

Preprint. arXiv

Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages.

Xinyu Zhang, Nandan Thakur, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Mehdi Rezagholizadeh, and Jimmy Lin

Preprint. arXiv

Better Than Whitespace: Information Retrieval for Languages without Custom Tokenizers.

Odunayo Ogundepo, Xinyu Zhang, and Jimmy Lin

Preprint. arXiv

Certified Error Control of Candidate Set Pruning for Two-Stage Relevance Ranking

Minghan Li, Xinyu Zhang, Ji Xin, Hongyang Zhang, Jimmy Lin

EMNLP 2022 Paper | Code

AfriCLIRMatrix: Enabling Cross-Lingual Information Retrieval for African Languages.

Odunayo Ogundepo, Xinyu Zhang, Shuo Sun, Kevin Duh, and Jimmy Lin

EMNLP 2022 Paper | Dataset

Squeezing water from a stone: A bag of tricks for further improving cross-encoder effectiveness for reranking

Ronak Pradeep, Yuqi Liu, Xinyu Zhang, Yilin Li, Andrew Yates, and Jimmy Lin

ECIR 2022 Paper | Code

Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval

Xinyu Zhang, Xueguang Ma, Peng Shi, Jimmy Lin

EMNLP 2021 Workshop MRL Paper | Code | Dataset

Approach Zero and Anserini at the CLEF-2021 ARQMath Track: Applying Substructure Search and BM25 on Operator Tree Path Tokens.

Wei Zhong, Xinyu Zhang, Ji Xin, Richard Zanibbi, Jimmy Lin

CLEF 2021 Paper

Bag-of-Words Baselines for Semantic Code Search.

Xinyu Zhang, Ji Xin, Andrew Yates, and Jimmy Lin

ACL-IJCNLP 2021 Workshop NLP4Prog Paper

Comparing Score Aggregation Approaches for Pretrained Neural Language Models

Xinyu Zhang, Andrew Yates, and Jimmy Lin

ECIR 2021 Paper

A Little Bit Is Worse Than None: Ranking with Limited Training Data.

Xinyu Zhang, Andrew Yates, and Jimmy Lin

EMNLP 2020 Workshop SustainNLP Paper | Code

Flexible IR Pipelines with Capreolus.

Andrew Yates, Kevin Martin Jose, Xinyu Zhang, Jimmy Lin

CIKM 2020 Paper | Code

Capreolus: A Toolkit for End-to-End Neural Ad Hoc Retrieval

Andrew Yates, Siddhant Arora, Xinyu Zhang, Wei Yang, Kevin Martin Jose, Jimmy Lin

WSDM 2020 Paper | Code

Blogs/Podcasts/Videos I Enjoyed

If you read Chinese:

[一寸] How did I overcome procrastination.

Research Interests

News

Publications show all by date / show all by topic

BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent

Zijian Chen*, Xueguang Ma*, Shengyao Zhuang*, [...], Crystina Zhang, [...] (20 authors)

MAGMaR Shared Task System Description: Video Retrieval with OmniEmbed

Jiaqi Samantha Zhan*, Crystina Zhang*, Shengyao Zhuang*, Xueguang Ma*, Jimmy Lin

Hard Negative, Hard Lesson: Revisiting Training Data Quality for Robust Information Retrieval with LLMs

Nandan Thakur*, Crystina Zhang*, Xueguang Ma, Jimmy Lin

MMTEB: Massive Multilingual Text Embedding Benchmark

Kenneth Enevoldsen, [...], Crystina Zhang, [...] (80+ authors)

Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models

Crystina Zhang, Jing Lu, Vinh Q. Tran, Tal Schuster, Donald Metzler, Jimmy Lin

The Impact of Incidental Multilingual Text on the Cross-Lingual Transferring in Monolingual Retrieval

Andrew Liu*, Edward Xu*, Crystina Zhang, Jimmy Lin

Rank-without-GPT: Building GPT-Independent Listwise Rerankers on Open-Source Large Language Models

Crystina Zhang, Sebastian Hofstätter, Patrick Lewis, Raphael Tang, Jimmy Lin

Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation [Outstanding Paper Award]

Raphael Tang, Xinyu Zhang, Lixinyu Xu, Yao Lu, Wenyan Li, Pontus Stenetorp, Jimmy Lin, Ferhan Ture

FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture

Wenyan Li, Xinyu Zhang, Jiaang Li, Qiwei Peng, Raphael Tang, Li Zhou, Weijia Zhang, Guimin Hu, Yifei Yuan, Anders Søgaard, Daniel Hershcovich, Desmond Elliott

NoMIRACL: Knowing When You Don't Know for Robust Multilingual Retrieval-Augmented Generation.

Nandan Thakur, Luiz Bonifacio, Xinyu Zhang, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Boxing Chen, Mehdi Rezagholizadeh, Jimmy Lin

CELI: Simple yet Effective Approach to Enhance Out-of-Domain Generalization of Cross-Encoders

Xinyu Zhang*, Minghan Li*, and Jimmy Lin

Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models

Raphael Tang*, Xinyu Zhang*, Xueguang Ma, Jimmy Lin, Ferhan Ture

CIRAL: A Test Collection for CLIR Evaluations in African Languages [Best Paper Nomination]

Mofetoluwa Adeyemi, Akintunde Oladipo, Xinyu Zhang, Jimmy Lin, David Alfonso-Hermelo, Mehdi Rezagholizadeh, Boxing Chen, ... (17 authors)

MIRACL: A Multilingual Retrieval Dataset Covering 18 Diverse Languages.

Xinyu Zhang*, Nandan Thakur*, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Mehdi Rezagholizadeh, and Jimmy Lin

Towards Best Practices for Training Multilingual Dense Retrieval Models.

Xinyu Zhang, Kelechi Ogueji, Xueguang Ma, Jimmy Lin

Evaluating Embedding APIs for Information Retrieval

Ehsan Kamalloo, Xinyu Zhang, Odunayo Ogundepo, Nandan Thakur, David Alfonso-hermelo, Mehdi Rezagholizadeh, and Jimmy Lin

GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training Data Exploration.

Aleksandra Piktus, Odunayo Ogundepo, Christopher Akiki, Akintunde Oladipo, Xinyu Zhang, Hailey Schoelkopf, Stella Biderman, Martin Potthast, and Jimmy Lin

What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations

Raphael Tang, Xinyu Zhang, Jimmy Lin, Ferhan Ture

HAGRID: A Human-LLM Collaborative Dataset for Generative Information-Seeking with Attribution

Ehsan Kamalloo*, Aref Jafari*, Xinyu Zhang, Nandan Thakur, Jimmy Lin

Zero-Shot Listwise Document Reranking with a Large Language Model

Xueguang Ma, Xinyu Zhang, Ronak Pradeep, and Jimmy Lin

Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages.

Xinyu Zhang*, Nandan Thakur*, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Mehdi Rezagholizadeh, and Jimmy Lin

Better Than Whitespace: Information Retrieval for Languages without Custom Tokenizers.

Odunayo Ogundepo, Xinyu Zhang, and Jimmy Lin

Certified Error Control of Candidate Set Pruning for Two-Stage Relevance Ranking

Minghan Li*, Xinyu Zhang*, Ji Xin, Hongyang Zhang, Jimmy Lin

AfriCLIRMatrix: Enabling Cross-Lingual Information Retrieval for African Languages.

Odunayo Ogundepo, Xinyu Zhang, Shuo Sun, Kevin Duh, and Jimmy Lin

Squeezing water from a stone: A bag of tricks for further improving cross-encoder effectiveness for reranking

Ronak Pradeep, Yuqi Liu, Xinyu Zhang, Yilin Li, Andrew Yates, and Jimmy Lin

Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval

Xinyu Zhang, Xueguang Ma, Peng Shi, Jimmy Lin

Approach Zero and Anserini at the CLEF-2021 ARQMath Track: Applying Substructure Search and BM25 on Operator Tree Path Tokens.

Wei Zhong, Xinyu Zhang, Ji Xin, Richard Zanibbi, Jimmy Lin

Bag-of-Words Baselines for Semantic Code Search.

Xinyu Zhang, Ji Xin, Andrew Yates, and Jimmy Lin

Comparing Score Aggregation Approaches for Pretrained Neural Language Models

Xinyu Zhang, Andrew Yates, and Jimmy Lin

A Little Bit Is Worse Than None: Ranking with Limited Training Data.

Xinyu Zhang, Andrew Yates, and Jimmy Lin

Flexible IR Pipelines with Capreolus.

Andrew Yates, Kevin Martin Jose, Xinyu Zhang, Jimmy Lin

Capreolus: A Toolkit for End-to-End Neural Ad Hoc Retrieval

Andrew Yates, Siddhant Arora, Xinyu Zhang, Wei Yang, Kevin Martin Jose, Jimmy Lin

Blogs/Podcasts/Videos I Enjoyed

Zijian Chen, Xueguang Ma, Shengyao Zhuang*, [...], Crystina Zhang, [...] (20 authors)

Jiaqi Samantha Zhan, Crystina Zhang, Shengyao Zhuang, Xueguang Ma, Jimmy Lin

Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin

Andrew Liu, Edward Xu, Crystina Zhang, Jimmy Lin

Xinyu Zhang, Minghan Li, and Jimmy Lin

Raphael Tang, Xinyu Zhang, Xueguang Ma, Jimmy Lin, Ferhan Ture

Xinyu Zhang, Nandan Thakur, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Mehdi Rezagholizadeh, and Jimmy Lin

Ehsan Kamalloo, Aref Jafari, Xinyu Zhang, Nandan Thakur, Jimmy Lin

Xinyu Zhang, Nandan Thakur, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Mehdi Rezagholizadeh, and Jimmy Lin

Minghan Li, Xinyu Zhang, Ji Xin, Hongyang Zhang, Jimmy Lin