Large language models "ad referendum": How good are they at machine translation in the legal domain?

Briva-Iglesias, Vicent; Cavalheiro Camargo, João Lucas; Doğru, Gökhan

dc.contributor.author	Briva-Iglesias, Vicent
dc.contributor.author	Cavalheiro Camargo, João Lucas
dc.contributor.author	Doğru, Gökhan
dc.date.accessioned	2024-06-07T12:10:33Z
dc.date.available	2024-06-07T12:10:33Z
dc.date.issued	2024
dc.identifier.citation	Briva-Iglesias, Vicent; João Lucas Cavalheiro Camargo & Gökhan Doğru. (2024) “Large Language Models “ad referendum”: how good are they at machine translation in the legal domain?” In: martínez, Robert; Anabel BorJa & Łucja Biel (eds.) 2024. Repensar la (des)globalización y su impacto en la traducción: desafíos y oportunidades en la práctica de la traducción jurídica / Rethinking (de)globalisation and its impact on translation: challenges and opportunities for legal translators. MonTI 16, pp. 75-107	ca_CA
dc.identifier.issn	1889-4178
dc.identifier.issn	1989-9335
dc.identifier.uri	http://hdl.handle.net/10234/207777
dc.description.abstract	This study evaluates the machine translation (MT) quality of two state-of-the-art large language models (LLMs) against a traditional neural machine translation (NMT) system across four language pairs in the legal domain. It combines automatic evaluation metrics (AEMs) and human evaluation (HE) by professional translators to assess translation ranking, fluency and adequacy. The results indicate that while Google Translate generally outperforms LLMs in AEMs, human evaluators rate LLMs, especially GPT-4, comparably or slightly better in terms of producing contextually adequate and fluent translations. This discrepancy suggests LLMs' potential in handling specialized legal terminology and context, highlighting the importance of human evaluation methods in assessing MT quality. The study underscores the evolving capabilities of LLMs in specialized domains and calls for reevaluation of traditional AEMs to better capture the nuances of LLM-generated translations.	ca_CA
dc.description.abstract	Este estudio evalúa la calidad de la traducción automática (TA) de dos grandes modelos de lengua de última generación frente a un sistema tradicional de traducción automática neural (TAN) en cuatro pares de idiomas en el ámbito jurídico. Combinamos métricas de evaluación automática con una evaluación humana de traductores profesionales mediante el análisis de la clasificación, la fluidez y la adecuación de las traducciones. Los resultados indican que, mientras que Google Translate suele superar a los grandes modelos de lengua en las métricas automáticas, los evaluadores humanos valoran a los grandes modelos de lengua, especialmente a GPT-4, de forma comparable o ligeramente mejor en cuanto a fluidez y adecuación. Esta discrepancia sugiere el potencial de los grandes modelos de lengua para trabajar terminología jurídica especializada y contextualizada, lo que pone de relieve la importancia de los métodos de evaluación humana a la hora de evaluar la calidad de la TA. El estudio subraya la evolución de las capacidades de los grandes modelos de lengua en dominios especializados y aboga por una reevaluación de las métricas automáticas tradicionales para captar mejor los matices de las traducciones generadas por grandes modelos de lengua.	ca_CA
dc.format.extent	33 p.	ca_CA
dc.format.mimetype	application/pdf	ca_CA
dc.language.iso	eng	ca_CA
dc.publisher	Universitat d'Alacant	ca_CA
dc.publisher	Universitat d'Alacant	ca_CA
dc.publisher	Universitat de València	ca_CA
dc.relation.isPartOf	MonTi. Monografías de Traducción e Interpretación, 2024, no 16	ca_CA
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	ca_CA
dc.subject	machine translation	ca_CA
dc.subject	large language model	ca_CA
dc.subject	legal translation	ca_CA
dc.subject	human evaluation	ca_CA
dc.subject	automatic evaluation	ca_CA
dc.subject	traducción automática	ca_CA
dc.subject	evaluación humana de calidad de la traducción	ca_CA
dc.subject	calidad de la traducción	ca_CA
dc.subject	grandes modelos de lengua	ca_CA
dc.subject	traducción jurídica	ca_CA
dc.title	Large language models "ad referendum": How good are they at machine translation in the legal domain?	ca_CA
dc.type	info:eu-repo/semantics/article	ca_CA
dc.identifier.doi	https://doi.org/10.6035/MonTI.2024.16.02
dc.rights.accessRights	info:eu-repo/semantics/openAccess	ca_CA
dc.relation.publisherVersion	https://www.e-revistes.uji.es/index.php/monti/article/view/7514	ca_CA
dc.type.version	info:eu-repo/semantics/publishedVersion	ca_CA

Ficheros en el ítem

Nombre:: Briva_Cavalheiro_Dogru.pdf
Tamaño:: 563.6Kb
Formato:: PDF
Descripción:: Versió editorial

Ver/Abrir

Este ítem aparece en la(s) siguiente(s) colección(ones)

MonTi_ 2024 _núm 16 [15]

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como: http://creativecommons.org/licenses/by/4.0/