Sie befinden Sich nicht im Netzwerk der Universität Paderborn. Der Zugriff auf elektronische Ressourcen ist gegebenenfalls nur via VPN oder Shibboleth (DFN-AAI) möglich. mehr Informationen...
Information processing & management, 2005-05, Vol.41 (3), p.475-487
2005

Details

Autor(en) / Beteiligte
Titel
Empirical studies on the impact of lexical resources on CLIR performance
Ist Teil von
  • Information processing & management, 2005-05, Vol.41 (3), p.475-487
Ort / Verlag
Oxford: Elsevier Ltd
Erscheinungsjahr
2005
Link zum Volltext
Quelle
Alma/SFX Local Collection
Beschreibungen/Notizen
  • In this paper, we compile and review several experiments measuring cross-lingual information retrieval (CLIR) performance as a function of the following resources: bilingual term lists, parallel corpora, machine translation (MT), and stemmers. Our CLIR system uses a simple probabilistic language model; the studies used TREC test corpora over Chinese, Spanish and Arabic. Our findings include: • One can achieve an acceptable CLIR performance using only a bilingual term list (70–80% on Chinese and Arabic corpora). • However, if a bilingual term list and parallel corpora are available, CLIR performance can rival monolingual performance. • If no parallel corpus is available, pseudo-parallel texts produced by an MT system can partially overcome the lack of parallel text. • While stemming is useful normally, with a very large parallel corpus for Arabic–English, stemming hurt performance in our empirical studies with Arabic, a highly inflected language.
Sprache
Englisch
Identifikatoren
ISSN: 0306-4573
eISSN: 1873-5371
DOI: 10.1016/j.ipm.2004.06.009
Titel-ID: cdi_proquest_miscellaneous_57627768

Weiterführende Literatur

Empfehlungen zum selben Thema automatisch vorgeschlagen von bX