http://gerro.livejournal.com/ ([identity profile] gerro.livejournal.com) wrote in [community profile] ru_translate2010-11-10 04:16 pm

est, параллельные тексты

университетская коллега попросила запостить просьбу: 

Здравствуйте! 
Меня зовут Маарика Траат, я работаю научным сотрудником на отделении компьютерной лингвистики Тартуского университета. Мы проводим научный проект, целью которого является создать инструмент, позволяющий находить парафразы для введенных пользователем фраз. Для этого проекта необходимо большое количество параллельных переводных электронных текстов, один из которых должен быть на эстонском языке. Может быть, кто-нибудь был бы готов поделиться со мной своим переводным материалом. Важно, чтобы предложения в параллельных текстах соответствовали друг другу (возможны небольшие отклонения). Особенно ценным материалом оказались бы памяти переводов. К сожалению, переводческие бюро, как правило, не соглашаются на сотрудничество, даже в исследовательских целях. Буду рада любым советам по поводу того, к кому еще стоит обратиться с просьбой о материале.

С наилучшими пожеланиями, 
Maarika Traat (эл. адрес: maarika на gmail точк com )

cross-post to [livejournal.com profile] eesti_keel 

[identity profile] iggyray.livejournal.com 2010-11-10 03:47 pm (UTC)(link)
Ну, я понимаю, что машина сколько угодно съест :)
А зачем колесо изобретать? Уже же существуют механизмы машинного перевода на основе статистического метода... У той же IBM...

[identity profile] iggyray.livejournal.com 2010-11-10 03:49 pm (UTC)(link)
Кстати, alignment текстов все равно придется лингвисту делать, машина сама часто ошибки будет делать.

[identity profile] no-comment.livejournal.com 2010-11-10 03:56 pm (UTC)(link)
http://www.proz.com/forum/cat_tools_technical_help/184708-new_free_open_source_aligner_for_windows_os_x_and_linux.html

Features include:
Autoalignment of docx, pdf, txt or html files and webpages.
Automatic downloading and alignment of various kinds of EU documents.
Review of the autoaligned material in formatted xls spreadsheets generated by the program.

[identity profile] iggyray.livejournal.com 2010-11-10 04:35 pm (UTC)(link)
Я с этим уже три года работаю. Нет такой штуки, как 100% авто-элайнмент... Ибо языки разные.