http://gerro.livejournal.com/ ([identity profile] gerro.livejournal.com) wrote in [community profile] ru_translate2010-11-10 04:16 pm

est, параллельные тексты

университетская коллега попросила запостить просьбу: 

Здравствуйте! 
Меня зовут Маарика Траат, я работаю научным сотрудником на отделении компьютерной лингвистики Тартуского университета. Мы проводим научный проект, целью которого является создать инструмент, позволяющий находить парафразы для введенных пользователем фраз. Для этого проекта необходимо большое количество параллельных переводных электронных текстов, один из которых должен быть на эстонском языке. Может быть, кто-нибудь был бы готов поделиться со мной своим переводным материалом. Важно, чтобы предложения в параллельных текстах соответствовали друг другу (возможны небольшие отклонения). Особенно ценным материалом оказались бы памяти переводов. К сожалению, переводческие бюро, как правило, не соглашаются на сотрудничество, даже в исследовательских целях. Буду рада любым советам по поводу того, к кому еще стоит обратиться с просьбой о материале.

С наилучшими пожеланиями, 
Maarika Traat (эл. адрес: maarika на gmail точк com )

cross-post to [livejournal.com profile] eesti_keel 

[identity profile] iggyray.livejournal.com 2010-11-10 02:20 pm (UTC)(link)

Очень странно, что европейский лингвист не в курсе существования целого корпуса параллельных документов европейского сообщества

[identity profile] iggyray.livejournal.com 2010-11-10 02:45 pm (UTC)(link)
еще БОЛЬШЕ? ЕС-овский корпус самый большой в мире.

[identity profile] iggyray.livejournal.com 2010-11-10 03:47 pm (UTC)(link)
Ну, я понимаю, что машина сколько угодно съест :)
А зачем колесо изобретать? Уже же существуют механизмы машинного перевода на основе статистического метода... У той же IBM...

[identity profile] iggyray.livejournal.com 2010-11-10 03:49 pm (UTC)(link)
Кстати, alignment текстов все равно придется лингвисту делать, машина сама часто ошибки будет делать.

[identity profile] no-comment.livejournal.com 2010-11-10 03:56 pm (UTC)(link)
http://www.proz.com/forum/cat_tools_technical_help/184708-new_free_open_source_aligner_for_windows_os_x_and_linux.html

Features include:
Autoalignment of docx, pdf, txt or html files and webpages.
Automatic downloading and alignment of various kinds of EU documents.
Review of the autoaligned material in formatted xls spreadsheets generated by the program.

[identity profile] iggyray.livejournal.com 2010-11-10 04:35 pm (UTC)(link)
Я с этим уже три года работаю. Нет такой штуки, как 100% авто-элайнмент... Ибо языки разные.

[identity profile] no-comment.livejournal.com 2010-11-10 02:38 pm (UTC)(link)
Газета Põhjarannik выкладывает тексты на двух языках на своем сайте: http://pohjarannik.ee/
При желании можно составить базу переводов.

[identity profile] iggyray.livejournal.com 2010-11-10 02:47 pm (UTC)(link)
Скажем так, русский язык там слегка эзотерический...

[identity profile] no-comment.livejournal.com 2010-11-10 02:56 pm (UTC)(link)
Переводчикам там платят чуть больше 300 евро в месяц брутто, как я понимаю: http://www.cvkeskus.ee/view_jobad.php?job_id=210395&w=1

[identity profile] iggyray.livejournal.com 2010-11-10 03:44 pm (UTC)(link)
Я не к тому, что ругаю переводчиков, а к тому, что очень сложно будет такое использовать в качестве корпуса. Язык, в принципе, грамотный, но такие вычурные предложения без поллитры и человеку прочитать невозможно, а машине все это разбить на сегменты будет не по силам тем более.

В любом случае, грамотность здесь - на уровень выше их латвийских коллег. Там вообще мрак.

[identity profile] enigmata.livejournal.com 2010-11-10 03:24 pm (UTC)(link)
Сущеусьвуют довольно много параллельных юридических текстов
Google <- законодательство эстонии