Monthly Archives: June 2009

TAUS Language Search — контекстный поиск по базе ИТ-переводов

С подачи Дениса Хамина присмотрелся я к базе TAUS. Вот что пишет о ней Денис:

TAUS Data Association — это ассоциация наиболее крупных потребителей услуг перевода, которые изначально собирались объединить свои базы памяти переводов для использования их в своих системах машинного перевода.

В результате они решили не скрывать свои базы, а открыть их для общего пользования, но не в виде баз памяти переводов, а в качестве терминологического ресурса.

Терминологический поиск доступен на сайте бесплатно. Для того чтобы воспользоваться поиском из 549411144 слов в 80 языковых парах, достаточно зарегистрироваться на сайте. Можно искать в паре «английский (США) — русский» по тематикам Computer Hardware и Computer Software.

На самом деле доступен не терминологический поиск, а контекстный — по базам переводов TAUS. В результатах поиска отображается слово в контексте и перевод этого сегмента — аналог Concordance search в более привычных настольных переводческих средах.

По итогам использования в реальной работе могу сказать: это очень здорово. Конкуренты, вроде Translated.net, по объему баз и близко не стоят, а это гораздо важнее, чем возможность экспорта в TMX. Я очень рекомендую TAUS всем переводчикам, специализирующимся на ИТ.

Интерфейс поиска может показаться неудобным. Пришлось потратить десять минут и сделать поисковые механизмы для браузера (инструкции по установке и использованию см. здесь). Вот они:

TAUS Search: Computers–Software
TAUS Search: Computers–Hardware


Теперь можно искать напрямую из браузера, и не требуется регистрация на сайте TAUS :-)

GoogleCAT — краткий обзор

Посмотрел я на Google Translator Toolkit. Это минималистская переводческая среда (TenT), за которой, однако, стоит опыт Google в машинном переводе.

google

Работает Toolkit со следующими форматами: HTML, Microsoft Word (.doc), OpenDocument Text (.odt), txt, rtf, возможна загрузка ТМ и термбаз. Поддерживается также прямой импорт страниц из Википедии и Google Knol. Вот для примера я и взял заглавную страницу Википедии.

При загрузке файла на перевод происходит автоматическая сегментация, применение ТМ (видимо, только 100 %-ные совпадения) и машинный перевод. При щелчке по сегменту он выделяется желтым, и открывается всплывающее окно, в котором предложенный перевод можно изменить.

Резюме: в коммерческих целях использовать это не нужно :) Хотя бы потому, что Google упорно переводил все атрибуты HTML-тегов. И обратите внимание на один скромный параметр по умолчанию: If no TM is specified, translated segments are stored in our shared, global TM. То есть по умолчанию все ваши переводы останутся у Google и будут в дальнейшем использоваться в его машинном переводе.