Один прямой клиент регулярно присылает мне на перевод файлы Word исключительно сложного форматирования. Размером в десятки мегабайт, с кучей иллюстраций, внедренных объектов, закладок и перекрестных ссылок — верстка, которую по-хорошему надо бы делать во FrameMaker или хотя бы в Indesign, делается в Word.
К сожалению, CAT-программы пугаются таких файлов и отказываются с ними нормально работать (я пробовал SDLX, Trados 2007, Trados Studio, MetaTexis, MemoQ и Transit). Какие-то из них просто не открывают файл, какие-то открывают, дают перевести, но не очищают, некоторые дают перевести и сохраняют очищенный перевод, но непреодолимо корёжат форматирование. Не буду здесь перечислять все методы, которые я без толку испробовал, я даже обращался в техподдержку SDL, которая тоже ничем не помогла.
Кончилось это тем, что я сохранял docx как rtf, а после перевода вручную восстанавливал форматирование — сомнительное удовольствие. Но через полтора года такой канители я, кажется, нашел рабочее решение.
Итак, файл docx нужно открыть как zip-архив и извлечь из него Word/document.xml. Этот xml-файл содержит чистый текст без форматирования и прекрасно подхватывается «кошками». После перевода его нужно просто положить обратно внутрь docx-архива и для итоговой проверки открыть обновленный файл в Word: все форматирование останется на месте.