Как победить упрямые документы Word

Один прямой клиент регулярно присылает мне на перевод файлы Word исключительно сложного форматирования. Размером в десятки мегабайт, с кучей иллюстраций, внедренных объектов, закладок и перекрестных ссылок — верстка, которую по-хорошему надо бы делать во FrameMaker или хотя бы в Indesign, делается в Word.

К сожалению, CAT-программы пугаются таких файлов и отказываются с ними нормально работать (я пробовал SDLX, Trados 2007, Trados Studio, MetaTexis, MemoQ и Transit). Какие-то из них просто не открывают файл, какие-то открывают, дают перевести, но не очищают, некоторые дают перевести и сохраняют очищенный перевод, но непреодолимо корёжат форматирование. Не буду здесь перечислять все методы, которые я без толку испробовал, я даже обращался в техподдержку SDL, которая тоже ничем не помогла.

Кончилось это тем, что я сохранял docx как rtf, а после перевода вручную восстанавливал форматирование — сомнительное удовольствие. Но через полтора года такой канители я, кажется, нашел рабочее решение.

Итак, файл docx нужно открыть как zip-архив и извлечь из него Word/document.xml. Этот xml-файл содержит чистый текст без форматирования и прекрасно подхватывается «кошками». После перевода его нужно просто положить обратно внутрь docx-архива и для итоговой проверки открыть обновленный файл в Word: все форматирование останется на месте.

15 thoughts on “Как победить упрямые документы Word”

-=sAm=- March 30, 2011 at 8:52 am

MT2007 пробовали?

Reply ↓

Maxim Post authorMarch 30, 2011 at 1:11 pm

Знаю про такое. Нет, не пробовал.

Reply ↓

Anonymous March 30, 2011 at 4:56 pm

А если присылают документ в формате doc (не docx), поможет ли преобразование этого документа в формат docx для решения проблемы подобным образом? Или же если документ был изначально создан в формате doc, то никакие ухищрения подобного плана уже не помогут?

Reply ↓

Maxim Post authorMarch 30, 2011 at 5:05 pm

Нужно пробовать, от документа зависит. Имейте в виду, что само сохранение из doc в docx и наоборот может привести к нарушению форматирования.

Reply ↓

Serguei March 30, 2011 at 6:34 pm

Максим, подсказ нужен, раз уж Вы такой сведущий: случайно стер в файле Ворд нужный текст (давно, несрочно, но – нужный). Когда делаю в Windows XP “расширенный поиск” в этой папке на слово, которое было в этом файле первоначально (а теперь уже давно как нет), поиск мне его (файл этот) показывает и выдает. Открываю этот файл, и поиск внутри файла мне его не находит. То есть, этот стёртый когда-то текст, хранится где-то, до сих пор, в недрах сей адской машины в сокрытом виде…

Эксперимент:
1) открываю новый чистый файл Ворд,
2) и печатаю в нем “Стояли, как перед витриной, почти запрудив тротуар”.
3) Сохраняю этот файл под именем xxx.doc.
4) Стираю текст “Стояли, как перед витриной, почти запрудив тротуар”.
5) Сохраняю.
6) Печатаю на этом очищенном уже(!) файле “Носилки толкнули в машину, в кабину вскочил санитар”. (На белом пустом листе, файл ххх.doc)
7) Сохраняю.
8) Закрываю.
Ну, и там, для проверки, несколько еще раз открываю и закрываю файл ххх.doc и вижу, каждый раз, что слов “Стояли, как перед витриной, почти запрудив тротуар” в нем уже, УВЫ (!) нет.
9) Делаю поиск в Windows XP на слово “запрудив”, Windows XP выдает мне этот файл, как будто (!!!) это слово в нем (по-прежнему!) есть.
8) Открываю, нет его там, и поиск по файлу его не находит.

То есть, удалённый (стёртый) фрагмент текста остаётся где-то, причем ассоциирован с файлом, откуда он был удалён.

Как бы его оттуда выковырять, а то лень заново переводить, хотя и не так много, но – не для заказчика, а для моего блога просто…
С уважением,
Сергей Ярославцев

Reply ↓

Maxim Post authorMarch 30, 2011 at 6:49 pm

Сергей, попробуйте в Word в меню «Файл» выбрать пункт «Версии…»: может быть, удастся открыть прежнюю версию файла.

Если не удастся, в Проводнике включите отображение скрытых файлов («Сервис» — «Свойства папки» — «Показывать скрытые файлы и папки») и откройте папку с этим файлом: возможно, в ней найдется резервная копия с тем же именем, но другим расширением, например wbk или bak. Переименуйте эту копию в ххх.doc и откройте.

Reply ↓

Mykhailo March 31, 2011 at 2:51 am

Не сталкивался (т-т-т), но очень даже может пригодиться. Спасибо, Максим!

Reply ↓

olezha April 12, 2011 at 2:51 pm

Насколько я знаю, TagEditor прекрасно все это делает сам – вытаскивает текстовый xml и работает с ним. При открытии .docx в TagEditor в папке, где лежит файл, появляетя подпапочка со всем хламом из .docx. Кстати, иногда бывает, что .doc не хочет переводиться через Workbench. Тогда он безжалостно сохраняется как .docx и переводится в TagEditor. Аналогично для файлов Excel и, в особенности, PowerPoint – часто TagEditor не хочет “кушать” формат 2003 г., но с удовольствием переваривает те же документы, но в формате 2007-2010. По окончании перевода просто сохраняем результат в формат 2003 г.

Reply ↓

Maxim Post authorApril 12, 2011 at 3:11 pm

> TagEditor прекрасно все это делает сам

В простых случаях — сам :)

> просто сохраняем результат в формат 2003 г.

К сожалению, форматы 2007 и 2003 годов не являются совместимыми на 100%. Опять же, в простых случаях это незаметно, но в сложных может «поплыть» форматирование.

Reply ↓

Andrey July 1, 2011 at 4:15 pm

Как положить обратно внутрь docx-архива этот переведенный xml-файл?

Reply ↓

Maxim Post authorJuly 1, 2011 at 5:04 pm

DOCX — это фактически ZIP. Как из архива достали, так и обратно положите… не уверен, что понял ваш вопрос.

Reply ↓

Sergey September 11, 2012 at 7:03 pm

Нашёл эту статью случайно, способ с xml очень интересен. У меня инструкция в 500 листов, несчётное кол-во рисунков.
“…и прекрасно подхватывается «кошками»”, а чем именно можно перевести? Мне достаточно простого машинного.

Reply ↓

Maxim Post authorSeptember 12, 2012 at 11:42 am

Сергей, а настольные системы машинного перевода, такие как PROMT, не справляются с вашей инструкцией?

Можно попробовать SDL Trados Studio 2011 с подключенным модулем машинного перевода, но на освоение придется потратить некоторое время.

Reply ↓

Sergey September 12, 2012 at 12:48 pm

Максим, спасибо за ответ!
Я уже понял, что с Trados-ом буду долго разбираться.
Установил сегодня в виртуальной машине, и удалил)

Reply ↓

Pingback: Традос не сохраняет перевод? | Тетради переводчика

Тетради переводчика

Технический перевод и локализация. IT Translation

Как победить упрямые документы Word

15 thoughts on “Как победить упрямые документы Word”

Leave a Reply Cancel reply