Как победить упрямые документы Word

Один прямой клиент регулярно присылает мне на перевод файлы Word исключительно сложного форматирования. Размером в десятки мегабайт, с кучей иллюстраций, внедренных объектов, закладок и перекрестных ссылок — верстка, которую по-хорошему надо бы делать во FrameMaker или хотя бы в Indesign, делается в Word.

К сожалению, CAT-программы пугаются таких файлов и отказываются с ними нормально работать (я пробовал SDLX, Trados 2007, Trados Studio, MetaTexis, MemoQ и Transit). Какие-то из них просто не открывают файл, какие-то открывают, дают перевести, но не очищают, некоторые дают перевести и сохраняют очищенный перевод, но непреодолимо корёжат форматирование. Не буду здесь перечислять все методы, которые я без толку испробовал, я даже обращался в техподдержку SDL, которая тоже ничем не помогла.

Кончилось это тем, что я сохранял docx как rtf, а после перевода вручную восстанавливал форматирование — сомнительное удовольствие. Но через полтора года такой канители я, кажется, нашел рабочее решение.

Итак, файл docx нужно открыть как zip-архив и извлечь из него Word/document.xml. Этот xml-файл содержит чистый текст без форматирования и прекрасно подхватывается «кошками». После перевода его нужно просто положить обратно внутрь docx-архива и для итоговой проверки открыть обновленный файл в Word: все форматирование останется на месте.

15 thoughts on “Как победить упрямые документы Word

  1. Anonymous

    А если присылают документ в формате doc (не docx), поможет ли преобразование этого документа в формат docx для решения проблемы подобным образом? Или же если документ был изначально создан в формате doc, то никакие ухищрения подобного плана уже не помогут?

    Reply
    1. Maxim Post author

      Нужно пробовать, от документа зависит. Имейте в виду, что само сохранение из doc в docx и наоборот может привести к нарушению форматирования.

      Reply
  2. Serguei

    Максим, подсказ нужен, раз уж Вы такой сведущий: случайно стер в файле Ворд нужный текст (давно, несрочно, но – нужный). Когда делаю в Windows XP “расширенный поиск” в этой папке на слово, которое было в этом файле первоначально (а теперь уже давно как нет), поиск мне его (файл этот) показывает и выдает. Открываю этот файл, и поиск внутри файла мне его не находит. То есть, этот стёртый когда-то текст, хранится где-то, до сих пор, в недрах сей адской машины в сокрытом виде…

    Эксперимент:
    1) открываю новый чистый файл Ворд,
    2) и печатаю в нем “Стояли, как перед витриной, почти запрудив тротуар”.
    3) Сохраняю этот файл под именем xxx.doc.
    4) Стираю текст “Стояли, как перед витриной, почти запрудив тротуар”.
    5) Сохраняю.
    6) Печатаю на этом очищенном уже(!) файле “Носилки толкнули в машину, в кабину вскочил санитар”. (На белом пустом листе, файл ххх.doc)
    7) Сохраняю.
    8) Закрываю.
    Ну, и там, для проверки, несколько еще раз открываю и закрываю файл ххх.doc и вижу, каждый раз, что слов “Стояли, как перед витриной, почти запрудив тротуар” в нем уже, УВЫ (!) нет.
    9) Делаю поиск в Windows XP на слово “запрудив”, Windows XP выдает мне этот файл, как будто (!!!) это слово в нем (по-прежнему!) есть.
    8) Открываю, нет его там, и поиск по файлу его не находит.

    То есть, удалённый (стёртый) фрагмент текста остаётся где-то, причем ассоциирован с файлом, откуда он был удалён.

    Как бы его оттуда выковырять, а то лень заново переводить, хотя и не так много, но – не для заказчика, а для моего блога просто…
    С уважением,
    Сергей Ярославцев

    Reply
  3. Maxim Post author

    Сергей, попробуйте в Word в меню «Файл» выбрать пункт «Версии…»: может быть, удастся открыть прежнюю версию файла.

    Если не удастся, в Проводнике включите отображение скрытых файлов («Сервис» — «Свойства папки» — «Показывать скрытые файлы и папки») и откройте папку с этим файлом: возможно, в ней найдется резервная копия с тем же именем, но другим расширением, например wbk или bak. Переименуйте эту копию в ххх.doc и откройте.

    Reply
  4. olezha

    Насколько я знаю, TagEditor прекрасно все это делает сам – вытаскивает текстовый xml и работает с ним. При открытии .docx в TagEditor в папке, где лежит файл, появляетя подпапочка со всем хламом из .docx. Кстати, иногда бывает, что .doc не хочет переводиться через Workbench. Тогда он безжалостно сохраняется как .docx и переводится в TagEditor. Аналогично для файлов Excel и, в особенности, PowerPoint – часто TagEditor не хочет “кушать” формат 2003 г., но с удовольствием переваривает те же документы, но в формате 2007-2010. По окончании перевода просто сохраняем результат в формат 2003 г.

    Reply
  5. Maxim Post author

    > TagEditor прекрасно все это делает сам

    В простых случаях — сам :)

    > просто сохраняем результат в формат 2003 г.

    К сожалению, форматы 2007 и 2003 годов не являются совместимыми на 100%. Опять же, в простых случаях это незаметно, но в сложных может «поплыть» форматирование.

    Reply
  6. Andrey

    Как положить обратно внутрь docx-архива этот переведенный xml-файл?

    Reply
    1. Maxim Post author

      DOCX — это фактически ZIP. Как из архива достали, так и обратно положите… не уверен, что понял ваш вопрос.

      Reply
  7. Sergey

    Нашёл эту статью случайно, способ с xml очень интересен. У меня инструкция в 500 листов, несчётное кол-во рисунков.
    “…и прекрасно подхватывается «кошками»”, а чем именно можно перевести? Мне достаточно простого машинного.

    Reply
  8. Maxim Post author

    Сергей, а настольные системы машинного перевода, такие как PROMT, не справляются с вашей инструкцией?

    Можно попробовать SDL Trados Studio 2011 с подключенным модулем машинного перевода, но на освоение придется потратить некоторое время.

    Reply
  9. Sergey

    Максим, спасибо за ответ!
    Я уже понял, что с Trados-ом буду долго разбираться.
    Установил сегодня в виртуальной машине, и удалил)

    Reply
  10. Pingback: Традос не сохраняет перевод? | Тетради переводчика

Leave a Reply to Sergey Cancel reply

Your email address will not be published.