Один прямой клиент регулярно присылает мне на перевод файлы Word исключительно сложного форматирования. Размером в десятки мегабайт, с кучей иллюстраций, внедренных объектов, закладок и перекрестных ссылок — верстка, которую по-хорошему надо бы делать во FrameMaker или хотя бы в Indesign, делается в Word.
К сожалению, CAT-программы пугаются таких файлов и отказываются с ними нормально работать (я пробовал SDLX, Trados 2007, Trados Studio, MetaTexis, MemoQ и Transit). Какие-то из них просто не открывают файл, какие-то открывают, дают перевести, но не очищают, некоторые дают перевести и сохраняют очищенный перевод, но непреодолимо корёжат форматирование. Не буду здесь перечислять все методы, которые я без толку испробовал, я даже обращался в техподдержку SDL, которая тоже ничем не помогла.
Кончилось это тем, что я сохранял docx как rtf, а после перевода вручную восстанавливал форматирование — сомнительное удовольствие. Но через полтора года такой канители я, кажется, нашел рабочее решение.
Итак, файл docx нужно открыть как zip-архив и извлечь из него Word/document.xml. Этот xml-файл содержит чистый текст без форматирования и прекрасно подхватывается «кошками». После перевода его нужно просто положить обратно внутрь docx-архива и для итоговой проверки открыть обновленный файл в Word: все форматирование останется на месте.
MT2007 пробовали?
Знаю про такое. Нет, не пробовал.
А если присылают документ в формате doc (не docx), поможет ли преобразование этого документа в формат docx для решения проблемы подобным образом? Или же если документ был изначально создан в формате doc, то никакие ухищрения подобного плана уже не помогут?
Нужно пробовать, от документа зависит. Имейте в виду, что само сохранение из doc в docx и наоборот может привести к нарушению форматирования.
Максим, подсказ нужен, раз уж Вы такой сведущий: случайно стер в файле Ворд нужный текст (давно, несрочно, но – нужный). Когда делаю в Windows XP “расширенный поиск” в этой папке на слово, которое было в этом файле первоначально (а теперь уже давно как нет), поиск мне его (файл этот) показывает и выдает. Открываю этот файл, и поиск внутри файла мне его не находит. То есть, этот стёртый когда-то текст, хранится где-то, до сих пор, в недрах сей адской машины в сокрытом виде…
Эксперимент:
1) открываю новый чистый файл Ворд,
2) и печатаю в нем “Стояли, как перед витриной, почти запрудив тротуар”.
3) Сохраняю этот файл под именем xxx.doc.
4) Стираю текст “Стояли, как перед витриной, почти запрудив тротуар”.
5) Сохраняю.
6) Печатаю на этом очищенном уже(!) файле “Носилки толкнули в машину, в кабину вскочил санитар”. (На белом пустом листе, файл ххх.doc)
7) Сохраняю.
8) Закрываю.
Ну, и там, для проверки, несколько еще раз открываю и закрываю файл ххх.doc и вижу, каждый раз, что слов “Стояли, как перед витриной, почти запрудив тротуар” в нем уже, УВЫ (!) нет.
9) Делаю поиск в Windows XP на слово “запрудив”, Windows XP выдает мне этот файл, как будто (!!!) это слово в нем (по-прежнему!) есть.
8) Открываю, нет его там, и поиск по файлу его не находит.
То есть, удалённый (стёртый) фрагмент текста остаётся где-то, причем ассоциирован с файлом, откуда он был удалён.
Как бы его оттуда выковырять, а то лень заново переводить, хотя и не так много, но – не для заказчика, а для моего блога просто…
С уважением,
Сергей Ярославцев
Сергей, попробуйте в Word в меню «Файл» выбрать пункт «Версии…»: может быть, удастся открыть прежнюю версию файла.
Если не удастся, в Проводнике включите отображение скрытых файлов («Сервис» — «Свойства папки» — «Показывать скрытые файлы и папки») и откройте папку с этим файлом: возможно, в ней найдется резервная копия с тем же именем, но другим расширением, например wbk или bak. Переименуйте эту копию в ххх.doc и откройте.
Не сталкивался (т-т-т), но очень даже может пригодиться. Спасибо, Максим!
Насколько я знаю, TagEditor прекрасно все это делает сам – вытаскивает текстовый xml и работает с ним. При открытии .docx в TagEditor в папке, где лежит файл, появляетя подпапочка со всем хламом из .docx. Кстати, иногда бывает, что .doc не хочет переводиться через Workbench. Тогда он безжалостно сохраняется как .docx и переводится в TagEditor. Аналогично для файлов Excel и, в особенности, PowerPoint – часто TagEditor не хочет “кушать” формат 2003 г., но с удовольствием переваривает те же документы, но в формате 2007-2010. По окончании перевода просто сохраняем результат в формат 2003 г.
> TagEditor прекрасно все это делает сам
В простых случаях — сам :)
> просто сохраняем результат в формат 2003 г.
К сожалению, форматы 2007 и 2003 годов не являются совместимыми на 100%. Опять же, в простых случаях это незаметно, но в сложных может «поплыть» форматирование.
Как положить обратно внутрь docx-архива этот переведенный xml-файл?
DOCX — это фактически ZIP. Как из архива достали, так и обратно положите… не уверен, что понял ваш вопрос.
Нашёл эту статью случайно, способ с xml очень интересен. У меня инструкция в 500 листов, несчётное кол-во рисунков.
“…и прекрасно подхватывается «кошками»”, а чем именно можно перевести? Мне достаточно простого машинного.
Сергей, а настольные системы машинного перевода, такие как PROMT, не справляются с вашей инструкцией?
Можно попробовать SDL Trados Studio 2011 с подключенным модулем машинного перевода, но на освоение придется потратить некоторое время.
Максим, спасибо за ответ!
Я уже понял, что с Trados-ом буду долго разбираться.
Установил сегодня в виртуальной машине, и удалил)
Pingback: Традос не сохраняет перевод? | Тетради переводчика