OOXML  +  ODF

 

 

 

Автоматическая обработка текста и XML
 

Автоматическая обработка текста в современных текстовых процессорах  основана на предварительной структурно-семантической XML-разметке текста в документах соответствующих форматов.

 

 

 

 

XML и Microsoft Fluent Interface 

 

XML лежит в основе Microsoft Fluent Interface (ленточного, Ribbon) пользовательского интерфейса Microsoft Office.

Благодаря XML  набор интерфейсных команд может перенастраиваться по каждому документу.

Раньше система управления в программах MS Office строилась на постоянных наборах команд, инструментальных панелях и диалоговых окнах.

 

Ribbon XML Editor — низкоуровневый XML-редактор интерфейса Office Fluent UI для MS Office версий 2007, 2010 и 2013 от Новикова Максима Глебовича:

  • позволяет напрямую работать с XML-кодом, на котором базируется пользовательский интерфейс Microsoft Office 2010 и 2013 .

  • позволяет редактировать ленточный интерфейс приложений MS Office создавая персональный интерфейс любой сложности (благодаря, в том числе, контекстно-чувствительной функции автодополнения) на уровне XML-кода.

  •  на основе имён функций обратного вызова генерирует шаблоны функций в виде отдельных модулей для подключения к документу через редактор макросов Microsoft Visual Basic (открывающийся из приложений Word, Excel или PowerPoint по Alt+F11).

  • имеет функци экспорта-импорта интерфейса в штатные настройки ленты Microsoft  Office.

  • поддерживает документы, надстройки или шаблоны Word, Excel и PowerPoint
    (форматы docx, docm, dotx, dotm, xlsx, xlsm, xlsb, xltx, xltm, xlam, pptx, pptm, potx, potm, ppsx, ppsm и thmx).

Ribbon XML Editor 5.0 (20.02.2015, 4,1 МБ, не требует установки): http://novikovmaxim.narod.ru/products/ribbon/ribbon.fls/RibbonXMLEditor_5.0.7z
Не рекомендуется использовать на учебных компьютерах в аудиториях БрГУ!
Уроки по изменению интерфейса: http://fluentui.blogspot.ru/

 

 

 

 

XML и документы Microsoft Office
 

Впервые XML в продуктах Office был ограничего использован  Microsoft  для MS Excel в 2002 г.

В Microsoft Office 2007 предложен совершенно новый формат записи XML.

Документы во внутреннем формате MS Word 2007 (и выше) имеют расширение .docx.

Чтобы файлы, сохраненные в формате Microsoft Office Open XML  открыть в ранних версиях MS Word (XP или 2003) необходимо установить обновление "Office Awareness Update."

Обновления доступны по адресу: http://www.microsoft.com/office/preview/beta/converter.mspx).

Онлайн-конвертор перевода формат DOCX в другие форматы: www.docx-converter.com

 

 

 

Файл Microsoft Office Open XML
 

Файл Word в формате Microsoft Office Open XML представляет собой сжатый zip-архив, называемый пакетом (package), внутри которого размещены отдельные файловые компоненты (части, parts).

 

 

Для работы с файловой структурой документа его нужно открыть спомощью любой программы работы с zip-архивами (например, 7zip, WinRAR  или WinZip) восстановив все файлы из архива с сохранением структуры.

Получим иерархически упорядоченный набор из нескольких файлов, для просмотра содержимого которых можно использовать обычный текстовый редактор (например, Microsoft Notepad, Блокнот, BRED и т.д.).

Для того, чтобы документ открыть в архиваторе, он не должен быть одновременно открыт в текстовом процессоре (занят другим приложением)!

 

 

 

 

 

Структура XML-файла для Microsoft Word
 

для Microsoft Word 2007-2016

В его корне находится файл [Content_Types].xml, в котором задаются ссылки на основные разделы документа.

В папке Word размещаются файлы и папки, о назначении которых можно судить по их названию:

  • document.xml — контентная часть документа (текст и разметка);

  • styles.xml — стили и параметры;

  • fontTable.xml — шрифты и параметры,

  • media - папка для графический файлов и т. д.

 

 

Отдельные части документа (основной текст, комментарии, определения стилей, колонтитулы, диаграммы, изображения) разнесены по логическим частям и доступны независимо от других компонентов. Одни данные хранятся в текстовом виде, другие — в двоичном, причем независимо от других частей этого документа.

В файле 
.rels из раздела (каталога) _rels  задаются взаимосвязи с отдельными частями текущего документа. Для каждого элемента вводится отдельная запись в формате .

В файле core.xml из раздела (каталога) docProps находятся — свойства документа.

В файле app.xml из раздела (каталога) docProps находятся — статистические характеристики документа.


В новом XML- формате заложен многоуровневый механизм защиты его контента.

 

 

 

 

Защита контента Microsoft Word
 

для Microsoft Word 2007-2016

XML-формат позволяет реализовать многоуровневый механизм защиты контента документа:

  • отдельные части документа хранятся независимо от других компонентов позволяет прочитать документ, даже если некоторые из частей, входящих в пакет, оказываются «запорченными» (corrupted).

  • все элементы управления ActiveX и макросы VBA хранятся в отдельном, более защищенном файле.

  • пользователь получает инструментарий и возможность удаления скрытых данных и личных сведений из документов Office.

  • XML предполагает возможность замены испорченной части на исправленную по шаблону (восстановление).

  • XML предполагает возможность обнаружения и устранения ошибки в структуре отдельной части XML-документа.

  • механизм открытия XML-документов, реализованный в программах Office, предусматривает значительный объем интеллектуальных проверок для подтверждения валидности считываемого файла.

  • Хранение в zip-архиве предусматривает контроль по суммам CRC, что исключает возможность искажения данных на этапе передачи файла, обеспечивая его целостность.

  • zip-архив с документом может быть защищен паролем

CRC (Cyclic redundancy check, циклический избыточный код) — алгоритм нахождения контрольной суммы, предназначенный для проверки целостности данны

 

 

 

Скрытые и персональные данные в Microsoft Word
 

для Microsoft Word 2007-2016

В документе Word могут храниться разные типы скрытых и персональных данных, которые могут не отображаться при просмотре документа в приложении Word, могут быть найдены и просмотрены другими пользователями.

Скрытые сведения могут включать данные, которые Word добавляет к документу, чтобы над ним можно было совместно работать с другими пользователями.

Они также могут включать сведения, преднамеренно помеченные как скрытые.

Типы скрытых и персональных данных:

  • примечания, пометки режима исправлений, версии и рукописные примечания.

  • метаданные (имя автора, тема и заголовок, имя пользователя, сохранившего документ последним, дата создания документа, заголовки сообщений электронной почты, сведения об отправке на рецензирование, маршруты документа и др..)

  • Колонтитулы и подложки "водяные знаки")

  • текст, отформатированный как скрытый (параметр шрифта, доступный в диалоговом окне Шрифт)

  • свойства сервера документов и дополнительные свойства и сведения о расположении документа на сервере.

  • пользовательские XML-данные.

Инспектор документов на основе xml-разметки (Файл / Сведения / Поиск проблем / Инспектор документов) находит и удаляет скрытые и персональные данные.

Инспектор не находит объекты, перекрытые другими объектами.

 

 

 

 

Расширения имен файлов MS Word

Тип файла Word (2007-2015)

Расширение

Документ Word 2007 XML

.docx

Документ Word 2007 XML, содержащий VBA-макрокоманды

.docm

Шаблон (Template) Word 2007 XML

.dotx

Шаблон (Template) Word 2007 XML, содержащий VBA-макрокоманды

.dotm

 

 

 

 

XML и единый стандарт документов
 

Open Document Format (ODF) изначально был форматом свободно распространяемого офисного пакета OpenOffice.org.

В 2006  г.  ODF утвержден ISO ((International Standards Organization) "Международная организация по стандартизации") в качестве мирового стандарта для хранения документов, создаваемых при помощи офисных приложений.

22.12.2010 Формат ODF утвержден в качестве государственного стандарта РФ

 

Файл в формате Open Document Format представляет собой обычный архив ZIP, содержащий текст документа в формате XML и папку с картинками и прочими приложенными материалами.

 

В начале ноября 2007г. Альянс OpenDocument Foundation принял решение отказаться от поддержки формата OpenDocument (ODF).

Предпочтение было отдано формату Compound Document Format (CDF), также основанному на спецификации XML и продвигаемому консорциумом W3C.

OpenDocument Foundation мотивирует свое решение отказаться от поддержки формата, для продвижения которого альянс и был создан, большей универсальностью формата CDF.

CDF обладает полной совместимостью с  конкурентом OpenDocument - форматом Office Open XML.

Кроме того, по словам представителей OpenDocument Foundation, CDF обладает лучшей кроссплатформенной переносимостью.

 

Корпорация Microsoft в качестве второго мирового стандарта продвигает свой Open OfficeXML (OOXML) являющийся прямым конкурентом OpenDocument (ODF).

02.04.2008 Open OfficeXML применяющийся в пакете офисных программ Microsoft Office System, прошел стандартизацию в международной организации ISO.

Сама же корпорация Microsoft удивила проектом Open XML Translator:

Open XML Translator – проект с открытым кодом, предназначенный для создания инструментов конвертирования из формата Open XML в OpenDocument (ODF).

Проект Open XML Translator размещен на сайте SourceForge.net.

Версия для Word, способная конвертировать файлы doc в odf, и наоборот, уже доступна для скачивания.

В январе 2008 года опубликован вариант  HTML 5 - пятой версии языка разметки гипертекста, что используется для формирования содержания в WWW (www.w3.org/2008/02/html5-pressrelease).

В наступившую эпоху тотального господства XML стандарт HTML 5 будет  соответствовать жёстким требованиям XML-синтаксиса.

 

 

 

 

XML: чудеса патентования

 

04.08.2009 Патентное бюро США выдало Microsoft патент №7571169 на технологию "A word-processing document stored in a single XML file that may be manipulated by applications that understand XML" - "Текстовый документ, хранящийся в одном файле XML, которым может оперировать приложение, понимающее XML".

Ключевые моменты: 

  • документ содержит 100% информации о разметке документа и данные о разметке не теряются при сохранении документов в XML

  • правила обработки формата определяются сторонним XSD-файлом

  • документ хранится в виде единого XML файла

Заявка была подана Microsoft  в декабре 2004 года, патент выдан 4.08.2009.

Но Есть XML-формат fb2, первая версия которого была опубликована в том же 2004 году. Не просто заявка на патент, а полное описание и спецификация. Есть много программного обеспечения для работы с fb2. Формат fb2 однозначно определяет разметку документа, данные о разметке не теряются при сохранении документов в XML, которые хранятся в виде единого XML-файла, включая вложения (в бинарном виде).

Почему же был выдан данный патент №7571169 ?

Подробнее о fb2 здесь

 

 

 

Всё будет XML?