Автоматическая обработка текста и
XML
Автоматическая обработка текста в
современных текстовых процессорах основана на предварительной
структурно-семантической
XML-разметке
текста в документах соответствующих форматов. |
XML и Microsoft
Fluent Interface
XML
лежит в основе
Microsoft Fluent
Interface
(ленточного,
Ribbon)
пользовательского интерфейса
Microsoft Office.
Благодаря
XML
набор интерфейсных команд может перенастраиваться по каждому документу.
Раньше система управления в программах MS Office строилась на
постоянных наборах
команд, инструментальных панелях и
диалоговых окнах.
Ribbon XML Editor
— низкоуровневый XML-редактор интерфейса Office Fluent UI для MS
Office версий 2007, 2010 и 2013 от Новикова Максима Глебовича:
-
позволяет напрямую
работать с XML-кодом, на котором базируется пользовательский
интерфейс Microsoft Office
2010 и 2013 .
-
позволяет
редактировать ленточный интерфейс приложений MS Office создавая
персональный интерфейс любой сложности (благодаря, в том
числе, контекстно-чувствительной функции автодополнения) на
уровне XML-кода.
-
на основе
имён функций обратного вызова генерирует
шаблоны функций в виде отдельных модулей
для подключения к документу через редактор макросов Microsoft
Visual Basic (открывающийся из приложений Word, Excel или PowerPoint по Alt+F11).
-
имеет функци
экспорта-импорта интерфейса в штатные
настройки ленты Microsoft Office.
-
поддерживает
документы, надстройки или шаблоны Word, Excel и PowerPoint
(форматы docx, docm, dotx, dotm, xlsx, xlsm, xlsb, xltx, xltm,
xlam, pptx, pptm, potx, potm, ppsx, ppsm и thmx).
Ribbon XML Editor 5.0
(20.02.2015, 4,1 МБ,
не требует установки):
http://novikovmaxim.narod.ru/products/ribbon/ribbon.fls/RibbonXMLEditor_5.0.7z
Не рекомендуется использовать на учебных компьютерах
в аудиториях БрГУ!
Уроки по изменению интерфейса:
http://fluentui.blogspot.ru/
|
XML и
документы Microsoft Office
Впервые XML в продуктах Office был
ограничего использован Microsoft для MS Excel
в 2002 г.
В Microsoft Office 2007 предложен совершенно новый формат записи XML.
Документы во внутреннем формате MS Word 2007 (и выше) имеют расширение
.docx.
Чтобы файлы, сохраненные в
формате Microsoft Office Open XML открыть в ранних версиях MS Word
(XP или 2003)
необходимо установить обновление "Office Awareness Update."
Обновления доступны по адресу:
http://www.microsoft.com/office/preview/beta/converter.mspx).
Онлайн-конвертор перевода формат DOCX в другие форматы:
www.docx-converter.com
|
Файл Microsoft Office Open XML
Файл Word в формате Microsoft Office Open XML представляет собой сжатый
zip-архив, называемый пакетом (package), внутри которого размещены отдельные файловые компоненты (части,
parts).
Для работы с
файловой структурой документа его нужно открыть спомощью любой программы работы с zip-архивами (например,
7zip, WinRAR
или WinZip) восстановив все файлы из архива с сохранением структуры.
Получим иерархически упорядоченный
набор из нескольких файлов, для просмотра содержимого которых можно использовать обычный текстовый редактор (например, Microsoft Notepad,
Блокнот, BRED и т.д.).
Для того, чтобы документ открыть в архиваторе, он не
должен быть одновременно открыт в текстовом процессоре (занят другим
приложением)!
|
Структура XML-файла для
Microsoft Word
для
Microsoft Word 2007-201 6
В его корне находится файл
[Content_Types].xml, в котором задаются ссылки на основные разделы документа.
В папке Word размещаются файлы
и папки, о назначении которых можно судить по их названию:
— контентная часть документа (текст и разметка);
styles.xml — стили и параметры;
fontTable.xml
— шрифты и параметры,
media
- папка для графический файлов и т. д.
Отдельные части документа (основной текст, комментарии, определения стилей, колонтитулы, диаграммы, изображения) разнесены по логическим частям и доступны независимо от других компонентов. Одни данные хранятся в текстовом виде, другие — в двоичном, причем независимо от других частей этого документа.
В файле
.rels из раздела (каталога)
_rels задаются взаимосвязи с отдельными частями текущего документа. Для каждого элемента вводится отдельная запись в формате .
В файле
core.xml из раздела
(каталога)
docProps находятся — свойства
документа.
В файле
app.xml
из раздела
(каталога)
docProps находятся —
статистические характеристики документа.
В новом XML- формате заложен многоуровневый механизм защиты его контента.
|
Защита
контента Microsoft Word
для
Microsoft Word 2007-201 6
XML-формат позволяет реализовать многоуровневый механизм
защиты контента документа:
-
отдельные части документа
хранятся независимо от других компонентов
позволяет прочитать
документ, даже если некоторые из частей, входящих в пакет,
оказываются «запорченными» (corrupted).
-
все элементы управления ActiveX и макросы VBA
хранятся в отдельном, более защищенном файле.
-
пользователь получает инструментарий и
возможность удаления скрытых данных и личных сведений из
документов Office.
-
XML
предполагает возможность
замены испорченной части на исправленную по шаблону
(восстановление).
-
XML предполагает возможность обнаружения и
устранения ошибки в структуре отдельной части XML-документа.
-
механизм открытия XML-документов,
реализованный в программах Office, предусматривает значительный
объем интеллектуальных проверок для подтверждения
валидности
считываемого файла.
Хранение в zip-архиве предусматривает контроль по суммам CRC,
что исключает возможность искажения данных на этапе передачи
файла, обеспечивая его
целостность.
zip-архив с документом может быть защищен
паролем
CRC
(Cyclic
redundancy check,
циклический избыточный код) — алгоритм нахождения контрольной суммы,
предназначенный для проверки целостности данны
|
Скрытые и
персональные данные
в
Microsoft Word
для
Microsoft Word 2007-201 6
В документе Word могут храниться разные типы скрытых и
персональных данных, которые могут не отображаться при просмотре
документа в приложении Word, могут быть найдены и просмотрены другими
пользователями.
Скрытые сведения могут включать данные, которые Word
добавляет к документу, чтобы над ним можно было совместно работать с
другими пользователями.
Они также могут включать сведения, преднамеренно
помеченные как скрытые.
Типы скрытых и персональных данных:
-
примечания, пометки режима исправлений, версии и
рукописные примечания.
-
метаданные (имя автора, тема и заголовок, имя
пользователя, сохранившего документ последним, дата создания
документа, заголовки сообщений электронной почты, сведения об
отправке на рецензирование, маршруты документа и др..)
-
Колонтитулы и подложки "водяные знаки")
-
текст, отформатированный как скрытый (параметр
шрифта, доступный в диалоговом окне Шрифт)
-
свойства сервера документов и дополнительные
свойства и сведения о расположении документа на сервере.
-
пользовательские XML-данные.
Инспектор документов на
основе xml-разметки (Файл /
Сведения / Поиск проблем / Инспектор документов) находит и удаляет
скрытые и персональные данные.
Инспектор не находит объекты, перекрытые другими
объектами.
|
Расширения имен файлов
MS Word
Тип файла Word (2007-2015) |
Расширение |
Документ Word 2007 XML |
.docx |
Документ Word 2007 XML,
содержащий VBA-макрокоманды |
.docm |
Шаблон (Template) Word 2007 XML |
.dotx |
Шаблон (Template) Word 2007 XML, содержащий VBA-макрокоманды |
.dotm |
XML и единый стандарт документов
Open
Document Format (ODF)
изначально был форматом свободно распространяемого офисного пакета
OpenOffice.org.
В 2006 г. ODF
утвержден ISO ((International Standards Organization) "Международная
организация по стандартизации") в качестве мирового стандарта для
хранения документов, создаваемых при помощи офисных приложений.
22.12.2010
Формат
ODF утвержден в качестве государственного стандарта РФ
Файл в формате
Open Document Format
представляет собой обычный архив ZIP, содержащий текст документа в
формате XML
и папку с картинками и прочими приложенными материалами.
В начале ноября 2007г. Альянс OpenDocument Foundation принял решение отказаться от поддержки формата OpenDocument (ODF).
Предпочтение было отдано формату
Compound Document Format (CDF), также основанному на спецификации
XML и продвигаемому консорциумом W3C.
OpenDocument Foundation мотивирует свое решение отказаться от поддержки формата, для продвижения которого альянс и был создан, большей универсальностью формата
CDF.
CDF обладает полной совместимостью с конкурентом OpenDocument - форматом Office Open XML.
Кроме того, по словам представителей OpenDocument Foundation, CDF обладает лучшей кроссплатформенной переносимостью.
|
Корпорация Microsoft в
качестве второго мирового стандарта продвигает свой
Open OfficeXML
(OOXML)
являющийся прямым конкурентом
OpenDocument (ODF).
02.04.2008
Open OfficeXML
применяющийся в пакете
офисных программ Microsoft Office System, прошел стандартизацию
в международной организации ISO.
Сама же корпорация Microsoft удивила проектом
Open XML Translator:
Open XML Translator – проект с открытым кодом, предназначенный для создания инструментов конвертирования из формата Open XML в OpenDocument (ODF).
Проект Open XML Translator размещен на сайте SourceForge.net.
Версия для Word, способная конвертировать файлы doc в odf, и наоборот, уже доступна для скачивания.
|
В январе 2008 года опубликован вариант HTML 5 - пятой версии языка разметки гипертекста, что используется для формирования содержания в WWW (www.w3.org/2008/02/html5-pressrelease).
В наступившую эпоху тотального господства
XML стандарт HTML 5 будет соответствовать жёстким требованиям
XML-синтаксиса.
|
XML: чудеса патентования
04.08.2009
Патентное бюро США выдало
Microsoft патент №7571169 на
технологию "A word-processing document stored in a single XML file that may be
manipulated by applications that understand XML" - "Текстовый документ,
хранящийся в одном файле XML, которым может оперировать приложение, понимающее
XML".
Ключевые моменты:
-
документ содержит 100% информации о разметке документа и данные о
разметке не теряются при сохранении документов в XML
-
правила обработки формата определяются сторонним XSD-файлом
-
документ хранится в виде единого XML файла
Заявка была подана
Microsoft
в декабре 2004 года, патент выдан 4.08.2009.
Но
Есть XML-формат
fb2, первая версия которого была опубликована в том же 2004 году. Не
просто заявка на патент, а полное описание и спецификация. Есть
много программного обеспечения для работы с
fb2. Формат
fb2
однозначно определяет разметку документа,
данные о разметке не теряются при
сохранении документов в XML, которые хранятся в виде
единого XML-файла, включая вложения (в бинарном виде).
Почему же был выдан
данный патент
№7571169 ?
Подробнее о
fb2
здесь |
Всё будет XML ?
|