• Электронные книги
  • Авторы
  • Программы
Найти книгу:

электронные книги

  • бизнес-книги
  • детские книги
  • дом, дача
  • зарубежная литература
  • знания и навыки
    • изучение языков
    • компьютерная литература
      • базы данных
      • интернет
      • информационная безопасность
      • книги о компьютерах
      • компьютерное железо
      • ОС и сети
      • программирование
      • программы
    • научно-популярная литература
    • словари, справочники
    • учебная и научная литература
  • история
  • комиксы и манга
  • легкое чтение
  • психология, мотивация
  • публицистика и периодические издания
  • родителям
  • серьезное чтение
  • спорт, здоровье, красота
  • хобби, досуг

А. С. Гусаренко — Программное извлечение данных из word-документов на основе ситуационно-ориентированного подхода

Купить и скачать за 168 ₽





Понравилась книга? Поделись в соцсетях:
Facebook Twitter Вконтакте OK

Автор: А. С. Гусаренко

Издатель: Синергия

Год: 2021

Описание: В статье рассмотрены вопросы применения ситуационно-ориентированного подхода для программной обработки word-документов. Рассматриваемые документы подготавливаются пользователем в среде текстового процессора Microsoft Word или его аналогов и используются в дальнейшем как источники данных. Открытость форматов Office Open XML и Open Document Format позволила применить концепцию виртуальных документов, отображаемых на ZIP-архивы, для программного доступа к XML-компонентам word-документов в ситуационно-ориентированной среде. Обоснована важность выработки предварительных соглашений относительно размещения информации в документе для последующего поиска и извлечения, например, с помощью заранее подготовленных шаблонов-заготовок. Для форматов DOCX и ODT рассмотрено использование ключевых фраз, закладок, элементов управления контентом, пользовательских XML-компонентов для организации извлечения введенных данных. Для каждого варианта построены древовидные модели доступа к извлекаемым данным, а также соответствующие XPath-выражения. Отмечено, что использование того или иного варианта зависит от функциональных возможностей и ограничений текстового процессора и характеризуется различной сложностью разработки шаблона-заготовки, внесения данных пользователем и программирования извлечения данных. Рассмотрен практический пример обработки метаданных научной статьи, подготовленной в среде Microsoft Word для публикации в научном журнале. Примененное решение основано на занесении метаданных в статью с помощью размещенных в шаблоне-заготовке элементов управления контентом, привязанных к элементам пользовательского XML-компонента. Разработанная иерархическая ситуационная модель HSM обеспечивает извлечение XML-компонента, загрузку его в DOM-объект и XSLT-преобразования для получения результирующих данных: отчета об ошибках и JavaScript-кода для последующего использования извлеченных метаданных.

Купить и скачать за 168 ₽


© epub.ru      О сайте