19-09-2017

Описание проблемы архивного хранения информации

Думаю никого не стоит убеждать в необходимости организации архивного хранения информации. Постараемся более подробно осветить все аспекты.

Условно решение проблемы хранения информации можно разделить на следующие составляющие:

  • Выбор носителя информации. Не будем подробно останавливаться на перечислении возможных вариантов. Их список велик: от глиняных табличек и зарубок на деревьях до применения современных информационных технологий, например, высокотехнологичных архивных накопителей;
  • Организация условий хранения. Эта составляющая проблемы тесно связана с предыдущей и может быть реализована по-разному. Например, далекие предки пришли к тому, что надписи на скале лучше делать в пещере, чтобы их не смыл дождь. Ценные бумажные носители лучше хранятся при использовании соответствующего оборудования и системы создания микроклимата. Информацию в электронном виде целесообразно хранить опять же в соответствующих условиях, исключающих потери;
  • Организация доступа к информации и системы поиска. В разные времена существовали разные решения (поиск свитка в архиве по принципам, известным лишь одному хранителю, поиск по учетной книге или карточке — по автору, названию, теме, полке, шкафу и т. д.). Поскольку темой материала является создание электронных архивов, в основной части описывается поиск информации при использовании СУБД. Остановимся на этом вопросе подробнее. Число "единиц" хранения электронного архива может достигать сотен тысяч и даже миллионов. Для быстрого поиска обновления и удаления информации, современные СУБД используют универсальное средство — структурированный язык запросов — SQL. Причем операторы этого языка практически одинаковы для разных СУБД. Приведу простой пример, иллюстрирующий эффективность применения систем управления базами данных. Сервер Interbase, MsSQL или Oracle получает запрос следующего содержания: SELECT * FROM documents Where Doc_Name like '%статья%'. Переведем текст запроса на "общедоступный" язык и получим: "Выбрать из таблицы documents (таблица хранит записи о документах) все записи, имеющие в столбце Doc_Name (название документа) ключевое значение "статья". В процессе обработки запроса сервер выберет из миллионов документов только статьи и "отправит" результаты запроса клиентскому приложению, установленному, например, на рабочем месте системы архива. Конечно, время обработки запроса зависит от производительности конкретной СУБД, числа записей и ещё множества факторов. В любом случае оно крайне мало по отношению ко времени, которое пришлось бы затратить человеку на поиск всех статей среди огромного числа документов, хранящихся, например, на файловом сервере (без "помощи" СУБД)! Запросы формируются через интерфейс клиентского места системы архива и документооборота, например. Конечно, для формирования запросов пользователь не должен знать операторов SQL, он применяет "более привычные" элементы интерфейса — кнопки, поля, "выдвижные списки" запросных форм. В приведенном примере описан достаточно простой запрос. На самом деле SQL позволяет формировать запросы любой сложности. Кроме того, в перечисленных выше СУБД используются триггеры и хранимые процедуры, которые выполняют различные действия непосредственно на сервере, повышая производительность системы в целом. Например, триггеры "отвечают" за целостность данных (на преимуществах архитектуры клиент — сервер остановимся немного ниже). При создании системы электронного архива важно решить следующие задачи по доступности и разграничению доступа к информации:

    1. Необходимо, чтобы информация была доступна, её всегда можно было быстро найти и использовать. Иначе может произойти "утеря" полезных знаний и переход, говоря словами В. Высоцкого, в стадию "...дряхлость в архивах пылится..." в лучшем случае. В худшем же случае, возможен переход информации в стадию "глиняных табличек", содержащих необходимые знания и законы, которые из-за их "утери" приходилось "снова открывать";
    2. Необходимо, чтобы при доступности был реализован механизм ограничения доступа к хранимой информации, согласно правам пользователей. Неправильное разграничение прав доступа к информации может привести к убыткам и потерям для Вашего бизнеса. Например, древний жрец или шаман допускал к своим знаниям только учеников. Если так можно выразиться, он "защищал свой бизнес".

    Дело в том, что данный материал посвящен больше хранению информации предприятия, в том числе и бизнес — информации. Оговоримся сразу, под "бизнес — информацией" в статье подразумевается не только информация о финансовых и материальных потоках предприятия, ограниченная складской, бухгалтерской документацией, коммерческими предложениями, договорами.

    Если даже Ваше предприятие занимается лишь торгово-закупочной деятельностью, все равно всегда присутствует некая информация, которая прямо или косвенно влияет на успех бизнеса, но не относится к перечисленным категориям. Если же Вы занимаетесь разработкой, обслуживанием, производством, ремонтом чего-либо, то Вашей основной ценностью может являться технологическая, техническая, инженерная, проектная информация.

    Ценность именно такой информации наиболее высока. В качестве примера можно привести строительство серии кораблей для ВМС Индии и Китая на судостроительных предприятиях. При этом "самая ценная" информация, связанная с этими контрактами, содержится как раз не в счетах-фактурах и "платежках", а в технологической, проектной, инженерно-конструкторской документации;

  • Организация учета хранимой информации. Думаю не стоит приводить подробные причины необходимости этого пункта. Стоит лишь указать, что правильный учет облегчает доступность, поиск необходимой информации и исключает её "потери";
  • Организация пополнения информации. Способы пополнения напрямую зависят от реализации всех вышеперечисленных пунктов;
  • Создание единой "архивной" системы, объединяющей все вышеперечисленные пункты. Система должна позволять не только использовать всю информацию в режиме "просмотра" (чтения, изучения), "пополнения" и "редактирования". Важной задачей является разработка новых знаний на основе полученных в системе, их регистрация. Забегая немного вперед, приведу пример: в системе электронного архива может быть быстро найден необходимый документ, создана его новая версия. Это делается для того, чтобы не "портить", например, ранее разработанный офисный, бухгалтерский документ, договор, чертеж и т. д. В новую версию вносятся необходимые изменения. В договоре, например, меняется сумма и название организации, а в чертеж модернизированного изделия вносится новый элемент. После регистрации новой версии уже все перечисленные действия системы (хранение, учет, поиск, доступ и т. д.) применимы и к новому документу.

История развития решения

Рассмотрим основные способы хранения информации, которые применяются в наше время, не затрагивая пока систем электронного архива.

Хранение в бумажном виде

Способ хранения информации в бумажном виде — самый распространенный. Причина этого, прежде всего, в том, что из всех описываемых способов он "самый старый". Глупо было бы описывать то, что всем знакомо с детства. Просто перечислим преимущества и недостатки. Основным преимуществом является "наглядность и привычность". Действительно, никто не станет возражать, что работать с книгой или листом бумаги удобно. Отсутствует всякое дополнительное оборудование между Вами и носителем информации. Все воспринимают Ваши зрение и мозг. Для "корректировки" бумаги достаточно лишь наличие карандаша или ручки.

Недостатки же данного способа заключаются в большом физическом объеме архива. Бумага имеет свойства выцветать, протираться от многократных прикосновений, рваться. Информация на поврежденных бумажных носителях может быть частично или полностью утеряна. Учет информации бумажного архива при помощи книг или карточек тоже довольно громоздок, не говоря о поиске необходимой книги, документа. Довольно громоздким является процесс извлечения наконец-то найденного из шкафов и полок. Тиражировать информацию бумажных носителей достаточно неудобно.

С перечисленными недостатками существуют определенные "способы борьбы". Для уменьшения объема бумажных масс, например, успешно применяются стеллажи специальной конструкции, перемещающиеся на рельсах. В "сложенном виде" такой стеллаж занимает гораздо меньший объем (за счет отсутствия проходов между полками).

Для хранения особо ценной информации на бумаге можно создать систему микроклимата.

Для тиражирования документации бумажных носителей применяют копировальные аппараты. Пионером в их разработке и производстве является небезызвестная фирма Xerox, благодаря которой и возник термин "ксерокопия". Для копирования сшитых документов, книг достаточно эффективно применение копиров Minolta. При копировании "с бумаги на бумагу" объем "бумажных масс" растет. При всем уважении к данной технологии, отметим: если качество подлинника низкое и часть информации уже потеряна, то на копии это повторится. Улучшение качества таких копий без использования информационных технологий невозможно.

Сделать более удобным учет "на бумаге", упростить процесс быстрого доступа к информации, создать эффективную систему тиражирования (копирования) с возможностью повышения качества и даже восстановления информации (в пределах разумного) уже невозможно.

Микрофильмирование

Микрофильм имеет ряд преимуществ перед традиционным "бумажным" носителем. Применение микрофильмирования позволяет иметь значительно меньший "физический" объем носителя. В "шпионских" фильмах 50-х — 60-х годов часто одним из трюков сюжета являлась передача злодеями микропленки, несущей объемную и важную информацию. Действительно, в те годы кибернетика в Советских энциклопедических изданиях трактовалась как "лженаука". Более "компактного" носителя информации, чем микрофильм не существовало. Технология микрофильмирования получила серьезное развитие.

Основным преимуществом технологии микрофильмирования по сравнению с хранением информации на бумаге, является снижение "физического" объема архива. Для просмотра и тиражирования микрофильмов требуется специальное оборудование. Далеко не всегда целесообразно оборудовать рабочее место пользователя архива ставшим привычным компьютером и, например, устройством для просмотра микрофильмов. Как выяснилось, микрофильмы подвержены "уксусному синдрому". Такое название получили необратимые химические процессы, происходящие в настоящее время с микрофильмами 60-х годов. Эти процессы ведут к частичной или полной потере информации. Название "синдрома" произошло от запаха уксуса, сопровождающего процесс разложения материала.

Прочими недостатками микрофильмирования является, опять же, отсутствие системы быстрого поиска и быстрого тиражирования информации. Система учета архива на микрофильмах мало чем отличается от системы учета "бумажного" архива. Предпринимались и предпринимаются попытки "борьбы" с этими недостатками. Все они ведут, опять же, к использованию информационных технологий и к созданию систем электронного архива. Например, целесообразнее организовать систему учета с использованием СУБД, а подверженные необратимым процессам микрофильмы не "переснимать", а переводить в электронный вид специальными сканерами. Далее можно осуществлять необходимую работу по восстановлению информации на электронных изображениях. Появляется возможность разграничения по правам пользователей, внесения изменений в создаваемые версии документов и их быстрого тиражирования.

Переход к применению информационных технологий

Бурное развитие информационных технологий способствует автоматизации практически всех сфер человеческой деятельности. Разработка новых знаний стала более эффективной и "быстрой". Никто не станет отрицать, что создать "офисный" документ проще и удобнее в соответствующем приложении пакета MS Office. Сложные инженерные и проектно — конструкторские данные удобно создавать не при помощи карандаша и кульмана, а при использовании соответствующих "двухмерных" или 3D — средств. Финансовое и бизнес — планирование, экономические и бухгалтерские расчеты быстро и надежно производятся при помощи соответствующих программ.

Но так ли все "хорошо и безоблачно"? Рассмотрим "обратную сторону медали". Доступность и скорость разработки новых документов при помощи электронных средств приводят к росту их электронного "объема" и количества. Представим, что механизмы поиска, учета, хранения, управления разработкой отсутствуют. В этом случае дальнейшее внедрение информационных технологий на Вашем предприятии может перестать приносить экономический эффект. Начиная с определенного времени, наоборот, эффективность процессов может снижаться. Говоря проще, можно быстро "захлебнуться" в информационных потоках, потерять управление ими.

Другой проблемой, с которой приходится сталкиваться на любом предприятии, является наличие большого количества информации на "традиционных" бумажных носителях. Единое информационное пространство невозможно без включения в него такой информации.

Конечно, можно, используя имеющиеся средства разработки электронных документов, "переиздать" бумажный архив. Этот способ далеко не лучший, т. к. связан с достаточно большими затратами рабочего времени и средств. Сколько сил, времени и средств необходимо для "перепечатывания" всей административной документации предприятия за последние десять лет, например, в текстовом редакторе MS Word? А сколько для "перечерчивания" всей инженерной документации по изделиям судостроительной верфи за такой же период при помощи, например, AutoCAD? Может быть "махнуть на все рукой" и отказаться от использования таких документов? Это невозможно, поскольку информация, содержащаяся в них, используется в настоящее время и является "базовой" для создания новых документов.

Решение проблемы использования информации "бумажных" носителей, а также микрофильмов в электронном виде существует. Наиболее оптимальным является их быстрый перевод в электронный вид. Для этого существует различное сканирующее оборудование: от обычного планшетного сканера до промышленного сканера, позволяющего, например, сканировать до 180 страниц/минуту.

Как правило, "на выходе" сканера создается информация в графических электронных форматах. В любом случае такую информацию можно включать в систему электронного архива. При необходимости перед включением полученных электронных документов в систему архива возможна их обработка, например, распознавание. Способы обработки зависят от дальнейшего использования. Если, например, Вы вдруг решите, что просто необходим полнотекстовый поиск "внутри" отсканированного документа, то его придется "распознать", то есть перевести из графического формата в текстовый. Если же Вам достаточно быстро найти сам документ для вывода на экран компьютера или принтер, то лучше оставить его в графическом формате.

В этом месте изложения материала стоит остановиться на достаточно ошибочном мнении об "огромных размерах" файлов в графических форматах и "неприменимости" их использования для хранения информации в электронном виде.

Рассмотрим требования, выдвигаемые при сканировании, например, произведения искусства (картины, фолианта, гравюры). В этом случае важным требованием является полнота цветопередачи. Действительно, цвета красок картины являются одной из основных "информационных" составляющих, которая определяет восприятие. Для качественной цветопередачи неприменимо использование алгоритмов сжатия. Необходима передача информации о цвете каждой точки полотна. Действительно, размер такого файла огромен. Автору приходилось работать со сканирующим оборудованием, "на выходе" которого "получался" файл размером до 1 Гигабайта! Такой файл несет полную информацию о цвете. Но чаще можно использовать, так называемые, алгоритмы сжатия (компрессии). Не будем углубляться в их механизмы, но приведем пример: размер файла можно "уменьшить" неограниченно, если не записывать в него данные о цвете каждой точки изображения, а, "переведя с машинного на человеческий язык", сказать, например, так: "Эта точка и следующие за ней 10000 точек красные".

Когда же мы говорим об использовании отсканированных документов в электронном архиве предприятия, в большинстве случаев цвет не является существенным фактором. Основную информацию документа, как правило, несут не цвета, а тексты, линии и т. д. Все эти элементы изображения могут быть и черно-белыми. В случае использования алгоритмов сжатия для черно-белых монохромных файлов, их размер может быть еще меньшим, чем размер компрессированного "серого" или "цветного". Действительно, при записи информации о цвете в монохромном файле существует лишь 2 варианта цвета. В двоичной же системе исчисления для записи о двух цветах достаточно применение 1 bit.

Например, если Вы распечатаете страницу, созданную в текстовом редакторе Word, отсканируете её, получите сжатый файл формата TIFF G4 Monochrome и сравните с файлом исходного документа формата DOC, то большой "разницы" в размере этих файлов Вы не обнаружите.

При решении вопроса создания архивных систем во все времена приходилось решать проблему физического объема носителей. Например, уменьшалась толщина, формат бумаги, размер шрифта. Бумажные носители прошли длительный путь эволюции. Текст увесистого древнего фолианта, оказалось, можно "уместить" в достаточно "тонком" журнале. Причем "информативность" такого носителя ничуть не уменьшается.

Текст книги или журнала впоследствии удавалось разместить на гораздо меньшем по физическому размеру микрофильме, опять же, без нанесения ущерба "информативности". Но всему есть предел. Например, невозможно неограниченно уменьшать размер шрифта или толщину бумаги.

При переходе на электронное хранение опять же наблюдается ряд "ступеней эволюции". Например, для уменьшения объема файлов графического изображения возможно применение алгоритмов сжатия. Постоянно велись и ведутся разработки в области физического "уменьшения" размеров самого носителя. Например, еще 10 лет назад жесткий диск объемом в 20 Gb считался фантастикой, а сегодня такой объем уже "староват". Объем информации предприятия, даже при использовании всех "ухищрений", направленных на его уменьшение (не в ущерб "информативности"), может исчисляться в терабайтах. При таких объемах использование "привычных" жестких дисков нецелесообразно. В связи с этим разрабатывались новые технологии хранения данных и устройства: ленточные, магнитооптические, CD, DVD. Например, современная DVD-RAM роботизированная библиотека образует "большой сетевой диск" размером до 6 терабайт.

Какой тип носителя электронной информации наиболее приемлем в Вашем случае? Все зависит от ряда факторов. Методика определения целесообразности той или иной технологии, типа носителя, устройства хранения описывается в основной части материала.

В процессе накопления информации всегда приходилось решать проблемы её совместного использования, разграничения прав доступа к различным разделам. В "бумажном" архиве эти проблемы решались лишь организационными мерами. Решение вопросов совместного использования, разграничения прав доступа к разделам "электронной" информации осуществляется средствами администрирования операционной системы сервера сети. Действительно, для Вашего системного администратора нет ничего проще, чем создать каталог на жестком диске сервера и указать, кому из пользователей можно просматривать и редактировать его содержимое, кому лишь просматривать, а кому вообще данный каталог недоступен.

Реализовать возможность групповой работы с архивом, используя лишь сетевые средства, недостаточно. Для решения проблем учета информации, разграничения прав доступа, быстрого поиска, доступа, регистрации новой информации, обеспечения управления процессами разработки новых данных в системах электронных архивов широко используются системы управления базами данных — СУБД. Опять же не будем подробно останавливаться на их описании, истории и эволюции развития.

Большинство современных СУБД имеют все необходимые для работы в системе электронного архива механизмы и свойства. В зависимости от решаемых задач возможно использование таких средств, как Oracle, MsSQL, MySQL, Interbase, Paradox и даже MsAccess. Перечень далеко не полный. Все СУБД объединяет то, что они представляют, по сути, наборы связанных таблиц. Таблицы состоят из вертикальных колонок — "полей", "столбцов" и горизонтальных — "записей". В каждую ячейку таблицы можно производить запись данных в том или ином формате. Формат зависит от указанного формата ячейки. Например, можно записать набор символов, слово или целый документ в электронном виде, а некоторые СУБД, например, Oracle, позволяют записывать в одну ячейку не только документ, но и целую таблицу, содержащую, в свою очередь, записи. Главное свойство таблиц СУБД — возможность быстрого поиска информации при использовании языка запросов. Изложение реляционной теории баз данных не входит в рамки материала, но именно перечисленные свойства СУБД являются основными и необходимыми для учета, разграничения прав доступа, быстрого поиска, доступа, регистрации новой информации, обеспечения управления процессами разработки новых данных.

Кроме того, могут использоваться файл — сер- верные и клиент — серверные решения. В первом случае, например, при использовании файл — серверной СУБД Paradox производи- тельность системы относительно невелика, сеть "более загружена". Все вычисления, как правило, ведет "клиентская" программа. Во втором случае, например, при использовании СУБД Oracle, MsSQL, Interbase клиентская программа только формирует запрос и отображает результат "ответа" от сервера. Всю обработку производит сервер. Производительность системы гораздо выше. С другой стороны, невысоки требования к "клиентскому" ПО (программе, через которую происходит Ваше "общение" с базой). Кроме того, такие СУБД, как, например, Oracle и MsSQL имеют дополнительные средства снятия нагрузки с клиентских машин — выполняемые на сервере хранимые процедуры и триггеры. Самым идеальным случаем является использование привычного WEB-навигатора, например, Internet Explorer (IE), когда работа с электронным архивом напоминает работу с Internet — сайтом! В этом случае на рабочем месте системы архива не требуется установки дополнительного ПО. Достаточно лишь знать адрес в Internet или интрасети, имя пользователя и пароль для работы в системе электронного архива. Пользователь подключается по этому адресу к WEB-серверу. Через интерфейс WEB — страниц, отображаемых, например, в IE производится формирование запросов (используются элементы запросных форм). WEB — сервер, получив запрос, автоматически "отправляет" его через соответствующий интерфейс взаимодействия с СУБД. Например, для взаимодействия IIS с MsSQL используется ODBC. Взаимодействие между "не Microsoft — овскими" WEB серверами и СУБД осуществляется другими способами, но логика работы системы остается такой же. Получив через соответствующий интерфейс запрос от WEB — сервера, сервер СУБД формирует ответ, отправляя его "назад". В конце концов, результат ответа сервера СУБД, преобразованный в "понимаемый" WEB — навигатором формат, отправляется на клиентскую машину (проще, в окне IE отображается WEB — страница, содержащая результат запроса). Существует несколько технологий взаимодействия WEB — сервера с сервером СУБД (IDC, PHP, ASP и т. д.), их подробное описание не входит в рамки статьи. Все эти технологии объединяет, прежде всего, возможность работы как в локальной сети, так и через Internet, простота использования клиентских частей (WEB — навигатор), минимальные загруженность клиентских машин и требования к их ресурсам.

Какие же СУБД предпочтительнее использовать в Вашей системе электронного архива? Все зависит от реально стоящих задач. Например, если создаваемой системой пользуются несколько человек, объем информации — несколько мегабайт, а число "единиц хранения" — несколько сотен, то возможно даже эффективное использование MS Access. Если же Ваш архив имеет объем в несколько терабайт, миллионы записей, сотни пользователей, причем часть из них расположена за пределами Вашего предприятия, а возможно и страны, то Вам, скорее всего, лучше использовать Oracle или MSSQL и обратиться к WEB — технологиям.

Класс!
колонтитулы в word 2007, 000000111
нумерация страниц в word 2007, 00000011111
Яндекс.Метрика
Копирование возможно при указании прямой индексируемой гиперссылки
п»ї