новости
статьи
.технологии

виртуальные ленточные библиотеки: мифы и реальность

введение

«Кто владеет информацией – тот владеет миром», – эта фраза, произнесенная почти 200 лет назад Натаном Ротшильдом и ставшая много позже крылатой благодаря Уинстону Черчилю, сегодня приобретает особое значение. Сейчас информация – один из основных двигателей бизнеса, ведь от способности хранить и обрабатывать ее подчас зависит само существование компании. В этой статье мы поговорим о новых технологиях для надежного хранения данных, столь необходимых современному бизнесу.

Современные системы хранения данных (СХД) обеспечивают исключительно высокий уровень надежности хранения благодаря отказоустойчивой архитектуре оборудования, включающей в себя дублирование компонентов, поддержку механизмов RAID и т.д., а также за счет применения средств создания копий данных, моментальных снимков (snapshot) и репликации. Однако сколь бы надежна ни была инфраструктура хранения, система резервного копирования и восстановления данных по-прежнему остается обязательным компонентом современного центра обработки данных (ЦОД).

Причиной тому являются следующие моменты:

- в большинстве случаев резервирование данных на ленту или недорогие дисковые носители существенно дешевле репликации данных на другой массив или создания «клонов» данных;

- применение механизмов репликации защищает данные от аппаратных сбоев оборудования, но не обеспечивает защиту от так называемых логических ошибок – повреждений данных в результате ошибок пользователей или программного обеспечения;

- количество создаваемых клонов данных, как правило, весьма ограничено. В противном случае подобные решения становятся либо очень дорогими, либо значительно снижают производительность системы хранения данных. В свою очередь, система резервного копирования обеспечивает возможность долговременного хранения данных и их оперативного восстановления за любой период времени. При этом стоимость решения и степень его влияния на производительность СХД значительно ниже;

- при долгосрочном хранении архивных данных система резервного копирования – еще один уровень в иерархической модели хранения (Hierarchical Storage Management, HSM), обеспечивающий дешевое и надежное хранение статичных (неизменяющихся) данных;

- требования к обязательному хранению копий данных в удаленном хранилище зачастую диктуются регулирующими органами и\или аудиторами.
проблемы современных систем резервного копирования

Современный бизнес диктует новые требования к системе резервного копирования и восстановления данных. Ежегодно объемы накопленных корпоративных данных удваиваются и, что более важно, растет значимость этих данных для бизнеса. С другой стороны, жесткая конкуренция, глобализация бизнеса и работа компаний в нескольких часовых поясах требуют надежной работы ИТ-сервисов в режиме 24х7. Все это существенно сокращает продолжительность «окон резервного копирования», в течение которых должны быть завершены все операции создания резервных копий. Кроме того, указанные обстоятельства также предъявляют жесткие требования и ко времени восстановления данных.

Остроту этой проблемы наглядно иллюстрируют результаты проведенного агентством Enterprise Strategy Group опроса ИТ-руководителей о наиболее существенных проблемах, связанных с резервным копированием и восстановлением данных.



Рис. 1. Результаты опроса «Наиболее серьезные, на ваш взгляд, проблемы в существующей системе резервного копирования».

Как видно из отчета (рис.1), большинство респондентов ставит на первые места недостаточную скорость резервного копирования и восстановления данных. Кроме того, многие отмечают сложность и трудоемкость управления процессами резервного копирования и хранения резервных копий, а также недостаточную надежность.

Не секрет, что подавляющее большинство систем резервного копирования построено с использованием магнитных лент в качестве носителя данных. Следовательно, перечисленные выше проблемы связаны именно с лентами. Ниже мы рассмотрим, почему использование только магнитоленточных накопителей перестает удовлетворять пользователя на современном этапе развития информационных технологий.

недостатки магнитных лент

В самом деле, ленточные накопители в качестве основного устройства хранения данных резервного копирования используются очень часто, да и имеют репутацию надежного и дешевого носителя. Более того, технологии не стоят на месте: производители регулярно повышают скорость записи и объем хранения ленточных накопителей (так, например, за последние 7 лет емкость лент LTO увеличилась в 8 раз!). Тем не менее, использование магнитных лент в системах резервного копирования (СРК) сопряжено с рядом трудностей, о чем свидетельствуют приведенные выше результаты опроса. В чем же проблема? Их несколько, попытаемся описать основные.

Основной проблемой является наличие «разрыва» между скоростью передачи данных и скоростью записи данных на ленточный накопитель. На сегодняшний момент скорость передачи данных по сети значительно отстает от скорости записи данных на магнитную ленту. Средняя скорость передачи данных по протоколу TCP/IP через Gigabit Ethernet составляет 50-80 Mb/s, тогда как номинальная скорость записи на современный ленточный накопитель формата LTO4 равна 120 MB/s, а с учетом компрессии может составлять 240-300 Mb/s. В то же время магнитоленточный привод имеет минимальную рекомендуемую скорость записи (как правило, она оставляет 1/2 от номинальной скорости), меньше которой возникает эффект многократной перемотки и повторного позиционирования пишущей головки (в иностранной литературе он называется «эффектом чистки обуви» или shoeshine effect). Причина этого эффекта в том, что даже современные накопители не могут замедлять скорость движения ленты в неограниченных пределах. При недостаточной скорости поступления данных возникает ситуация, когда записывать на ленту нечего – все буферы с данными уже записаны, а привод уже уменьшил скорость движения ленты до минимально возможного значения. В этом случае при поступлении новой порции данных происходит следующее: лента перематывается назад до последней метки и повторно считывается, чтобы найти участок, где была закончена запись. Только после этого запись на ленту возобновляется. Но если данные по-прежнему не поступают достаточно быстро, процедура повторяется, причем в одной сессии резервного копирования таких циклов «перемотка-считывание» могут быть десятки тысяч.

Разумеется, запись на ленточный накопитель в таком режиме ведет к преждевременному износу оборудования и лент из-за многократного роста нагрузки. Кроме того, фактическая скорость записи из-за постоянных перемоток и позиционирования падает в 2-3 раза.

В результате ситуация может выглядеть абсурдно – при переходе на более современные ленточные накопители скорость создания резервных копий не растет, а наоборот – уменьшается, и все из-за недостаточно быстрой передачи данных.

Вторая системная проблема при использовании магнитных лент – отсутствие возможности одновременной записи в несколько потоков. Каждая сессия резервного копирования монопольно занимает магнитоленточный привод вне зависимости от того, с какой скоростью производится запись. Так как скорость записи часто бывает меньше номинальной, суммарная скорость записи данных СРК оказывается значительно меньше расчетной.

Кроме того, невозможность одновременно считывать и записывать данные на магнитную ленту является фактором, который может сильно замедлять процесс восстановления данных. Если данные, необходимые для восстановления, находятся на ленте, используемой в данный момент для записи, то процедура восстановления будет отложена до тех пор, пока лента не освободится. Поскольку продолжительность полной записи может составлять несколько часов, время ожидания может оказаться неприемлемо продолжительным. Похожая ситуация возможна и при одновременном восстановлении данных на нескольких клиентах – если данные этих клиентов записаны на одну и ту же ленту, каждый процесс восстановления вынужден будет дожидаться окончания предыдущего.

Безусловно, производители систем резервного копирования предлагают решения, позволяющие преодолеть вышеописанные проблемы, и список этих решений достаточно широк: перевод трафика резервного копирования из локальной сети (LAN) в сеть хранения данных (SAN) для увеличения скорости передачи данных, применение мультиплексирования данных для организации одновременной записи на ленту с нескольких клиентов, организация безнагрузочного резервного копирования (off-host backup) и т.д. Но все подобные решения имеют и обратную сторону – усложнение архитектуры СРК (а следовательно , увеличение затрат на проектирование и эксплуатацию) и увеличение стоимости конечного решения (приобретение дополнительных лицензий, дискового пространства, портов SAN и т.п.).

Логичной альтернативой подобным решениям является замена носителей данных резервного копирования с магнитоленточных на дисковые, которые в силу архитектурных особенностей лишены основных недостатков лент – требований к минимальной скорости записи данных и невозможности многопоточной записи и чтения.

новый подход к резервному копированию и восстановлению данных

Стремление избавиться от присущих ленточным библиотекам проблем в сочетании с существенным снижением стоимости дисковых накопителей делают идею резервного копирования на жесткие диски (disc-to-disc backup, D2D) весьма привлекательной. Как следствие, за последние несколько лет большинство ведущих производителей систем хранения данных включили в свои продуктовые портфели решения для резервного копирования disc-to-disc. По сути, практика резервного копирования на диски далеко не нова. Например, IBM и Sun Microsystems с конца 90-х годов прошлого века используют ее в своих решениях, предназначенных для использования в средах с мэйнфреймами. Однако ввиду дороговизны дисковых носителей применение их в качестве постоянного хранилища резервных копий было (да и остается) малоэффективным. Поэтому первые disc-to-disc решения играли роль буфера (дискового кэша) между приложением резервного копирования и ленточной библиотекой. Такой подход, получивший название disc-to-disc-to-tape (D2D2T), позволяет сократить время резервного копирования данных, но не решает проблем со скоростью их восстановления.

В наши дни благодаря значительному снижению стоимости хранения данных на недорогих и емких SATA-дисках концепция D2D выходит на новый виток развития. Быстрому распространению этого подхода также способствует тот факт, что практически любое современное программное обеспечение для резервного копирования (IBM Tivoli Storage Manager, Symantec VERITAS NetBackup и т.д.) уже обладает встроенными средствами для работы с дисковыми устройствами хранения.

Действительно, применение дисков в качестве носителей для данных резервного копирования обеспечивает высокую скорость резервного копирования и восстановления данных вне зависимости от скорости передачи данных и производительности серверов – клиентов системы резервного копирования. Более того, высокая надежность дисков в сочетании с отказоустойчивой архитектурой систем хранения обеспечивает высокий уровень надежности, а отсутствие необходимости выгрузки и перемещения лент существенно упрощает администрирование СРК. Казалось бы, вот оно – решение всех обозначенных выше проблем! Однако не все так безоблачно.

На сегодняшний день основным фактором, сдерживающим развитие D2D, является высокая стоимость хранения данных на дисковых массивах. И хотя с появлением емких и относительно недорогих SATA-дисков стоимость хранения неуклонно снижается, ее уровень все еще остается неприемлемо высоким по сравнению с традиционными ленточными библиотеками.

Для примера, подсчитаем совокупную стоимость хранения 30 Tb данных на магнитных лентах, а также дисках SATA и FC. Для упрощения задачи не будем учитывать стоимость администрирования и обслуживания систем, стоимость занимаемых ими площадей и некоторые другие факторы. Следует отметить, что энергопотребление и тепловыделение дисковых массивов значительно выше аналогичных показателей для магнитоленточных библиотек, поэтому помимо стоимости приобретения оборудования в расчет стоимости хранения включим затраты на электропитание и охлаждение системы за пятилетний период эксплуатации.



Таблица 1. Приближенный расчет совокупной стоимости хранения.

Как видно из диаграммы (рис. 2), совокупная стоимость хранения резервных копий на SATA-дисках большой емкости действительно гораздо ниже, нежели в случае применения FC-дисков, но по-прежнему заметно уступает ленточным библиотекам.



Рис. 2. Совокупная стоимость хранения в расчете на 1 Gb данных.

Более высокая по сравнению с лентами стоимость хранения – не единственная слабая сторона дисковых систем. На практике внедрение концепции резервного копирования на диски сопряжено с целым букетом трудностей.

Во-первых, при использовании дисковых устройств хранения в СРК дисковое пространство оказывается фрагментированным – каждый сервер управляет собственными файловыми системами, которые недоступны другим серверам СРК. В результате на наиболее активно используемых серверах резервного копирования будет наблюдаться нехватка дисковых ресурсов, в то время как на других серверах выделенное пространство будет использоваться менее эффективно.

Во-вторых, ряд широко применяемых файловых систем (UFS, Basic NTFS) имеют ограничение на максимальный объем создаваемой файловой системы в 2 TB. В результате резервное копирование современных корпоративных баз данных, объем которых может легко превышать десятки терабайт, на подсистему D2D невозможно.

В-третьих, масштабирование и модификация систем disc-to-disc осуществляются значительно сложнее по сравнению с ленточными устройствами. Например, при нехватке места для хранения данных резервного копирования администратор традиционной СРК просто выгружает записанные ранее ленты и добавляет в ленточную библиотеку чистые носители. В более критических случаях может быть приобретено расширение ленточной библиотеки для хранения дополнительных магнитных лент. В любом случае данная операция никак не затрагивает на­стройки политик или инфраструктуры СРК. В свою очередь, при нехватке места для резервного копирования в D2D-системе недостаточно просто добавить новые диски в дисковый массив. Необходимо предоставить серверам дополнительное дисковое пространство, создать на них файловые системы, а также создать новые устройства хранения в самой системе резервного копирования. Кроме того, необходимо проанализировать объемы данных резервного копирования и модифицировать политики резервного копирования, чтобы перенаправить данные на новые устройства хранения. Таким образом, эксплуатация систем D2D требует постоянного отслеживания своего состояния, модернизации политик и т.д., что ведет к значительному росту расходов на администрирование.

В качестве альтернативного решения, вобравшего в себя все преимущества концепции disc-to-disc и, одновременно, лишенного вышеуказанных недостатков, ведущие производители систем хранения данных предлагают использовать виртуальные ленточные библиотеки (Virtual Tape Library, VTL).

виртуальные ленточные библиотеки

Virtual Tape Library (VTL) – это disc-to-disc решение для резервного копирования данных, эмулирующее работу традиционных ленточных библиотек. С точки зрения приложения резервного копирования, виртуальная ленточная библиотека выглядит как одна или несколько обычных библиотек, благодаря чему VTL быстро и бесшовно интегрируется в существующую инфраструктуру заказчика.

Первая виртуальная ленточная библиотека была разработана компанией IBM в середине 90-х годов прошлого века с целью объединения в одном решении преимуществ высокой скорости чтения, записи на диски и низкой стоимости хранения данных на магнитных лентах. Фактически анонсированная в 1997 году система IBM Virtual Tape Server играла роль дискового кэша между приложением резервного копирования и ленточной библиотекой. Уже в то время применение VTL позволяло существенно сократить время резервного копирования, а также повысить эффективность использования магнитных носителей. Кроме того, поскольку чаще всего резервируемые данные оказываются востребованными в течение непродолжительного времени после копирования, хранение данных в этот период на дисках позволяло существенно сократить время восстановления благодаря высокой скорости чтения и возможности произвольного доступа к данным.

Сам термин «VTL» появился несколько позже, в начале 2000-х годов, с легкой руки компаний MTI Technology и Quantum. На протяжении долгого времени технологии VTL выступали в качестве узкоспециализированных нишевых решений, однако в последнее время интерес к этим решениям стал стремительно расти благодаря снижению стоимости дисковых носителей и распространению технологии дедупликации. Доказательством тому служит статус Product Category of the Year 2007 от портала www.storagesearch.com, свидетельствующий о наивысшей степени интереса специалистов всего мира к этой технологии.

На сегодняшний день VTL – полноценная состоявшаяся платформа, уверенно завоевывающая все большую рыночную долю. По данным Gartner, на конец 2007 года в мире было продано несколько десятков тысяч VTL-решений общим объемом в сотни петабайт.

Виртуальные ленточные библиотеки, по сравнению с решениями disc-to-disc, обладают рядом преимуществ, представленных ниже.

бесшовная интеграция

Ключевое преимущество виртуальных ленточных библиотек перед disc-to-disc решениями кроется в простоте внедрения. В VTL-решениях доступ к накопителям, системе управления, картриджам и т.д. осуществляется точно так же, как и при работе с реальной ленточной библиотекой. Большинство современных виртуальных библиотек позволяют эмулировать различные типы магнитных лент и совместимы со всеми популярными приложениями для резервного копирования, такими как:

- VERITAS NetBackup \ BackupExec;

- EMC Legato Networker;

- HP Data Protector;

- IBM Tivoli Storage Manager;

- CommVault Galaxy;

- Computer Associates Brightstor ARCServe;

- Atempo Time Navigator.

Благодаря этому при внедрении VTL не требуется значительных изменений в существующих процедурах и политиках СРК. Подобный подход защищает сделанные ранее инвестиции в инфраструктуру хранения, а также снижает риски сбоев в работе СРК в процессе перехода с резервирования на ленты к использованию дисков.

Кроме того, в отличие от D2D-решений, VTL позволяет эффективно использовать дисковые ресурсы массива. Вся емкость доступна в виде единого хранилища, в котором эмулируется необходимое количество драйвов и лент произвольной емкости.

дедупликация данных

Вторым важнейшим преимуществом VTL является возможность дедупликации данных. Технологии дедупликации обеспечивают многократное уменьшение объемов хранимых данных за счет выявления дублированных данных, уже сохраненных ранее (рис. 3). В зависимости от специфики резервируемых данных, периодичности и интенсивности их изменения эффективная (предоставляемая) емкость хранения может превышать физический объем дисковой системы в десятки раз. Подобный подход радикально снижает требования к емкости дискового массива, расходы на его приобретение и эксплуатацию, что значительно сокращает стоимость создания и хранения резервных копий данных.



Рис. 3. Сравнение объемов хранимых данных резервного копирования до и после дедупликации.

Насколько же эффективно внедрение механизмов дедупликации? Чтобы разобраться с этим вопросом, дополним нашу таблицу 1 расчета совокупной стоимости хранения данных вариантом VTL-решения от одного из ведущих производителей. Благодаря применению механизмов дедупликации, для организации хранилища емкостью 30 Tb более чем достаточно VTL-системы базового уровня с физическим объемом дисковой емкости в 8 Tb. Полезная емкость, с учетом дедупликации для этого варианта, может достигать 80 Tb и более. Таким образом, при росте объемов резервируемых данных дополнительные расходы на приобретение оборудования и ПО не потребуются, а совокупная стоимость хранения в расчете на 1 Gb данных будет снижаться и может вплотную приблизиться к стоимости хранения данных на лентах.



Таблица 2. Приближенный расчет совокупной стоимости хранения.



Рис. 4. Совокупная стоимость хранения 1 Гб данных.

Как видно из диаграммы (рис. 4), благодаря применению механизмов дедупликации стоимость хранения резервных копий на виртуальной библиотеке существенно снижается и может быть соизмерима со стоимостью хранения данных на лентах.

повышение эффективности BCP/DR решений

Использование дисковых массивов в качестве среды хранения резервных копий данных привносит в СРК дополнительные возможности по обеспечению катастрофоустойчивости.

Благодаря предлагаемым некоторыми производителями решениям пользователь может установить две виртуальные библиотеки – в основном и резервном вычислительном центре и организовать репликацию данных между ними, используя в качестве каналов передачи данных SAN- или IP-сети. Такой подход устраняет риски, неизбежно возникающие при выгрузке, транспортировке и хранении лент в удаленном хранилище. В случае катастрофы резервное хранилище переключается в режим основного и используется для восстановления данных как на резервную, так и на основную площадку. Немаловажным аргументом в пользу VTL-решения является скорость восстановления данных из удаленного хранилища. В зависимости от пропускной способности каналов связи и объема передаваемых данных, время восстановления может измеряться минутами против часов или даже дней, необходимых для поиска и доставки требуемых для восстановления лент.

Справедливости ради стоит отметить, что современные системы резервного копирования также позволяют организовать BCP/DR решения и на базе ленточных библиотек. Возможно как одновременное копирование на две библиотеки в основном и резервном центре в режиме online, так и клонирование носителей в режиме offline по расписанию. Таким образом, репликация данных посредством VTL функционально не отличается от подобных решений с применением традиционных библиотек, однако позволяет делать это более эффективно.

В самом деле, если рассмотреть репликацию в режиме offline, то при организации подобного решения одна операция записи превращается в три. Информация записывается на ленту, затем программное обеспечение резервного копирования запускает процесс клонирования, в ходе которого записанная на основной площадке лента считывается и копируется на резервную площадку. Таким образом, ресурсные затраты увеличиваются как минимум в три раза, не считая дополнительной нагрузки на серверы резервного копирования в обоих вычислительных центрах.

Однако технологии клонирования средствами виртуальных библиотек также имеют свои недостатки, которые необходимо учитывать при выборе BCP/DR- решения.

Как правило, при клонировании данных средствами VTL дублирующая виртуальная библиотека недоступна для одновременного использования с основной. Таким образом, использование резервной библиотеки возможно только в случае выхода основной из строя, что значительно снижает привлекательность подобного решения. В случае организации клонирования данных средствами СРК ресурсы ленточных библиотек на основной и резервной площадке доступны одновременно, что позволяет эффективно организовывать резервное копирование на удаленной площадке и балансировать нагрузку.

Кроме того, затраты на организацию клонирования данных средствами VTL зачастую не ограничиваются приобретением еще одной виртуальной библиотеки. В ряде случаев требуется удвоение дискового пространства на основной площадке. Это обуславливается необходимостью создания локальной копии данных, которая затем синхронизируется с VTL на удаленной площадке.

При клонировании данных средствами VTL, как правило, производится клонирование всей библиотеки, что часто бывает неэффективно. Ценность информации различна, и далеко не всю ее необходимо дублировать в резервном центре. При организации клонирования данных средствами традиционной СРК администратор системы имеет возможность выбрать, какая информация будет продублирована на резервной площадке.

В случае клонирования данных через VTL такой возможности обычно нет.

Virtual Tape Library: мифы и реальность

Как и любая новая технология, идея резервного копирования на диски и концепция VTL в частности заполучили как ярых сторонников, утверждающих, что лента доживает последние дни и скоро будет вытеснена современными носителями, так и непреклонных противников, также вооруженных вескими доводами и аргументами в свою пользу. В результате вокруг темы виртуализации ленточных библиотек сформировался огромный ком маркетинговых мифов, с которыми мы и попробуем разобраться в этой главе.



Рис. 5. Схема обеспечения катастрофоустойчивости решения с использованием VTL.

Наиболее распространенные аргументы, упоминаемые сторонниками нового подхода, сводятся к тому, что применение VTL позволяет:

1. существенно (до 10 раз!) сократить время резервного копирования, помогая уложиться во все сокращающееся «окно резервного копирования»;

2. минимизировать время восстановления данных из резервной копии;

3. обеспечить значительно более высокий уровень надежности для сохранности данных;

4. благодаря дедупликации и применению недорогих SATA-дисков большой емкости сделать хранение на дисках не дороже и даже дешевле, чем на магнитных лентах.

Рассмотрим эти аргументы подробнее.

Аргумент первый: VTL значительно увеличивает скорость резервного копирования и позволяет сократить «окно РК».

Современные ленточные библиотеки обладают достаточно высокой пропускной способностью. Так приводы формата LTO-4 обеспечивают скорость записи/чтения до 120 Mb/s, что с учетом сжатия позволяет архивировать до 864 Gb данных в час. Пропускная способность библиотеки легко увеличивается за счет установки необходимого количества приводов и при необходимости легко опережает VTL-систему Enterprise уровня. Ожидается, что с появлением ленточных приводов нового поколения формата LTO-5, выход которых намечен на конец 2008 – начало 2009 года, отрыв ленточных библиотек по производительности еще более увеличится. Новый стандарт LTO-5 будет обеспечивать скорость записи до 180 Mb/s (до 360 Mb/s с учетом компрессии) и позволит хранить на ленте до 1.6 Tb данных (до 3.2 Tb при использовании сжатия).

Следует отметить, что проблема производительности в современных СРК является комплексной и, как правило, не может быть решена простым увеличением скорости записи данных на оконечное устройство хранения. Чаще всего проблемным местом является вовсе не ленточная библиотека, а перегруженные серверы резервного копирования, недостаточная пропускная способность сетевой или SAN-инфраструктуры, «медленные» клиенты СРК и т.п. Вероятнее всего, проблему производительности операций резервного копирования внедрение более быстрых носителей не решит – необходимо обследование СРК и ликвидация всех узких мест существующей инфраструктуры.

Лишь в случае большого количества «медленных» клиентов применение disc-to-disc может оказать значительный положительный эффект благодаря возможности многопотоковой записи. Применяемые в традиционных библиотеках механизмы мультиплексирования позволяют решить проблему «медленных клиентов» лишь частично, в то время как VTL-системы успешно справляются с таким видом нагрузки.

Вывод: в некоторых случаях применение VTL действительно позволяет существенно сократить время резервного копирования, однако это сильно зависит от архитектуры системы, характера серверов и клиентов, а также от специфики резервируемых данных.

Аргумент второй: применение резервного копирования на диски позволяет минимизировать время восстановления данных из резервной копии.

Как уже упоминалось выше, современные ленточные библиотеки обеспечивают скорость записи/чтения, соизмеримую с характеристиками
высокопроизводительных дисковых массивов, с оптимизированной конфигурацией RAID. Тем не менее, в отличие от лент, поддерживающих исключительно последовательный доступ к данным, диски поддерживают произвольных доступ. Это позволяет осуществлять более быстрое восстановление небольших объемов сохраненных данных, например, нескольких ошибочно удаленных файлов. Поскольку не требуется время на поиск, загрузку и перемотку ленты, задержка перед началом считывания (восстановления) данных в случае с disc-to-disc системой измеряется миллисекундами против секунд и даже минут для лент.

Более того, так как система резервного копирования записывает данные на ленту в виде образа, при необходимости восстановления одного единственного файла СРК будет вынуждена прочитать весь образ, прежде чем найдет требуемый файл. Системы на базе жестких дисков лишены этого недостатка и позволяют восстанавливать любые объемы данных практически моментально.

Вывод: при восстановлении больших массивов данных недостатки последовательного доступа, характерные для лент, не оказывают заметного влияния на скорость восстановления. В случае же фрагментарного (гранулярного) восстановления, дисковые системы дают существенный выигрыш в скорости.

Аргумент третий: дисковые системы РК позволяют обеспечить значительно более высокий уровень надежности для сохранности данных.

К сожалению, нередко операции резервного копирования заканчиваются неудачно, что выражается в невозможности восстановления данных из резервной копии. Чаще всего это происходит из-за ошибок записи\чтения или по вине «человеческого фактора». При выгрузке лент из библиотеки существует риск их порчи или потери (тысячи лент, десятки людей, которые могут их потерять или перепутать). Более того, ленты имеют ограниченный срок службы и требуют регулярной замены.

В отличие от магнитных лент диски имеют большее время наработки между отказами (MTBF). Кроме того, огромное значение имеют аппаратные функции массивов, такие как резервирование компонентов, поддержка RAID разных уровней и т.д.

Оборотной стороной медали является отсутствие возможности изъятия дисков из массива для перемещения их в удаленное хранилище с целью защиты от ЧП. Обеспечение катастрофо­устойчивости в данном случае требует либо миграции данных с дисков на ленты (disc-to-disc-to-tape, D2D2T), либо наличия резервного массива и дорогостоящих механизмов удаленной репликации.

Вывод: в большинстве случаев можно говорить о более высокой надежности хранения резервных копий данных на дисках по сравнению с
магнитоленточными носителями. Однако цена этой надежности весьма высока – применение отказоустойчивых конфигураций RAID требует большей избыточности и большего количества дисков, а репликация данных в удаленное хранилище обойдется существенно дороже перемещения туда лент.

Аргумент четвертый: дедупликация делает хранение данных резервных копий на дисках дешевле, чем на магнитных лентах.

Как мы уже убедились, дедупликация данных радикально снижает требования к дисковой емкости массивов, используемых для хранения резервных копий данных. Следовательно, снижается и стоимость хранения. В разобранном выше примере (Рис. 4) при степени дедупликации 10:1 со­вокупные стоимости хранения на дисках и лентах практически сравниваются, а, например, при достижении степени дедупликации 15:1 VTL-решение выходит в безоговорочные лидеры по этому показателю. Поэтому именно степень дедупликации данных чаще всего становится объектом для «манипуляций» со стороны маркетологов компаний-производителей. Некоторые производители, заявляя о реализации в своих решениях степени дедупликации 100:1 и даже более, зачастую говорят об «идеализированных» ситуациях, которые далеко не всегда возможны в реальных условиях.

От чего же зависит степень дедупликации (de-duplication ratio)? По мнению специалистов компании Diligent, одного из ведущих разработчиков и производителей подобных решений, наибольшее воздействие на степень дедупликации оказывают три фактора.

Первый – срок хранения данных. Этот параметр определяет, как долго хранятся резервные копии данных на дисковых носителях до удаления (перезаписи) или копирования на магнитные ленты. Как правило, продолжительность периода хранения составляет от 30 до 90 дней, но в ряде случаев может существенно отличаться как в большую, так и в меньшую сторону. С увеличением срока хранения данных степень дедупликации увеличивается. Второй фактор – степень изменения данных. Этот показатель говорит о том, какая часть данных, получаемых от приложения резервного копирования, изменяется от сессии к сессии. По статистике, степень изменения может варьироваться в широких пределах от 1% до 25%. Меньшее ее значение позволяет достичь большей степени дедупликации, т.к. изменяются и, соответственно, сохраняются в хранилище лишь немногие фрагменты данных. Третий фактор, оказывающий наибольшее воздействие на степень дедупликации, – применяемые в ИТ-инфраструктуре политики резервного копирования. Так, например, частое создание полных резервных копий данных делает возможной высокую степень дедупликации, в то время как частое инкрементальное или дифференциальное резервное копирование делает деду­пликацию менее эффективной (по сути, в основе этих методов резервного копирования лежат те же идеи, что и в концепции дедупликации).



Рис. 6. Степень дедупликации для различных типов данных. Данные получены из опыта реализованных решений.

На основании практического опыта внедрения VTL-решений, в том числе и силами компании «Инфосистемы Джет», можно смело говорить о среднем достижимом уровне дедупликации 10:1, а именно:

- файлы (наиболее типичных бизнес-приложений, файлов ОС) – 8-10:1;

- базы данных (Oracle, Microsoft SQL) – 10-15:1 (см. рис.6).

Безусловно, указанные выше цифры являются средними значениями, и реальный уровень дедупликации может отличаться как в большую, так и в меньшую сторону.

Вывод: дедупликация данных существенно сокращает стоимость хранения резервных копий данных вплоть до уровня, соизмеримого с ленточными библиотеками и даже ниже. Однако достижимая степень дедупликации зависит от множества факторов и должна оцениваться в каждом конкретном случае в соответствии с предлагаемыми производителями методиками.

Рассмотрев вышеизложенные аргументы, приходим к выводу, что именно дедупликация данных является ключевым достоинством виртуальных ленточных библиотек и позволяет им успешно конкурировать с традиционными системами резервного копирования на базе магнитных лент. Учитывая столь высокую значимость этой технологии, следующую главу мы посвятим описанию механизмов дедупликации, применяемых в современных VTL-решениях.

технологии дедупликации

Существует несколько механизмов дедупликации, общий смысл работы которых сводится к следующему: при передаче данных в хранилище резервных копий осуществляется их сверка с сохраненными ранее. При обнаружении идентичных данных (объектов), сохраненный ранее объект заменяется ссылкой (указателем) на более новый файл, что и позволяет существенно сократить объем хранимых в резервном хранилище данных.

Сравнение может происходить как на уровне объектов данных (Object-level), так и на уровне потока данных (Stream-based). Каждый из этих подходов имеет свои преимущества и недостатки.

В первом (применяется, например, в решениях компании HP) сравнение файлов происходит на уровне объектов данных – файлов. При обнаружении одноименных файлов они сравниваются побайтово, идентичные файлы заменяются указателями, а для измененных файлов сохраняются только измененные блоки данных. Чаще всего при таком механизме дедупликации применяется метод Forward differencing Restore, позволяющий всегда иметь последнюю резервную копию в недедуплицированном виде (дублирующиеся данные удаляются из более ранних копий) для максимально быстрого восстановления в случае необходимости.



Рис 7. Процедура Object-level дедупликации.

Схематично процедура дедупликации на уровне объектов данных (Object-level) изображена на рис. 7.

Данный подход существенно снижает нагрузку на сервер VTL и, как следствие, обеспечивает большую пропускную способность. Однако Object-level метод снижает эффективность дедупликации, т.к. файл, содержимое которого идентично существующему, но сохраненный под другим именем, не будет дедуплицирован.

В случае Stream-based дедупликации VTL производит анализ поступающего потока данных, разбивая его на небольшие (обычно 2-4 KB) фрагменты (chunk). Хэш фрагментов данных сравнивается с индексом уже хранящихся в системе данных, и при обнаружении идентичных фрагментов данных они заменяются ссылкой на сохраненные ранее. Подобный подход позволяет значительно увеличить эффективность дедупликации – нет необходимости в одинаковых именованиях файлов, более того, возможна дедупликация разных файлов, содержащих одинаковые фрагменты данных. С другой стороны, такого рода дедупликация требует больших вычислительных ресурсов для обеспечения высокого уровня производительности. Схематично процедура дедупликации на уровне потока данных (Stream-based) изображена на рис. 8.



Рис 8. Процедура Stream-based дедупликации.

Помимо различий в методе сравнения файлов, VTL-решения разных производителей различаются также по моменту проведения дедупликации. Различают «онлайновую» и «оффлайновую» дедупликацию.

При «оффлайновом» методе (его также называют методом «с последующей обработкой») резервируемые данные первоначально записываются на диски массива в полном объеме, и только после завершения процесса копирования начинается процедура сравнения «свежей» резервной копии с предыдущей с целью дедупликации.

В этом случае дедупликация не оказывает воздействия на производительность резервного копирования, но требует в дополнение к «окну» резервного копирования еще и «окна» дедупликации. Кроме того, промежуточное хранение данных, необходимое при использовании этого метода, требует большого объема дискового пространства, а также вдвое увеличивает количество операций ввода\вывода, необходимых для дедупликации и записи данных. Применение «онлайнового» метода позволяет производить дедупликацию «на лету» непосредственно при копировании данных на виртуальную библиотеку. Это исключает появление «окна» дедупликации, в течение которого система будет сильно загружена или вовсе недоступна для операций резервного копирования других клиентов. С другой стороны, «онлайновый» метод при прочих равных условиях требует больших вычислительных ресурсов.

программная дедупликация

Чтобы у читателя не возникло ощущения, что дедупликация – прерогатива исключительно VTL-решений, в этой главе мы несколько отступим от основной темы статьи и расскажем о программных продуктах для дедупликации.

Действительно, хотя пик популярности сейчас переживает именно связка «VTL + дедупликация», первое может прекрасно обходиться без второго, как, собственно, и наоборот. Идея уменьшения объема резервируемых данных за счет исключения дублирования объектов успешно применяется в системах удаленной репликации и резервного копирования. Характерным примером такого рода продуктов можно назвать Symantec Pure Disc. Устанавливаемое на стороне клиента или на медиа-сервере, это программное обеспечение накапливает информацию (мета-данные) о переданных ранее файлах и исключает их дублирование и повторную передачу. В зависимости от специфики данных, частоты их изменения, частоты резервного копирования и других факторов, объем передаваемых на удаленную площадку данных, равно как и требуемая полоса пропускания, может быть сокращен в десять и более раз. Безусловно, дедупликация «на лету» требует значительных вычислительных ресурсов, однако в виду дороговизны каналов передачи данных такой «обмен» вполне оправдан.

Отдельного упоминания заслуживает тот факт, что, начиная с версии 6.5, Pure Disc эффективно интегрируется с программным обеспечением для резервного копирования Veritas NetBackup, которое в свою очередь позволяет осуществлять резервное копирование в режиме disc-to-disc на любой дисковый массив. Таким образом, связка «VERITAS NetBackup + Pure Disc + дисковый массив» может работать в качестве полноценного D2D-решения с поддержкой функций дедупликации. При этом все управление резервным копированием на Pure Disk устройство осуществляется через VERITAS NetBackup Enterprise Server с использованием стандартных политик и правил.

обзор рынка VTL-решений

Итак, концепция виртуализации ленточных библиотек резко повышает конкурентоспособность и привлекательность disc-to-disc решений для резервного копирования благодаря:

- сохранению всех преимуществ, предоставляемых архитектурой disc-to-disc (многопоточная запись, быстрое восстановление из резервных копий, высокая надежность);

- возможности быстрой и бесшовной интеграции в существующую инфраструктуру СРК, сохранению сделанных ранее инвестиций и снижению рисков, неизбежно возникающих в процессе миграции на новую платформу;

- существенному снижению стоимости хранения резервных копий вплоть до уровня, соизмеримого с ленточными библиотеками.

На сегодняшний день практически все ведущие производители систем хранения данных включили в свои продуктовые портфели VTL-решения или собираются это сделать в ближайшем будущем.

Наиболее распространенными являются решения от таких вендоров, как FalconStor (продается под марками Sun, IBM, EMC), Sepaton (продается под маркой Hewlett Packard), Diligent (продается под маркой ProtecTIER VT от Hitachi Data Systems), NetApp (продукт NearStore VTL). Каждая из представленных на рынке систем обладает уникальным набором отличительных черт, преимуществ и недостатков. Разберем их подробнее.

FalconStor (EMC Clariion Data Library и др.)

Виртуальные ленточные библиотеки компании FalconStor VTL (также продаваемые другими вендорами под именами EMC Clariion Data Library, IBM TotalStorage Virtualization Engine и Sun StorageTek Virtual Tape Library Plus) до недавнего времени представляли собой традиционные VTL-решения без функции дедупликации. Однако около года назад FalconStor выпустила продукт Single Instance Repository, добавляющий функцию дедупликации к FalconStor VTL.

Сегодня FalconStor – VTL-решение с «оффлайновым» методом дедупликации. Система сначала сохраняет всю информацию в полном объеме и лишь потом начинает процесс дедупликации. Применение такого алгоритма позволяет максимально быстро (со скоростью до 600 Mb/s) перенести данные во временное хранилище, оказав минимальное воздействие на производительность сервера – клиента системы резервного копирования. Недостатком этого подхода является значительное увеличение требований к доступной дисковой емкости даже при резервном копировании 100% идентичных данных. Кроме того, виртуальная библиотека остается сильно загруженной во время процесса дедупликации, что может оказать значительное влияние на операции резервного копирования других клиентов.

Sepaton DeltaStor (HP VLS)

Для заполнения ниши виртуальных ленточных библиотек компания HP использует продукт Sepaton DeltaStor и продает его под названием HP StorageWorks Virtual Library System.

Изначально VTL-решение от HP не обладало функциями дедупликации и представляло собой сервер с ПО DeltaStor и массив начального уровня MSA с дисками SATA и максимальной емкостью 70 Tb. Отсутствие механизмов дедупликации и скромные возможности масштабирования существенно ограничивали сферу применения этого продукта.

Летом 2008 года HP объявила о выходе сразу двух линеек VTL-решений с поддержкой дедупликации.

Первая из них – обновленная линейка Virtual Library System (HP VLS) – предназначена для применения в масштабных средах резервного копирования крупных компаний и позволяет хранить более 1 Pb данных без учета дедупликации.

Вторая – D2D Backup System – ориентирована на небольшие и средние компании и имеет ограниченные возможности масштабирования (максимальный объем хранимых данных без учета дедупликации составляет 9 Tb) и невысокий уровень производительности – до 80 Mb/s. Столь низкая производительность объясняется, по всей видимости, применением «онлайнового» механизма дедупликации, работающего на уровне потока данных (Stream-based). В свою очередь технология Accelerated Deduplication, применяемая в решениях HP enterprise-уровня, базируется на принципе пост-процесса («оффлайн» дедупликация), что позволяет обеспечивать высокий уровень производительности (до 600 Mb/s на узел, до 4800 Mb/s в максимальной конфигурации из 8 узлов), но имеет и свои недостатки, описанные выше.

Так как эти решения вошли в продуктовый портфель компании HP совсем недавно, мы не располагаем данными о реальном опыте их внедрения и эксплуатации.

Diligent ProtecTIER VT (Hitachi Data Systems ProtecTIER VT)

Платформа ProtecTIERTM от компании Diligent, используемая в VTL-решениях Hitachi Data Systems (HDS), представляет собой высокопроизводительное, масштабируемое в широких пределах (до 1 Pb физической емкости) решение для резервного копирования данных на диски. В виртуальной библиотеке от HDS применяется технология «онлайновой» дедупликации, работающая на уровне потока входных данных. В зависимости от специфики данных, периодичности и интенсивности их изменения, а также частоты резервного копирования эффективная (предоставляемая) емкость хранения может превышать физический объем дисковой системы в 20 и более раз.

По причине применения в VTL от HDS «онлайнового» метода дедупликации это решение обладает чуть меньшим, нежели у конкурентов, уровнем производительности (400-440 Mb/s против 600 Mb/s).

Однако отсутствие «окна дедупликации» делает возможным дальнейшее использование виртуальной библиотеки другими серверами резервного копирования (или их клиентами) сразу же после окончания процедуры копирования данных.

Для большей наглядности приведем пример: при резервном копировании 10 Tb данных FalconStor сохранит их на диск со скоростью до 600 Mb/s примерно за 4.6 часа. По завершении этого процесса приложение резервного копирования будет считать операцию успешно завершенной. Далее начнется процесс дедупликации, работающий с предельной скоростью в 120 Mb/s и занимающий около 23 часов, в течение которых система будет сильно нагружена. В результате эффективная производительность с учетом дедупликации составит порядка 100 Mb/s. В свою очередь, система ProtecTIER VT, выполняя дедупликацию «на лету» со скоростью 400 Mb/s, полностью завершит процесс резервного копирования примерно за 7 часов.

NetApp (NearStore VTL)

Для выхода на рынок виртуальных ленточных библиотек компания NetApp приобрела в 2005 году компанию Alacritus. Программное обеспечение Alacritus было интегрировано в платформу NearStore и получило название NearStore VTL. NearStore VTL является высокопроизводительной виртуальной ленточной библиотекой без возможности дедупликации, выполненной в виде пакетированного решения из сервера и дисковых полок с дисками SATA емкостью 1 Tb. Отсутствие дедупликации частично компенсируется возможностью аппаратной компрессии данных 3:1.

Архитектура NearStore VTL значительно отличается от решений, предлагаемых другими производителями. В отличие от них платформа NearStore не имеет выделенного сервера (серверов), осуществляющего эмуляцию ленточных библиотек, обработку и перемещение данных. Все функции VTL выполняются на уровне операционной системы массива (NetApp VTL OS), что позволяет обеспечивать самый высокий среди рассматриваемых решений уровень производительности – до 2500 Mb/s (при 32 портах FC в массиве). Кроме того, реализация функций VTL на уровне массива позволяет гибко балансировать нагрузку в автоматическом режиме, а также исключает появление узких мест, которым в других VTL-решениях обычно является сервер переноса данных.

Вторым важным преимуществом VTL-решения от NetApp является исключительно тесная интеграция с унаследованной средой РК на базе магнитных лент. NearStore VTL способен самостоятельно, без участия сервера РК, создавать копии резервируемых данных на физических лентах или перемещать данные с дисковых массивов на ленты по истечении заданного периода времени и т.д. При этом, благодаря хранению данных в «native» формате, а также сквозной идентификации виртуальных и физических лент, возможно быстрое переключение с лент виртуальных на физические в случае катастрофы или серьезного сбоя в работе виртуальной ленточной библиотеки.

выводы

Несмотря на многочисленные споры и громкие заявления сторонников концепции disc-to-disc, говорить о повсеместной замене лент дисками пока рано. Более того, именно в совместном использовании виртуальных и традиционных ленточных библиотек кроется максимальная эффективность решения. Магнитные ленты по-прежнему незаменимы для обеспечения надежного долгосрочного хранения корпоративных данных в соответствии с требованиями регулирующих органов или спецификой бизнес-процессов. Возможность изъятия лент из библиотеки для перемещения в удаленное хранилище зачастую является оптимальным способом обеспечения надежного катастрофоустойчивого хранения резервных копий данных. Кроме того, ленты по-прежнему дешевле. И хотя применение технологий дедупликации сводит на нет разницу в цене, этот факт еще рано сбрасывать со счетов.

По мнению авторов статьи, применение VTL-решений может быть оправдано как в крупных гетерогенных средах резервного копирования, так и в СРК небольших центров обработки данных.

В первом случае внедрение VTL (как в комбинации с традиционными библиотеками, так и без них) эффективно при наличии «медленных клиентов», не способных обеспечить нормальную загрузку современных высокоскоростных приводов. Также имеет смысл резервировать на диски данные, часто нуждающиеся в быстром восстановлении небольших фрагментов.

В небольших системах резервного копирования VTL может полностью заменить традиционные ленточные библиотеки и избавить от целого ряда проблем с их внедрением и эксплуатацией. Особенно интересны в этом случае решения, позволяющие разделять ресурсы используемого для хранения резервных копий дискового массива с другими серверами и приложениями. Такой подход позволяет максимально повысить эффективность использования оборудования, а кроме того, добиться существенной экономии на администрировании и поддержке системы резервного копирования и восстановления данных.

Подводя итог вышесказанному можно употребить избитую, но как нельзя более подходящую фразу: «ВМЕСТЕ, а не ВМЕСТО!»



Сергей Артемов, Михаил Гришунин, Jet Infosystems
обсудить статью
© сетевые решения
.
.