در این مقاله الگوریتمی برای طبقه بندی داده ها مطابق با مشخصات و شرایط مورد نیاز Fileها، برای ذخیره سازی پیشنهاد شده است. این الگوریتم شامل قوانین کاربردی برای قرار دادن Fileها در tiered storage، و انتقال داده ها است. همچنین مدل Tiered Data Storage به صورت ماتریسی رسمی طراحی می شود، که اندازه آن برابر با تعداد طبقات عمودی و افقی ذخیره سازی داده ها است. همچنین در این مقاله پیشنهاد میشود که از ابزار neural network Kohonen برای قرار دادن File ها در tiered storage استفاده شود.
این مقاله مشکل سازماندهی tiered data storage را توصیف می کند، که شما میتوانید از فناوریهای مختلف ذخیره سازی اطلاعات خود استفاده کنید.
معماری data storage
تجزیه و تحلیل راه حل های مهندسی ذخیره سازی اجازه میدهد تا سه طبقه از معماری data storage را تشخیص دهیم:
- RAID.
- automated libraries.
- ذخیره سازی طولانی مدت media.
هر ردیف ذخیره سازی شامل فناوریهای ذخیره سازی خاص خود است.
علی رغم این واقعیت که سیستم های مدرن data storage (DSS) چند لایه هستند، تصمیم در مورد انتخاب ردیف ذخیره سازی بسیار مهم و بر اساس یک معیار واحد (زمان سپری شده از آخرین دسترسی به اطلاعات) است.
هدف از این تحقیق ایجاد یک tiered data storage و الگوریتم های توزیع داده برای سیستم های ذخیره سازی است که تا حدی مشکلات data storage را حل می کند.
توزیع داده ها
توزیع داده ها با استفاده از تجزیه و تحلیل metadata انجام شده است.
روند توزیع شامل اصول زیر است:
- انتخاب ردیف ذخیره سازی بسته به زمان data storage.
- انتخاب حجم محلی ذخیره سازی بسته به اندازه file و طول logical data block.
- انتقال داده در طبقات بستگی به تعداد دفعات دسترسی file های داده دارد.
قبل از نوشتن در یک لایه ذخیره سازی خاص، تجزیه و تحلیل داده ها برای انتخاب فایل سیستم (FS) و برای سطح RAID یا نوع بایگانی media ضروری است، که باعث صرفه جویی در فضای ذخیره سازی می شود. بنابراین، ذخیره سازی داده دارای ساختار ماتریسی حاوی داده هایی با ویژگی های خاص در هر سلول است. (شکل 1)
RAID | FS1 | FS2 | … | FSn |
Automated libraries | Data Media 1 | Data Media 2 | … | Data Media n |
Long term storage media | Data Media 1 | Data Media 2 | … | Data Media n |
شکل 1. ساختار ماتریسی ذخیره سازی داده ها
انتخاب ردیف ذخیره سازی بر اساس تجزیه و تحلیل متادیتای سازمانی حاوی اطلاعات نوع داده است:
- ind (داده های اولیه) – داده های خام که در ردیف RAID قرار می گیرند.
- bck (پشتیبان گیری) – پشتیبان گیری، داده های بایگانی شده که در سطح Library های automated ذخیره می شوند.
- ngd (داده های نسل بعدی) – داده های فضای ذخیره سازی نامحدود که در سطح ذخیره سازی طولانی مدت ذخیره می شوند.
انتخاب لایه منطقی ذخیره سازی سیستم ذخیره سازی بر اساس انتخاب سیستم فایل برای ردیف RAID و نوع media ذخیره سازی در سطوح ذخیره سازی پایین تر است:
If f∈(fi ; fi+1], then → ai+1 ⇔ F →Voli+1 (1)
f – اندازه file ذخیره شده
fi ، fi + 1 – محدودیت اندازه file F، که سیستم فایل می تواند با آن کار کند.
ai + 1 – اندازه logical data block که سیستم فایل با آن کار می کند.
Voli + 1 – تعداد حجم RAID است که توسط سیستم فایل مربوطه مدیریت می شود.
در طبقات پایین ذخیره سازی، پیشنهاد می شود ظرفیت را با توجه به انواع رسانه های ذخیره سازی تقسیم کنید:TapeDrive، DVD، BD برای Library های خودکار سطح و دیسک M، دیسک شیشه و DNA – برای سطح رسانه های ذخیره سازی طولانی مدت:
اگر f ∈ (fi ، fi + 1] ، سپس F → ali + 1 (lti + 1) (2)
ali + 1 یا lti + 1 – نوع media در سطح Library های خودکار automated.
انتقال داده از طریق سطوح ذخیره سازی به فرکانس دسترسی file های داده بستگی دارد:
اگر λF ∈ (λi، λi + 1] ، سپس F → l] (3)
λF – فرکانس درخواست file F؛ λi، λi + 1 – محدودیت فرکانس درخواست file؛
l – تعداد لایه ذخیره سازی که فایل F به آن منتقل شده است.
مجموعه اصول فوق امکان مدیریت ظرفیت ذخیره سازی و استفاده منطقی از media ها را فراهم می کند. توجه داشته باشید که همه این اصول بر اساس تجزیه و تحلیل فراداده file ها است.
مدیریت ظرفیت ذخیره سازی پیشنهادی
مدیریت ظرفیت ذخیره سازی پیشنهادی به طور کلی ماتریس ذخیره سازی اندازه m x n است، جایی که m تعداد طبقات ذخیره سازی (M) است و n تعداد رسانه فیزیکی یا منطقی (N) است. عناصر ماتریس مجموعه ای از file های داده با مقادیر مشخصه خاص هستند: نوع فایل (Type)، اندازه فایل (f). (شکل 2)
در طول توزیع اولیه داده ها، فرکانس دسترسی داده ها (λ) به دلیل عدم وجود آمار جمع شده از دسترسی به داده ها در این لحظه در نظر گرفته نمی شود.
type1, f1 | … | type1, fn |
type2, f1 | … | type2, fn |
type3, f1 | … | type3, fn |
M1
M2
شکل 2. ماتریس ذخیره سازی
بر اساس تجزیه و تحلیل فن آوری های ذخیره سازی، سه طبقه ذخیره سازی شناسایی شد. بر این اساس، ماتریس همیشه شامل سه ردیف خواهد بود. تعداد ستونها بر اساس اجرای فیزیکی هر ردیف ذخیره اطلاعات انتخاب می شود.
اجرای مداوم اصول ارائه شده در بالا به هزینه های بالایی نیاز دارد. در این راستا، برای توزیع file ها در میان سلول های ماتریس (شکل 1)، پیشنهاد می شود با استفاده از neural network Kohonen، فراداده جریان file ورودی را تجزیه و تحلیل کنید. این neural network قادر است این مشکل را با استفاده مداوم از اصول در یک مرحله حل کند.
نتیجه استفاده از neural network یک نقشه توپولوژیک است که در آن داده های ورودی به گروه ها (clusterها) طبقه بندی می شوند. بنابراین، هر سلول باید با یک سلول از ماتریس ذخیره سازی مطابقت داشته باشد.
KOHONEN NETWORK به عنوان یک ابزار clustering
neural network KOHONEN برخلاف بسیاری از انواع دیگر neural network، هستند.
هدف اصلی شبکه KOHONEN حل مسئله تجزیه خوشه ای (clustering) است.
شبکه KOHONEN شامل دو لایه ورودی و خروجی است. هرلایه ورودی به هر لایه خروجی متصل است و تمام اتصالات دارای وزن مشخصی هستند. لایه خروجی را لایه توپولوژیک می نامند. (شکل 3)
شکل 3. معماری شبکه Kohonen
شبکه های KOHONEN دارای مجموعه ای از عناصر ورودی هستند.
ماهیت شبکه Kohonen به شرح زیر است. هنگام ورود مقداری بردار X به ورودی، شبکه باید تعیین کند که این بردار به کدام یک از cluster ها نزدیک است.
dij فاصله مربع بین نقطه X و Y cluster است. مختصات نقطه X xi1 ، xi2 ، … ، xin و مختصات مرکزcluster Y yj1 ، yj2 ، … ، yjn است.
مرکز cluster به عنوان نقطه ای تعریف می شود که مختصات آن در فضای n بعدی هم وزن کلیه اتصالات است.
الگوریتم یادگیری شبکه KOHONEN بصورت تکراری است و تکمیل این شبکه ها براساس مفهوم همسایگی است.
این محله با شعاع R مشخص می شود. این یک گروه از سلولهای neural network است که نورون برنده را احاطه کرده است (شکل 4).
شکل 4. cluster neighborhood
بعد از اینکه شبکه مشکل clustering را برطرف کرد، ما از آن به عنوان یک ابزار در شبکه Kohonen استفاده می کنیم.
دستگاهneural network Kohonen می تواند اصلی برای حل مشکل توزیع file ها با ویژگی های مختلف و زمان ذخیره سازی باشد. نمونه ای از نقشه Kohonen به صورت سه بعدی در شکل 5 نشان داده شده است.
شکل 5. نمونه ای از تجسم مقادیر محدوده فرکانس برای دسترسی به file ها
نتیجه
این مقاله یک مدل ذخیره سازی داده ای طبقه بندی شده را پیشنهاد می کند. توزیع file ها در سیستم ذخیره سازی داده ها مطابق با استفاده مداوم از اصول برای قرار دادن عمودی، افقی و انتقال داده ها انجام می شود.
توزیع عمودی و افقی اولیه file ها در سیستم ذخیره اطلاعات طبقه بندی شده به صورت ماتریسی ترسیم می شود. چنین ارائه ای امکان استفاده از دستگاه neural network Kohonen را فراهم می کند که هدف اصلی آن حل مسئله clustering است.