چکیده – ما یک سری نتایج اولیه را در مورد solution های tape-storage گزارش می دهیم که مربوط به امکانات آزمایشی در مقیاس بزرگ (Extreme Light Infrastructure) مانند فیزیک هسته ای(Nuclear Physics) یعنی (ELI-NP) است. تحقیقات ما بر روی کارایی سناریوهای دسترسی به tape data، به ویژه مقایسه بین Linear Tape File System(LTFS) و ابزارهای native Linux ، و تأثیر ویژگی هایData Storage متمرکز شده است.
مقدمه
تلاشهای علمی مدرن معمولاً به ترکیبی از تحقیقات تجربی، نظری و محاسباتی متکی هستند، تعامل بین این رویکردها جهتهای تحقیقاتی متفاوتی را ایجاد می کند. ذخیره، پردازش و مدیریت داده های تجربی یکی از این نمونه هاست که هم به فیزیک تجربی و هم به محاسبات مربوط است. با توجه به مقدار زیادی از داده های تجربی تولید شده در تاسیساتی که از قبل در حال بهره برداری هستند (مانند [1, 2]CERN)، همچنین جریان داده های مورد انتظار در تاسیساتی که در حال حاضر در دست ساخت هستند (مانند سه ستون Extreme Light Infrastructure European facility). همچنین ما در اینجا به انتقال داده های تجربی اشاره می کنیم (به عنوان مثال به مرکز CERN Tier 0 در بوداپست مراجعه کنید که از خطوط اختصاصی و اضافی 100 گیگابایت بر ثانیه در Geneva بهره می برد)، به ذخیره طولانی مدت داده ها، دسترسی از راه دور به مجموعه داده های بزرگ برای کاربران در سراسر جهان، و غیره. همه این موضوعات چالش های مهندسی بسیار غیرمتعارفی را ایجاد می کنند، که از خطوط انتقال پهنای باند ویژه و پروتکل های ارتباطی پرسرعت برای دستیابی به داده ها در سمت سخت افزار، به اتصالات از راه دور ایمن از طریق گواهینامه دیجیتال در سمت نرم افزار منتقل می شوند.
در این نسخه خطی برخی از نتایج اولیه را در مورد long-term tape-storage solutions که مورد توجه تأسیسات آزمایشگاهی Extreme Light Infrastructure – Nuclear Physics (ELI-NP) است، گزارش می دهیم، که در حال حاضر در Magurele در محل Horia Hulubei در دست ساخت است موسسه ملی فیزیک و مهندسی هسته ای (IFIN-HH). ELI-NP یکی از سه رکن Extreme Light Infrastructure است، یک زیرساخت تحقیقاتی جدید از منافع اروپایی که بخشی از نقشه راه ESFRI است، دو رکن دیگر نیز به منابع اختصاص داده می شوند (ELI Beamlines) و پالس های آتوسکند (ELI Attosecond).
اسناد اصلی مرجع پروژه آماده سازی Extreme Light Infrastructure (ELI)، از طریق مجموعه ای از طراحی فنی دقیق، در مرحله پیاده سازی برای ELI-NP اصلاح شده است گزارش ها (TDR) که بر آزمایش های آینده متمرکز است که در مرحله عملیاتی اولیه ستون های ELI انجام می شود. TDR های ELI-NP در اوایل سال 2016 به عنوان ویژه نامه گزارشات رومانی در فیزیک منتشر شد که به طور جامع چالش هایی را که تیم های آزمایشی با آن روبرو هستند توصیف کرد. از جمله این چالش ها، چالش های مرتبط با داده ها و نیازهای محاسباتی آزمایش های آینده در ELI-NP است.
داده های اولیه و تجزیه و تحلیل محاسبات انجام شده در ELI-NP از یک راه حل فنی پشتیبانی می کند که در آن ذخیره سازی داده های تجربی و محاسبات به صورت native با اصطلاح ELI-NP Local Facility (ELF) ارائه می شود. ذخیره سازی native پیش بینی شده، داده های خام حاصل از آزمایشات و بخشی از داده های پردازش شده را پوشش می دهد. علاوه بر این، تسهیلات native ELI-NP ذخیره سازی طولانی مدت داده های آزمایشی تولید شده در آزمایش های مربوط به گاما را فراهم می کند، بنابراین به عنوان یک مخزن اصلی داده ها، مستقل از نسخه های تضمینی توسط اشخاص ثالث، عمل می کند. این مولفه ELF به عنوان یک ردیف محلی 0 در کنار داده های تجربی مربوط به gamma عمل می کند، به دنبال تمرین همه امکانات آزمایشی در مقیاس بزرگ (به عنوان مثال، CERN ، FAIR ، GSI) که به صورت محلی مخزن اصلی داده ها را میزبانی می کنند. در مورد خوشه های محاسباتی، مرکز محلی ELI-NP پردازش فوری داده های آزمایشی خام، اصطلاحاً پردازش آنلاین را انجام می دهد، که برای عملکرد تأسیسات بسیار حیاتی است و محاسبات خارج از خط برای پردازش gamma داده های تجربی مرتبط را نیز مورد بررسی قرار می دهد.
ساختار بقیه مقاله به شرح زیر است: در بخش 2 ما مختصراً به داده ها و نیازهای محاسباتی ELI-NP می پردازیم و مزایای ذخیره سازی طولانی مدت نوار را ارائه می دهیم، در حالی که در بخش 3 نتایج تحقیقات خود را ارائه می دهیم. این نتایج بر روی سناریوهای دسترسی به داده های نواری و تأثیر خصوصیات داده ها متمرکز شده اند. سرانجام، در بخش 4 ما سخنان نتیجه گیری خود را جمع آوری می کنیم و چند جهت برای تحقیقات آینده را بیان می کنیم.
DATA ها و COMPUTING در ELI-NP
DATA ها و چالش های COMPUTING مطرح شده توسط ELI-NP هم کارایی بالا (HPC) و هم محاسبه توان بالا (HTC) و همچنین ذخیره سازی داده های تجربی را پوشش می دهند.
آزمایش های ELI-NP نیاز به ده ها ترابایت (TB) داده را دارند که در سطح کل مرکز ELI-NP، طی یک دوره دو ساله به چند پتابایت (PB) اضافه می شوند. تکثیر داده ها در چنین مقیاسی به ویژه هنگامی که تمرکز بر دسترسی بالا باشدغیر قابل پیش بینی است. برای ذخیره سازی اولیه داده های تجربی، solution پیش بینی شده شامل دیسک های مکانیکی و حالت جامد است، در حالی که برای long-term storage ، یک solution مبتنی بر tape در نظر گرفته شده است. مزایای مورد دوم ناشی از کاهش مصرف برق، حداقل نیاز خنک کننده تجهیزات tape storage ، زمانهای بازیابی اطلاعات کمتری (که قابل مقایسه با solution های مشابه مبتنی بر دیسک های مکانیکی است) و هزینه ذخیره سازی مقرون به صرفه ( چون قیمت هر ترابایت کارتریج نواری به طور قابل توجهی ارزان تر از نمونه دیسک مکانیکی آن است)را دارد. پیش بینی شده است که در ELI-NP کلیه داده های مربوط به gamma (خام و پردازش شده) پس از اتمام تحلیل اصلی علمی به سیستم Tape انتقال داده می شوند و برای تجزیه و تحلیل بیشتر برای کاربران از راه دور قابل دسترسی خواهد بود.
به همین ترتیب، در کنار پردازش داده ها و شبیه سازی های عددی، تخمین فعلی حدود 20000 هسته پردازنده است. ارزیابی های اولیه ما نشان می دهد که HPC چالش های بیشتری نسبت به HTC به وجود می آورد، بیشترین تقاضای شبیه سازی مربوط به تعاملات لیزر-پلاسما از طریق ذرات درون سلول کدهای (PIC) است.
ما برخی از مقالات تحقیقاتی اخیر منتشر شده از ELI-NP را که جنبه های مختلف محاسبات در ELI-NP را مورد بحث قرار می دهد، را ارائه دادیم.
در نتیجه، انتقال داده ها بین سه ستون ELI را در مورد زیرساخت شبکه مورد نیاز ارائه می دهیم. در این زمینه، دو مرکز ردیف 0 CERN در بوداپست و ژنو (که از اتصال اختصاصی و زائد 100 گیگابایت بر ثانیه بهره مند می شوند) نشان می دهد که اتصال در عملکرد کارآمد آزمایش ها بسیار مهم است. از جمله چالش های مهندسی، ما در اینجا به خطوط انتقال پهنای باند در سمت سخت افزار و اتصالات ایمن از راه دور در سمت نرم افزار اشاره می کنیم.
LTFS CASE STUDY
نتایج گزارش شده در این بخش با استفاده از HP StoreEver MSL 2024، یک سرور کنترل HPL ProLiant DL360 Gen9 با 16 هسته در دو physical XEON E5-2640 CPUs در2.66 GHz، 64 گیگابایت یا حافظه RAM، دو دیسک مکانیکی 1.2 ترابایتی با چرخش 10 K با پیکربندی RAID 0 و سیستم عامل Scientific Linux 7 و فن آوری های اطلاعات IFIN-HH در Data Center گروه فیزیک محاسبات بدست آمده است.
همچنین سیستم Tape مجهز به کارتریج LTO 6 Ultrium 6.25 ترابایت بود.
الف – مقایسه سناریوهای دسترسی به data های Tape
هدف اصلی از تحقیقات اولیه ما ارزیابی کارایی دستورات اصلی native Linux classical برای tape back-up ( مخفف tape archive ) و mt (مخفف عملکرد magnetic tape drive) است که بایگانی را ایجاد می کند و خواندن / نوشتن ربات را کنترل می کند.
به همین منظور، ما یک سری Writing time روی tape cartridge با استفاده از file هایی با اندازه های مختلف، یعنی 10 کیلوبایت، 100 کیلوبایت، 1 مگابایت، 10 مگابایت، 100 مگابایت، 1 گیگابایت و 10 گیگابایت، به صورت دسته ای از 1، 10، 100 و 1000 فایل انجام داده ایم.
نتایج به ما نشان می دهد که native Linux توسط نرم افزار Linear Tape File System (LTFS) که برای آزمایش آن از فایل هایی با اندازه های معادل 10 کیلوبایت، 100 کیلوبایت، 1 مگابایت و 10 مگابایت استفاده کرده ایم، عملکرد بهینه و سریع تری ارائه می دهد. LTFS دو پارتیشن ایجاد می کند، یکی برای داده های ذخیره شده واقعی و دیگری برای metadata، و امکان نصب پارتیشن های Tape را دقیقاً مانند یک هارد دیسک معمولی فراهم می کند. با این حال، این عمل ماهیت ذاتی tape cartridge ها را تغییر نمی دهد، به این معنی که فایل ها همیشه در انتهای نوار نوشته می شوند و هر زمان که فایلی اصلاح، بازنویسی یا حذف می شود، بلوک های مربوط به tape cartridge مشخص می شوند.
شکل 1 – Writing time ها برای دسته های 1، 10، 100 و 1000 فایل با اندازه های مختلف بین 10 کیلوبایت و 10 گیگابایت. لطفا توجه داشته باشید که برای پرونده های زیر 100 مگابایت Writing time تقریباً مستقل از size فایل ها است.
در شکلهای 1 و 2 به ترتیب با استفاده از دستورات native Linux و LTFS ، Writing time برای دسته های 1 ، 10 ، 100 و 1000 فایل ها را به تصویر می کشیم. پیام اصلی منتقل شده توسط این ارقام این است که دستورات native Linux شامل شروع Writing time است که روند را کند کرده و انتقال داده را در مقایسه با دیسک های مکانیکی استاندارد بسیار ناکارآمد می کند. LTFS، این شروع Writing time را نشان نمی دهد و یک مقیاس خطی واضح بین اندازه فایل و Writing time (برای دسته های بزرگتر از dozen file ها) مشاهده می شود. این رفتار با رفتاری که برای انتقال داده ها بین دیسک های مکانیکی مشاهده شده مطابقت دارد و استدلال محکمی به نفع solution LTFS مبتنی بر Tape در ELI-NP است.
ب – تأثیر خصوصیات data بر کارایی reading
در حالی که writing فایل ها روی tape cartridge دنباله ای است، reading چنین نیست. برای بررسی رفتار tape system، ما از LTFS برای reading فایل ها به صورت تصادفی با اندازه های توزیع شده تصادفی استفاده کرده ایم، سناریویی که موارد واقعی را تقلید می کند. در شکل 3 و 4 نشان می دهد که چگونه reading time به عنوان تابعی از تعداد فایل ها و مقدار کلی reading داده ها تکامل می یابد. پیام اصلی هر دو شکل این است که زمان به صورت خطی با تعداد فایل های خوانده شده و مقدار داده های خوانده شده مقیاس می گیرد، tape system از این لحاظ به دیسک های مکانیکی شبیه است.
شکل 2- Writing times برای دسته های 1، 10، 100 و 1000 فایل با اندازه های مختلف بین 10 کیلوبایت و 10 مگابایت.
شکل 3- Reading time به عنوان تابعی از تعداد فایل های خوانده شده. لطفاً به وابستگی تقریباً خطی توجه داشته باشید.
شکل 4- Reading time به عنوان تابعی از مقدار Dataهای خوانده شده (بر حسب GB). لطفاً به وابستگی تقریباً خطی توجه داشته باشید.
نتیجه گیری
در این مقاله ما مجموعه ای از نتایج اکتشافی در مورد کارایی solution های tape-storage برای حفظ و دسترسی به داده های دیجیتالی را ارائه داده ایم. این راه حل ها در ELI-NP مورد توجه هستند، تحقیقات فعلی برای طراحی دقیق long-term storage های تجربی مربوط به gamma بسیار مهم است. تجزیه و تحلیل ما نشان داد که یک سیستم LTFS مبتنی بر Tape عملکرد مشابهی را دارد که از دیسک های مکانیکی تشکیل شده است زیرا یک مقیاس گذاری خطی واضح بین اندازه فایل و writing time را نشان می دهد. به طور طبیعی ، نتیجه ما فقط برای سیستم tape-storage در مقیاس بزرگ دارای اهمیت کیفی است و برای سیستم های Tape در سطح شرکت با چندین هد خواندن / نوشتن و صدها tape cartridge برای کار در یک زمان مشخص، نتایج کمی دقیق لازم است.