کالبدشکافی SolarWinds (بخش چهارم): تجربه کاربری؛ تأثیر معماری Legacy بر بهره‌وری عملیاتی

۱۴۰۵/۰۴/۰۹

ساعت ۲ بامداد است؛ هشدار بحرانی از افت عملکرد یک سرویس حیاتی ثبت می‌شود و مهندس NOC با عجله وارد SolarWinds می‌شود. اما به‌جای یک مسیر روشن برای تحلیل، با انبوهی از هشدارهای پراکنده، تب‌های متعدد و گراف‌هایی مواجه می‌شود که به‌صورت طبیعی به هم مرتبط نیستند. در لحظه‌ای که هر ثانیه MTTR را افزایش می‌دهد، تحلیلگر باید میان ماژول‌های مختلف جابه‌جا شود و در دریایی از داده خام به دنبال سرنخی بگردد؛ تجربه‌ای آشنا که به Alert Fatigue و Context Switching سنگین منجر می‌شود.

مشکل در یک رابط شلوغ خلاصه نمی‌شود؛ ریشه در معماری Legacy و ماژولار پلتفرم Orion است. ساختار SolarWinds طی سال‌ها با افزودن ماژول‌های مجزا شکل گرفته و به همین دلیل داده‌ها در سیلوهای مستقل ذخیره و نمایش داده می‌شوند. نبود یک مدل توپولوژیک یکپارچه و محدودبودن Event Correlation به سطحی‌ترین قواعد، باعث می‌شود یک قطعی ساده در پورت سوییچ، ده‌ها هشدار غیرمرتبط را برای سرویس‌های بالادستی تولید کند. در چنین شرایطی، بار هم‌بستگی و تفسیر داده‌ها عملاً بر دوش کارشناس قرار می‌گیرد.

هدف این بخش، نشان دادن این است که چرا خروج از این هزارتوی داده خام، تنها با تغییر معماری امکان‌پذیر است؛ و چگونه پلتفرم‌های مدرن مانند «معین» با همبستگی خودکار رویدادها، مدل وابستگی سرویس و Single Pane of Glass واقعی، سردرگمی را به Insight عملیاتی تبدیل کرده و زمان حیاتی رفع بحران را به تیم بازمی‌گردانند.

معماری جزیره‌ای: هزینه پنهان Context Switching در عیب‌یابی

ریشه اصلی کندی عملیات در SolarWinds، نحوه ارائه داده و معماری صفحه‌محور (Page‑Centric) آن است. در مانیتورینگ مدرن، اصل بر «تجمیع هوشمند داده» و «دسترسی Contextual» است؛ اما طراحی Orion همچنان بر پایه WebForms و navigation قدیمی بنا شده است. حتی تعریف یک هشدار ساده برای CPU نیازمند عبور از چندین منو و فرم‌های با چیدمان نسل قبل است.

در زمان Incident Analysis، این ضعف معماری به‌وضوح نمایان می‌شود. SolarWinds داده‌ها را در بخش‌های مستقل مانند Node Details، Performance Charts، Alert Manager و Event Logs نمایش می‌دهد. کارشناس برای کنار هم گذاشتن این داده‌ها ناچار به جابه‌جایی مداوم بین صفحات است؛ عملیاتی که Working Memory را بارگذاری می‌کند و کاربر باید correlation را به‌صورت دستی انجام دهد.

این گسستگی دو پیامد مهم دارد:

افزایش MTTR: زمان ارزشمند تحلیل به کلیک کردن، لود صفحات و جست‌وجو در منوها اختصاص پیدا می‌کند.

کوری عملیاتی موقت (Operational Blindness): ارتباط بین رفتار متریک‌ها و خطاهای سیستم‌عامل با تأخیر دیده می‌شود و احتمال خطای انسانی بالا می‌رود.

نمونه واضح: یک Core Switch قطع می‌شود. در بسیاری از ابزارهای مدرن تنها یک هشدار قطعی دریافت می‌کنید؛ اما SolarWinds – به دلیل نبود Event Correlation مبتنی بر Dependency – ده‌ها هشدار برای سرویس‌های وابسته ایجاد می‌کند (Alert Storm). در همین لحظات، تحت فشار حجم بالای write، پایگاه داده مرکزی که ستون فقرات کل پلتفرم است ممکن است دچار I/O Burst و Locking شود؛ مخصوصاً در محیط‌هایی که از SQL Standard یا تنظیمات پیش‌فرض استفاده می‌کنند. نتیجه: داشبوردها با تأخیر یا عدم پاسخ‌گویی مواجه می‌شوند و ابزار مانیتورینگ خود تبدیل به Bottleneck عملیات می‌شود.

SolarWinds به‌جای ارائه Insight یکپارچه، بیشتر شبیه یک انبار داده خام عمل می‌کند؛ و این کارشناس است که باید بخش‌های جداگانه را به هم متصل کند.

مثالی از پیچیدگی عملیاتی در SolarWinds Orion

برای تنظیم یک آستانه CPU در یک Node، کارشناس باید مسیر زیر را طی کند:

Settings→ All Settings→ Thresholds & Polling→ Manage Thresholds→ Node Thresholds→ Edit Node→ CPU Threshold

این فرآیند معمولاً بین ۷ تا ۹ کلیک طول می‌کشد و چون Contextual نیست، کاربر مجبور است از صفحه Node خارج شود. حتی در نسخه‌های جدیدتر Orion Platform (مثل 2023.2)، این جریان کاری بدون تغییر مانده است. برای تیم‌های عملیاتی با سناریوهای تکراری روزانه، همین الگوی کلیک‌خور بالا، Cognitive Load را افزایش داده و سرعت واکنش را کاهش می‌دهد.

در مقابل، در ابزارهای مدرن‌تر، Thresholdها مستقیماً از صفحه همان Node و با ۲–۳ کلیک قابل تنظیم‌اند.

تقابل معماری‌ها: مدل جزیره‌ای SolarWinds در برابر Single Pane of Glass واقعی

ساختار Siloed در SolarWinds علت اصلی فرسایش تیم‌های عملیاتی است. کاربر به‌جای دریافت یک تصویر یکپارچه، مجبور می‌شود داده‌ها را از ماژول‌های مختلف جمع‌آوری کند. به‌عنوان مثال:

در یک هشدار افت کارایی SQL، کارشناس باید حداقل ۴ تب را باز کند:

Alert Manager برای خود هشدار
Node Details برای متریک‌های CPU و RAM
SAM برای وضعیت سرویس SQL
Syslog/Event Logs برای خطاهای سیستم‌عامل

این کار حدود ۱۵ تا ۲۰ کلیک و ۳ تا ۵ دقیقه زمان می‌برد – تنها برای جمع‌آوری داده اولیه. در این فاصله، هر بار که صفحه جدیدی لود می‌شود، کانتکست ذهنی کارشناس مختل شده و باید داده‌های صفحه قبل را در ذهن نگه دارد.

در مقابل، پلتفرم‌های مدرن – از جمله پلتفرم مانیتورینگ معین – معماری جزیره‌ای را کنار گذاشته‌اند. در همان سناریوی SQL، معین با ارائه قابلیت کشف ریشه خطا و تعیین روابط بین فناوری‌ها، یک نمای متمرکز ارائه می‌دهد که تحلیل را در کمتر از ۱۰ ثانیه و با حداقل کلیک انجام می‌دهد؛ بدون نیاز به باز کردن تب جدید.

این تفاوت یک تغییر سطح UI نیست؛ تفاوت معماری است: داده خام → Insight → Action.

جمع‌بندی: عبور از پیچیدگی‌های فرسایشی به سمت چابکی عملیاتی

SolarWinds Orion هزینه‌ای پنهان اما سنگین به سازمان تحمیل می‌کند؛ هزینه‌ای که در فاکتور لایسنس دیده نمی‌شود:فرسایش نیرو، افزایش MTTR و وابستگی شدید به تجربه فردیِ تحلیل‌گر.

در بسیاری از Incidentهای ساده، کارشناس ناچار است میان چندین ماژول (PerfStack، Syslog، Event Viewer، SAM و …) جابه‌جا شود و پازل ذهنی بسازد. نبود Event Correlation عمیق و تکیه بر Drill‑down دستی، باعث می‌شود ابزار به‌جای تسریع تحلیل، سرعت عملیات را کاهش دهد.

در مقابل، معماری Service‑Centric در پلتفرم‌هایی مانند «معین» نشان می‌دهد مانیتورینگ می‌تواند ساده و متمرکز باشد. داده‌ها از ابتدا براساس وابستگی سرویس مدل‌سازی می‌شوند و Event Correlation به‌صورت خودکار انجام می‌شود. نتیجه، Single Pane of Glass واقعی و کاهش چشمگیر Cognitive Load است.

شکاف های معماری قدیم سولارویندز