میکروبیوم
به مجموعه میکروارگانیسم‌هایی گفته می‌شود که در یک محیط وجود دارد و شامل باکتری‌ها،
ویروس‌ها، آرکی‌ها و... می‌شود. این میکروارگانیسم‌ها در محیط‌های مختلفی ازجمله
خاک، آب و بدن موجودات پرسلولی مثل انسان یافت می‌شود. مهم‌ترین ویژگی این میکروارگانیسم‌ها
این است که اولا غیرقابل جداسازی هستند و در 99 درصد موارد غیرقابل کشت هستند. از
طرفی این میکروارگانیسم‌ها سلول‌های زنده‌ای هستند که با محیط ارتباط دارند. در
بیشتر موارد، باکتری‌های موجود در محیط مورد مطالعه قرارگرفته است. به‌عنوان مثال
تعداد میکروارگانیسم‌هایی که در بدن انسان و با انسان همزیستی دارد 150 برابر سلول‌های
انسانی هستند. این میکروارگانیسم‌ها شامل 3.3 میلیون ژن باکتریایی و 500 تا 1000
گونه باکتریایی مختلف در موقعیت‌های مختلف بدن انسان ازجمله دستگاه‌های گوارشی و
تنفسی و مجاری ادراری و پوست زیست می‌کنند.
 

با
توجه به اینکه این حجم از میکروارگانیسم‌ها با محیط ارتباط دارند، بنابراین مطالعه
این ارتباط با محیط و میزبان اهمیت فراوانی دارد. برای این مطالعه، مجموعه ماده
ژنتیکی میکروبیوم استخراج و موردمطالعه قرار می‌گیرد که به این مواد ژنتیکی،
متاژنوم گفته می‌شود. دو روش عمده برای مطالعات متاژنوم وجود دارد. در روش اول که
آنالیز توالی‌های
16S rRNA
گفته می‌شود، در این روش به‌صورت هدفمند با استفاده از ژن‌های نشانگر
16S
rRNA
فقط باکتری‌هایی مشخصی شناسایی و توالی یابی
می‌شود. از نظر هزینه مقروم به صرفه است ولی نگاه جزعی‌تری به داده‌ها دارد. اما
در روش دوم که آنالیز داده‌ها متاژنوم گفته می‌شود، به مجموعه میکروبیوم به‌عنوان
سوپر ارگانیسم نگاه می‌شود که با میزبان و محیط خود ارتباط دارد. در این روش کل
محتوای متاژنوم استخراج شده و توالی یابی شده و مورد مطالعه قرار می‌گیرد. در این
روش هرچه که هست بررسی می‌شود، در محیط‌های ناشناخته باید از این روش استفاده شود
که بسیار جامع‌تر از روش اول بوده و برای شناسایی گونه‌های جدید نیز بسیار مناسب هست.
ما در پکیج حاضر از روش دوم استفاده می‌کنیم که
whole metagenomics
data analysis
گفته می‌شود. همچنین برای آنالیز داده‌های whole metagenome دو روش عمده وجود دارد. روش اول مبتنی بر
نگاشت می‌باشد، در این روش یک کاتالوگ ژنی جامع از اکوسیستم مورد مطالعه وجود دارد
(مثلا کاتالوگ ژنی میکروبیوم روده انسان) و توالی‌های استخراج شده از نمونه‌ها به
این کاتالوگ ژنی نگاشت می‌شود و بعد از استخراج فروانی هر ژن و نرمال سازی آن‌ها
ادامه فرایند تحلیل انجام می‌گیرد. جدول 1 اطلاعات آماری مربوط به کاتالوگ ژنی
IGC[1] مربوط به میکروبیوم روده را نشان می‌دهد [1]. کاتالوگ ژنی IGC حدود 10 میلیون ژنی میکروبی مرتبط با روده
انسان را در خود جای داده است. اما در صورتی که کاتالوگ ژنی جامعی وجود نداشته
باشد ابتدا توالی‌های با استفاده از الگوریتم
MEGAHIT اسمبل شده و توالی‌های ژنی نوکلئوتیدی و پروتئینی
آن‌ها با استفاده از ابزار
MetaGeneMark استخراج می‌شود و نهایتا بعد از حذف توالی‌های
ژنی تکراری با استفاده از ابزار
CD-HIT، به کاتالوگ ژنی غیرتکراری می‌رسیم و می‌توان
بعد از تهیه کاتالوگ ژنی تمامی مراحل روش مبتنی برنگاشت که روش دقیق‌تری هست را
انجام داد.
 

undefined

 برای
آنالیز داده‌های متاژنوم ابزارها و پکیج‌های مختلفی وجود دارد که ما از ابزارهایی
با بیشترین کارایی و قابلیت اعتماد استفاده می‌کنیم. همچنین برای این آنالیزها
پکیجی به نام
CAMAMED آماده کرده‌ایم که
در ژورنال معتبری چاپ شده و در دسترس عموم نیز قرار دارد [2]. این ابزار از روش مبتنی بر نگاشت برای آنالیز داده‌های
متاژنوم استفاده می‌کند.
با توجه به اینکه
داده‌ها و پردازش‌های مربوط به این حوزه بسیار حجم هستند، بنابراین نیاز به سخت‌افزار
و نرم‌افزارهای مناسب دارد.
شکل 1 چارچوب آنالیز
داده‌های
whole
metagenome
را نشان می‌دهد که برای آنالیز تاکسونومیکی
و عملکردی داده‌های متاژنوم بسیار مناسب می‌باشد. مراحل مورد نظر برای آنالیز این
داده‌ها در چند بخش دسته بندی شده است که در ادامه به آن‌ها اشاره می‌کنیم.
 

مراحل
مربوط به آنالیز داده‌های متاژنوم
 

1-
کنترل کیفی توالی‌ها، هرس توالی‌ها (در صورت نیاز) و استخراج اطلاعات آماری مربوط
به نمونه‌ها
 

2-
استخراج پروفایل تاکسونومیکی نمونه‌ها (فراوانی میکروارگانیسم‌ها) و مقایسه‌های آن‌ها
با نمونه‌های سالم و بیمار خارجی مرتبط با آن بیماری و نمونه‌های داخلی (در صورت
وجود نمونه‌های مشابه داخلی) و شناسایی میکروارگانیسم‌هایی که تغییر فراوانی داده‌اند.
 

3-
نگاشت توالی‌های نمونه به کاتالوگ ژنی مرجع انسانی در حوزه‌های مختلف (مثل دستگاه
گوارشی، دستگاه تنفسی و پوست و...) استخراج فراوانی ژن‌های مرتبط و نرمال‌سازی
فراوانی‌ها و مقایسه آماری با نمونه‌های سالم و بیمار.
 

4-
اسمبلی توالی‌ها و استخراج کانتیگ، استخراج ژن‌ها از کانتیگ‌ها و ایجاد یک کاتالوگ
ژنی مرجع برای آن نمونه
 

5-
تحلیل عملکردی نمونه‌ها، استخراج
KO (KEGG Orthology)،
آنزیم‌ها و متابولیت‌های موجود و مسیرهای زیستی مرتبط و فراوانی نرمال شده آن‌ها و
مقایسه آماری آن‌ها با نمونه‌های سالم و بیمار در حوزه آن بیماری.
 

6-
استفاده از ابزارهای یادگیری ماشین برای انتخاب ویژگی، طبقه بندی و حتی پیش بینی
روند بیماری بر اساس ویژگی‌های استخراج شده از نمونه (مجموعه داده‌های تاکسونومیکی
و عملکردی که از نمونه در بخش‌های قبلی استخراج شده است) و مقایسه آن به نمونه های
موجود خارجی و داخلی.
  

undefined

 شکل 1: چارچوبی برای آنالیز تاکسونومیکی و عملکردی داده‌های
متاژنوم مبتنی بر
CAMAMED 

   


   

 

[1] - integrated gene catalog