میکروبیوم
به مجموعه میکروارگانیسمهایی گفته میشود که در یک محیط وجود دارد و شامل باکتریها،
ویروسها، آرکیها و... میشود. این میکروارگانیسمها در محیطهای مختلفی ازجمله
خاک، آب و بدن موجودات پرسلولی مثل انسان یافت میشود. مهمترین ویژگی این میکروارگانیسمها
این است که اولا غیرقابل جداسازی هستند و در 99 درصد موارد غیرقابل کشت هستند. از
طرفی این میکروارگانیسمها سلولهای زندهای هستند که با محیط ارتباط دارند. در
بیشتر موارد، باکتریهای موجود در محیط مورد مطالعه قرارگرفته است. بهعنوان مثال
تعداد میکروارگانیسمهایی که در بدن انسان و با انسان همزیستی دارد 150 برابر سلولهای
انسانی هستند. این میکروارگانیسمها شامل 3.3 میلیون ژن باکتریایی و 500 تا 1000
گونه باکتریایی مختلف در موقعیتهای مختلف بدن انسان ازجمله دستگاههای گوارشی و
تنفسی و مجاری ادراری و پوست زیست میکنند.
با
توجه به اینکه این حجم از میکروارگانیسمها با محیط ارتباط دارند، بنابراین مطالعه
این ارتباط با محیط و میزبان اهمیت فراوانی دارد. برای این مطالعه، مجموعه ماده
ژنتیکی میکروبیوم استخراج و موردمطالعه قرار میگیرد که به این مواد ژنتیکی،
متاژنوم گفته میشود. دو روش عمده برای مطالعات متاژنوم وجود دارد. در روش اول که
آنالیز توالیهای 16S rRNA
گفته میشود، در این روش بهصورت هدفمند با استفاده از ژنهای نشانگر 16S
rRNA فقط باکتریهایی مشخصی شناسایی و توالی یابی
میشود. از نظر هزینه مقروم به صرفه است ولی نگاه جزعیتری به دادهها دارد. اما
در روش دوم که آنالیز دادهها متاژنوم گفته میشود، به مجموعه میکروبیوم بهعنوان
سوپر ارگانیسم نگاه میشود که با میزبان و محیط خود ارتباط دارد. در این روش کل
محتوای متاژنوم استخراج شده و توالی یابی شده و مورد مطالعه قرار میگیرد. در این
روش هرچه که هست بررسی میشود، در محیطهای ناشناخته باید از این روش استفاده شود
که بسیار جامعتر از روش اول بوده و برای شناسایی گونههای جدید نیز بسیار مناسب هست.
ما در پکیج حاضر از روش دوم استفاده میکنیم که whole metagenomics
data analysis گفته میشود. همچنین برای آنالیز دادههای whole metagenome دو روش عمده وجود دارد. روش اول مبتنی بر
نگاشت میباشد، در این روش یک کاتالوگ ژنی جامع از اکوسیستم مورد مطالعه وجود دارد
(مثلا کاتالوگ ژنی میکروبیوم روده انسان) و توالیهای استخراج شده از نمونهها به
این کاتالوگ ژنی نگاشت میشود و بعد از استخراج فروانی هر ژن و نرمال سازی آنها
ادامه فرایند تحلیل انجام میگیرد. جدول 1 اطلاعات آماری مربوط به کاتالوگ ژنی IGC[1] مربوط به میکروبیوم روده را نشان میدهد [1]. کاتالوگ ژنی IGC حدود 10 میلیون ژنی میکروبی مرتبط با روده
انسان را در خود جای داده است. اما در صورتی که کاتالوگ ژنی جامعی وجود نداشته
باشد ابتدا توالیهای با استفاده از الگوریتم MEGAHIT اسمبل شده و توالیهای ژنی نوکلئوتیدی و پروتئینی
آنها با استفاده از ابزار MetaGeneMark استخراج میشود و نهایتا بعد از حذف توالیهای
ژنی تکراری با استفاده از ابزار CD-HIT، به کاتالوگ ژنی غیرتکراری میرسیم و میتوان
بعد از تهیه کاتالوگ ژنی تمامی مراحل روش مبتنی برنگاشت که روش دقیقتری هست را
انجام داد.

برای
آنالیز دادههای متاژنوم ابزارها و پکیجهای مختلفی وجود دارد که ما از ابزارهایی
با بیشترین کارایی و قابلیت اعتماد استفاده میکنیم. همچنین برای این آنالیزها
پکیجی به نام CAMAMED آماده کردهایم که
در ژورنال معتبری چاپ شده و در دسترس عموم نیز قرار دارد [2]. این ابزار از روش مبتنی بر نگاشت برای آنالیز دادههای
متاژنوم استفاده میکند. با توجه به اینکه
دادهها و پردازشهای مربوط به این حوزه بسیار حجم هستند، بنابراین نیاز به سختافزار
و نرمافزارهای مناسب دارد. شکل 1 چارچوب آنالیز
دادههای whole
metagenome را نشان میدهد که برای آنالیز تاکسونومیکی
و عملکردی دادههای متاژنوم بسیار مناسب میباشد. مراحل مورد نظر برای آنالیز این
دادهها در چند بخش دسته بندی شده است که در ادامه به آنها اشاره میکنیم.
مراحل
مربوط به آنالیز دادههای متاژنوم
1-
کنترل کیفی توالیها، هرس توالیها (در صورت نیاز) و استخراج اطلاعات آماری مربوط
به نمونهها
2-
استخراج پروفایل تاکسونومیکی نمونهها (فراوانی میکروارگانیسمها) و مقایسههای آنها
با نمونههای سالم و بیمار خارجی مرتبط با آن بیماری و نمونههای داخلی (در صورت
وجود نمونههای مشابه داخلی) و شناسایی میکروارگانیسمهایی که تغییر فراوانی دادهاند.
3-
نگاشت توالیهای نمونه به کاتالوگ ژنی مرجع انسانی در حوزههای مختلف (مثل دستگاه
گوارشی، دستگاه تنفسی و پوست و...) استخراج فراوانی ژنهای مرتبط و نرمالسازی
فراوانیها و مقایسه آماری با نمونههای سالم و بیمار.
4-
اسمبلی توالیها و استخراج کانتیگ، استخراج ژنها از کانتیگها و ایجاد یک کاتالوگ
ژنی مرجع برای آن نمونه
5-
تحلیل عملکردی نمونهها، استخراج KO (KEGG Orthology)،
آنزیمها و متابولیتهای موجود و مسیرهای زیستی مرتبط و فراوانی نرمال شده آنها و
مقایسه آماری آنها با نمونههای سالم و بیمار در حوزه آن بیماری.
6-
استفاده از ابزارهای یادگیری ماشین برای انتخاب ویژگی، طبقه بندی و حتی پیش بینی
روند بیماری بر اساس ویژگیهای استخراج شده از نمونه (مجموعه دادههای تاکسونومیکی
و عملکردی که از نمونه در بخشهای قبلی استخراج شده است) و مقایسه آن به نمونه های
موجود خارجی و داخلی.

شکل 1: چارچوبی برای آنالیز تاکسونومیکی و عملکردی دادههای
متاژنوم مبتنی بر CAMAMED
[1] - integrated gene catalog