هوش مصنوعی کد DNA گیاهی را رمزگشایی میکند
پایگاه خبری DA1news: در یک پیشرفت چشمگیر در تقاطع هوش مصنوعی و زیستشناسی گیاهی، یک مطالعه جدید به رهبری میلینگ زو، هایوی چای و ژیچیانگ شیا از دانشگاه هاینان، از آغاز دوران تحولآفرین در تحقیقات ژنومیک گیاهی خبر میدهد.
به گزارش گروه علمی اخبار روزانه کشاورزی، دانشمندان با مهار قدرت مدلهای زبانی بزرگ (LLM) – معماریهای هوش مصنوعی که در اصل برای پردازش زبان انسانی طراحی شدهاند – اکنون در حال کشف واژگان پیچیده جاسازی شده در ژنوم گیاهی هستند. این کار پیشگامانه، که در مجله Tropical Plants منتشر شده است، جزئیات چگونگی رمزگشایی این مدلهای مبتنی بر هوش مصنوعی از زبان پیچیده توالیهای ژنتیکی را برای باز کردن بینشهای بیولوژیکی بیسابقه و پیشبرد نوآوری کشاورزی شرح میدهد.
از لحاظ تاریخی، حوزه ژنومیک گیاهی به دلیل پیچیدگی فوقالعاده ذاتی DNA گیاهی با مشکل مواجه شده است. مجموعهدادههای عظیم، متغیر و اغلب با برچسبگذاری ضعیف، چالشهای قابلتوجهی را برای تکنیکهای یادگیری ماشین سنتی ایجاد میکنند، که به حجم زیادی از دادههای با کیفیت بالا و برچسبگذاری شده نیاز دارند. برخلاف زبانهای انسانی، که سرشار از دستور زبان و معناشناسی ساختاریافته هستند، توالیهای ژنومی یک روش اساساً متفاوت از اطلاعات بیولوژیکی را نشان میدهند – رشتههایی از نوکلئوتیدها که عناصر تنظیمی و عملکردی آنها الگوهای سلسله مراتبی پیچیدهای را منعکس میکنند. مطالعه اخیر با بازاندیشی در توالیهای ژنومی به عنوان یک سیستم زبانمانند، با این چالش مقابله میکند و در نتیجه مدلهای زبان بزرگ را قادر میسازد تا توابع ژنتیکی را با دقت قابل توجهی پردازش و پیشبینی کنند.
جوهر این تحقیق در شناخت موازیهای ساختاری چشمگیر بین زبان طبیعی و کدهای ژنومی نهفته است. DNA را میتوان به عنوان توالیای از «کلمات» متشکل از حروف نوکلئوتیدی – آدنین، تیمین، سیتوزین و گوانین – تصور کرد که با هم ترکیب میشوند تا «جملات» یا موتیفهای معنیداری را تشکیل دهند که بیان ژن و عملکرد سلولی را تنظیم میکنند. با آموزش LLMها بر روی مجموعهدادههای عظیمی از توالیهای ژنومی گیاهی، محققان نشان دادهاند که این مدلها میتوانند یاد بگیرند که ویژگیهای پیچیدهای مانند پروموترها، تقویتکنندهها و سایر عناصر تنظیمی را که فعالیت ژن را در بافتها و مراحل مختلف رشد هماهنگ میکنند، شناسایی کنند.
این مطالعه عملکرد چندین معماری LLM را بررسی میکند که به طور خاص برای تجزیه و تحلیل ژنومیک گیاهی طراحی شدهاند. مدلهای فقط رمزگذار (Encoder-only)، مانند DNABERT، بر تفسیر توالیهای ورودی برای استخراج نمایشهای معنیدار تمرکز دارند. مدلهای فقط رمزگشا (Decoder-only) مانند DNAGPT وظایف تولیدی را تسهیل میکنند، الگوهای توالی پاییندست یا حاشیهنویسیهای عملکردی را پیشبینی میکنند. علاوه بر این، هیبریدهای رمزگذار-رمزگشا مانند ENBED درک و پیشبینی دو جهته را امکانپذیر میسازند و قابلیت مدل را افزایش میدهند. محققان از یک روششناسی دقیق شامل پیشآموزش اولیه بر روی دادههای ژنومی خام گسترده، و سپس تنظیم دقیق استفاده کردند.