MolCompass: রাসায়নিক ভবিষ্যদ্বাণী মডেলের দুর্বলতা সনাক্তকরণে একটি অগ্রগতি

সাম্প্রতিক বছরগুলিতে, যৌগিক ঝুঁকি মূল্যায়নে মেশিন লার্নিং মডেলগুলি ক্রমবর্ধমান জনপ্রিয় হয়ে উঠেছে। যাইহোক, স্বচ্ছতার অভাবের কারণে, এগুলিকে প্রায়শই “ব্ল্যাক বক্স” হিসাবে বিবেচনা করা হয়, যা বিষাক্ত বিশেষজ্ঞ এবং নিয়ন্ত্রক সংস্থাগুলির মধ্যে সন্দেহের জন্ম দেয়। এই মডেলগুলিতে আত্মবিশ্বাস বাড়ানোর জন্য, ভিয়েনা বিশ্ববিদ্যালয়ের গবেষকরা রাসায়নিক স্থানগুলির অঞ্চলগুলিকে সাবধানে চিহ্নিত করার পরামর্শ দেন যেখানে এই মডেলগুলি দুর্বল। এই উদ্দেশ্যে, তারা একটি উদ্ভাবনী সফ্টওয়্যার টুল (“MolCompass”) তৈরি করেছে এবং এই গবেষণা পদ্ধতির ফলাফল সবেমাত্র মর্যাদাপূর্ণ জার্নালে প্রকাশিত হয়েছে জার্নাল অফ কেমিক্যাল ইনফরমেটিক্স।

বছরের পর বছর ধরে, প্রাণীদের উপর নতুন ওষুধ এবং প্রসাধনী পরীক্ষা করা হয়েছে। এই পরীক্ষাগুলি ব্যয়বহুল, নৈতিক প্রশ্ন উত্থাপন করে এবং প্রায়শই মানুষের প্রতিক্রিয়া সঠিকভাবে অনুমান করতে ব্যর্থ হয়। সম্প্রতি, ইউরোপীয় ইউনিয়ন পরবর্তী প্রজন্মের অ-প্রাণী ঝুঁকি মূল্যায়ন পদ্ধতি বিকাশের জন্য RISK-HUNT3R প্রকল্পকে সমর্থন করেছে। ভিয়েনা বিশ্ববিদ্যালয় প্রকল্প কনসোর্টিয়ামের সদস্য। কম্পিউটেশনাল পদ্ধতিগুলি এখন সিলিকোতে নতুন রাসায়নিকের বিষাক্ত এবং পরিবেশগত ঝুঁকির মূল্যায়নের অনুমতি দেয়, সিন্থেটিক যৌগের প্রয়োজন ছাড়াই। কিন্তু একটি প্রশ্ন থেকে যায়: এই কম্পিউটার মডেলগুলি কতটা আত্মবিশ্বাসী?

এটা সব নির্ভরযোগ্য ভবিষ্যদ্বাণী সম্পর্কে

এই সমস্যা সমাধানের জন্য, ভিয়েনা বিশ্ববিদ্যালয়ের ফার্মাসিউটিক্যাল ইনফরমেটিক্স রিসার্চ গ্রুপের একজন সিনিয়র বিজ্ঞানী সের্গেই সোসনিন বাইনারি শ্রেণীবিভাগের উপর দৃষ্টি নিবদ্ধ করেছেন। এই ক্ষেত্রে, মেশিন লার্নিং মডেলটি 0% থেকে 100% পর্যন্ত একটি সম্ভাব্যতা স্কোর প্রদান করে যা নির্দেশ করে যে যৌগটি সক্রিয় কিনা (যেমন, বিষাক্ত বা অ-বিষাক্ত, জৈব-সঞ্চয়কারী বা অ-জৈব-সঞ্চয়কারী, বাইন্ডার বা নন-বাইন্ডার) প্রোটিন)। এই সম্ভাবনা তার ভবিষ্যদ্বাণীতে মডেলের আস্থা প্রতিফলিত করে। আদর্শভাবে, একটি মডেল শুধুমাত্র আত্মবিশ্বাসী হওয়া উচিত যে তার ভবিষ্যদ্বাণী সঠিক। যদি মডেলটি অনিশ্চিত হয় এবং আত্মবিশ্বাসের স্কোর প্রায় 51% হয় তবে এই ভবিষ্যদ্বাণীগুলি একটি বিকল্প পদ্ধতির পক্ষে উপেক্ষা করা যেতে পারে। যাইহোক, যখন মডেল সম্পূর্ণরূপে ভুল ভবিষ্যদ্বাণী বিশ্বাস করে তখন চ্যালেঞ্জ দেখা দেয়।

কম্পিউটেশনাল টক্সিকোলজিস্টদের জন্য, এটি একটি সত্যিকারের দুঃস্বপ্নের দৃশ্য। যদি একটি মডেল 99% আত্মবিশ্বাসের সাথে ভবিষ্যদ্বাণী করে যে একটি যৌগ বিষাক্ত নয়, কিন্তু যৌগটি আসলে বিষাক্ত, তাহলে কী ভুল হয়েছে তা জানার কোন উপায় নেই।


সের্গেই সোসনিন, সিনিয়র বিজ্ঞানী, ফার্মাসিউটিক্যাল ইনফরমেটিক্স রিসার্চ গ্রুপ, ভিয়েনা বিশ্ববিদ্যালয়

একমাত্র সমাধান হল “রাসায়নিক স্থান” (জৈব যৌগের সম্ভাব্য শ্রেণী সমন্বিত) অঞ্চলগুলিকে আগে থেকেই চিহ্নিত করা যেখানে মডেলটিতে “অন্ধ দাগ” রয়েছে এবং সেগুলি এড়িয়ে যাওয়া। এটি করার জন্য, মডেলগুলির মূল্যায়নকারী গবেষকদের অবশ্যই একের পর এক হাজার হাজার যৌগের ভবিষ্যদ্বাণী পরীক্ষা করতে হবে – একটি ক্লান্তিকর এবং ত্রুটি-প্রবণ কাজ।

এই প্রধান বাধা অতিক্রম

“এই গবেষকদের সাহায্য করার জন্য,” Sosnin অব্যাহত রেখেছিলেন, “আমরা ইন্টারেক্টিভ গ্রাফিকাল টুল তৈরি করেছি যা একটি ভৌগলিক মানচিত্রের মতো একটি দ্বি-মাত্রিক সমতলে যৌগগুলি প্রদর্শন করে৷ আমরা উচ্চ আত্মবিশ্বাসের সাথে ত্রুটিগুলি হাইলাইট করতে রঙ ব্যবহার করি যৌগগুলির পূর্বাভাস দেওয়া হয়, ব্যবহারকারীদের তাদের সনাক্ত করতে সক্ষম করে৷ মানচিত্রটি ইন্টারেক্টিভ, ব্যবহারকারীদের রাসায়নিক স্থান তদন্ত করতে এবং আগ্রহের ক্ষেত্রগুলি অন্বেষণ করতে দেয়।

এই পদ্ধতিটি একটি ইস্ট্রোজেন রিসেপ্টর বাইন্ডিং মডেল ব্যবহার করে বৈধ করা হয়েছে। রাসায়নিক স্থানের একটি চাক্ষুষ বিশ্লেষণ করার পরে, এটি স্পষ্ট হয়ে গেছে যে মডেলটি স্টেরয়েড এবং PCB-এর মতো যৌগগুলির জন্য ভাল কাজ করেছে, কিন্তু ছোট অ্যাসাইক্লিক যৌগগুলির জন্য সম্পূর্ণরূপে ব্যর্থ হয়েছে এবং তাদের জন্য ব্যবহার করা উচিত নয়।

এই প্রকল্পে তৈরি করা সফ্টওয়্যারটি GitHub-এ সম্প্রদায়ের জন্য বিনামূল্যে উপলব্ধ। সের্গেই সোসনিন আশা করেন যে মোলকম্পাস কম্পিউটেশনাল মডেলগুলির সীমাবদ্ধতাগুলি আরও ভালভাবে বুঝতে রসায়নবিদ এবং বিষাক্ত বিশেষজ্ঞদের নেতৃত্ব দেবে। এই গবেষণাটি এমন একটি ভবিষ্যতের দিকে একটি পদক্ষেপ যেখানে প্রাণীর পরীক্ষার আর প্রয়োজন নেই এবং টক্সিকোলজিস্টদের একমাত্র কর্মক্ষেত্র তাদের কম্পিউটার ডেস্ক।

উৎস:

জার্নাল রেফারেন্স:

সোসনিন। এস., ইত্যাদি (2024)। MolCompass: রাসায়নিক স্থান নেভিগেশন এবং QSAR/QSPR মডেলের ভিজ্যুয়াল বৈধতার জন্য একটি বহুমুখী টুল। জার্নাল অফ কেমিক্যাল ইনফরমেটিক্স. doi.org/10.1186/s13321-024-00888-z.

উৎস লিঙ্ক