সম্প্রতি প্রকাশিত এক গবেষণায় ড জামা নেটওয়ার্ক ওপেন, গবেষকরা মেডিকেল অনকোলজি পরীক্ষার প্রশ্নের উত্তর দেওয়ার ক্ষেত্রে বড় ভাষা মডেলের (LLMs) নির্ভুলতা এবং নিরাপত্তা মূল্যায়ন করেছেন।
অধ্যয়ন: মেডিকেল অনকোলজি পরীক্ষার প্রশ্নে বড় ভাষার মডেলের পারফরম্যান্স.ইমেজ ক্রেডিট: BOY ANTHONY/Shutterstock.com
পটভূমি
LLM-এর কাজগুলি সম্পূর্ণ করতে এবং রোগীদের সাথে আলাপচারিতায় চিকিত্সকদের সহায়তা করে স্বাস্থ্যসেবায় বিপ্লব ঘটানোর সম্ভাবনা রয়েছে। এই মডেলগুলি পাঠ্যের বৃহৎ কর্পোরার উপর প্রশিক্ষিত এবং মানুষের মতো প্রশ্নের উত্তর দিতে সূক্ষ্ম সুর করা যেতে পারে।
আইনের মাস্টার (LLM) বিস্তৃত চিকিৎসা জ্ঞানের প্রতিনিধিত্ব করে এবং মার্কিন যুক্তরাষ্ট্র (US) মেডিকেল লাইসেন্সিং পরীক্ষায় উত্তীর্ণ হওয়ার ক্ষমতা প্রদর্শন করে, বোঝার এবং যুক্তির দক্ষতা প্রদর্শন করে। যাইহোক, তাদের উপস্থাপনা চিকিৎসা বিশেষত্ব দ্বারা পরিবর্তিত হয়।
জ্ঞানের দ্রুত বিকাশ এবং প্রকাশনার সংখ্যা বৃদ্ধির সাথে সাথে, মেডিকেল অনকোলজি অনন্য চ্যালেঞ্জের মুখোমুখি।
LL.M.s নির্ভরযোগ্যভাবে এবং নিরাপদে তাদের চিকিৎসা জ্ঞানকে মেডিক্যাল অনকোলজির মতো গতিশীল এবং বিশেষ ক্ষেত্রগুলিতে প্রয়োগ করতে পারে তা নিশ্চিত করার জন্য আরও গবেষণার প্রয়োজন, যার ফলে ক্লিনিশিয়ান সহায়তা এবং রোগীর যত্নের উন্নতি হয়।
গবেষণা সম্পর্কে
28 মে থেকে 11 অক্টোবর, 2023 পর্যন্ত পরিচালিত এই অধ্যয়নটি এপিডেমিওলজি (স্ট্রোব) নির্দেশিকাগুলিতে পর্যবেক্ষণমূলক অধ্যয়নের রিপোর্টিং শক্তিশালীকরণ অনুসরণ করে এবং মানব অংশগ্রহণকারীদের অভাবের কারণে নীতিশাস্ত্র কমিটির অনুমোদন বা অবহিত সম্মতির প্রয়োজন হয় নি।
আমেরিকান সোসাইটি অফ ক্লিনিক্যাল অনকোলজি (ASCO) পাবলিক টেস্ট প্রশ্নব্যাঙ্ক 52টি বহুনির্বাচনী প্রশ্ন প্রদান করে, যার প্রতিটির সঠিক উত্তর এবং ব্যাখ্যামূলক রেফারেন্স রয়েছে। একইভাবে, 2021 এবং 2022 ইউরোপীয় সোসাইটি ফর মেডিকেল অনকোলজি (ESMO) পরীক্ষার প্রশ্নগুলি চিত্র-ভিত্তিক প্রশ্নগুলি বাদ দেওয়ার পরে 75 টি প্রশ্ন প্রদান করে, যার উত্তরগুলি অনকোলজিস্টদের দ্বারা তৈরি করা হয়।
পরীক্ষাটি নিরপেক্ষ ছিল তা নিশ্চিত করার জন্য, ক্যান্সার বিশেষজ্ঞরা একাধিক-পছন্দের বিন্যাসে 20টি আসল প্রশ্ন তৈরি করেছেন।
আমরা এই প্রশ্নগুলির উত্তর দিতে এবং তুলনা করার জন্য সমানভাবে লেবেল দিতে Chat Generative Pre-trained Transformer (ChatGPT)-3.5 এবং ChatGPT-4 ব্যবহার করি৷ আমরা BioMistral-7B ডোমেন পুনরুদ্ধার এবং মূল্যায়ন (BioMistral-7B DARE) সহ ছয়টি ওপেন সোর্স LLM-এর মূল্যায়ন করেছি, যা বায়োমেডিকাল ক্ষেত্রের জন্য তৈরি।
রেকর্ড করা প্রতিক্রিয়াগুলি চার-স্তরের ত্রুটি স্কেলে ব্যাখ্যাকে স্থান দেয়। R সংস্করণ 4.3.0 পরীক্ষিত নির্ভুলতা, ত্রুটি বিতরণ, এবং আন্তঃ-অনকোলজিস্ট চুক্তি ব্যবহার করে পরিসংখ্যানগত বিশ্লেষণ।
এই গবেষণায় দ্বিপদী বন্টন, ম্যাকনেমার পরীক্ষা, ফিশার পরীক্ষা, ওজনযুক্ত κ এবং উইলকক্সন র্যাঙ্ক সমষ্টি পরীক্ষা, .05 এর দ্বিমুখী P মান সহ, পরিসংখ্যানগত তাত্পর্য নির্দেশ করে।
গবেষণা ফলাফল
LLM 147টি পরীক্ষার প্রশ্নে মূল্যায়ন করা হয়, যার মধ্যে 52টি ASCO প্রশ্ন, 75টি ESMO প্রশ্ন এবং 20টি মূল প্রশ্ন রয়েছে। হেমাটোলজি ছিল সবচেয়ে সাধারণ বিভাগ (15.0%), কিন্তু প্রশ্নগুলি বিভিন্ন বিষয় কভার করে।
ESMO প্রশ্নটি আরও সাধারণ এবং এতে পদ্ধতিগত থেরাপির প্রক্রিয়া এবং বিষাক্ত প্রভাব জড়িত। উল্লেখযোগ্যভাবে, 27.9% প্রশ্নের জন্য 2018 সাল থেকে প্রকাশিত প্রমাণ থেকে জ্ঞান প্রয়োজন। এলএলএম সমস্ত প্রশ্নের গদ্য উত্তর প্রদান করে, যেখানে মালিকানাধীন এলএলএম 2 22.4% ক্ষেত্রে নির্দিষ্ট উত্তরের জন্য অনুরোধ করে।
ASCO-র নির্বাচিত প্রশ্নগুলির মধ্যে একটি 62 বছর বয়সী মহিলা জড়িত, মেটাস্ট্যাটিক স্তন ক্যান্সার পালমোনারি এমবোলিজমের লক্ষণ দেখা দেয়। রোগীর ক্যান্সার এবং ভ্রমণের ইতিহাস বিবেচনা করে, মালিকানা LLM 2 সঠিকভাবে নির্ধারণ করেছে যে সর্বোত্তম চিকিত্সা ছিল কম আণবিক ওজন হেপারিন বা সরাসরি মৌখিক অ্যান্টিকোয়াগুল্যান্ট।
আরেকটি ASCO প্রশ্ন মেটাস্ট্যাটিক কোলন ক্যান্সারে আক্রান্ত একজন 61 বছর বয়সী মহিলার বর্ণনা করে যার কেমোথেরাপির পদ্ধতির ফলে নিউরোপ্যাথি হয়। B-Raf প্রোটো-অনকোজিন, সেরিন/থ্রোনাইন কিনেস (BRAF) V600E মিউটেশন এবং এর পার্শ্বপ্রতিক্রিয়ার পরিপ্রেক্ষিতে, LL.M এনকোরাফেনিব এবং সেটুক্সিমাবের সাথে টার্গেটেড থেরাপিতে স্যুইচ করার পরামর্শ দিয়েছে।
মালিকানাধীন LLM 2-এর সর্বোচ্চ নির্ভুলতা ছিল, 85.0% প্রশ্নের সঠিক উত্তর দেয় (147টি প্রশ্নের মধ্যে 125টি), এলোমেলো উত্তর এবং অন্যান্য মডেলের তুলনায় উল্লেখযোগ্যভাবে ভালো। কর্মক্ষমতা ASCO (80.8%), ESMO (88.0%) এবং মূল প্রশ্ন (85.0%) এর জন্য সামঞ্জস্যপূর্ণ।
দ্বিতীয় চেষ্টায়, প্রাথমিকভাবে ভুল উত্তরগুলির 54.5% সংশোধন করা হয়েছে। মালিকানাধীন LLM 1 এবং সর্বোত্তম ওপেন সোর্স LLM Mistral-8x7B মিশ্রণ সংস্করণ 0.1 (Mixtral-8x7B-v0.1) এর যথাক্রমে 60.5% এবং 59.2% কম নির্ভুলতার হার রয়েছে। BioMistral-7B DARE, বায়োমেডিকাল ক্ষেত্রের জন্য টিউন করা হয়েছে, 33.6% এর নির্ভুলতা অর্জন করেছে।
গদ্য উত্তরের গুণগত চিকিত্সক মূল্যায়ন দেখিয়েছে যে মালিকানাধীন LLM 2 83.7% প্রশ্নের সঠিক এবং ত্রুটি-মুক্ত উত্তর প্রদান করেছে।
যখন প্রশ্নগুলির জন্য সাম্প্রতিক প্রকাশনাগুলির জ্ঞানের প্রয়োজন হয়, তখন ভুল উত্তরগুলি প্রায়শই ঘটতে থাকে এবং জ্ঞান স্মরণে, যুক্তিতে এবং পড়ার বোঝার ক্ষেত্রে ত্রুটি ঘটে।
চিকিত্সকরা 63.6% ত্রুটিকে ক্ষতির কারণ হিসাবে শ্রেণীবদ্ধ করেছেন, 18.2% ক্ষেত্রে কোনও হ্যালুসিনেশন নেই।
উপসংহারে
এই গবেষণায়, LL.M ছাত্ররা ক্লিনিকাল অনুশীলনে প্রবেশকারী প্রশিক্ষণার্থীদের জন্য একটি মেডিকেল অনকোলজি পরীক্ষার প্রশ্নে ভাল পারফর্ম করেছে। মালিকানা LL.M.2 85.0% বহুনির্বাচনী প্রশ্নের সঠিকভাবে উত্তর দিয়ে এবং সঠিক ব্যাখ্যা প্রদান করে ব্যাপক মেডিকেল অনকোলজি জ্ঞান এবং যুক্তি দক্ষতা প্রদর্শন করেছে।
যাইহোক, ভুল উত্তর, বিশেষ করে সাম্প্রতিক প্রকাশনাগুলি জড়িত, গুরুতর নিরাপত্তা উদ্বেগ বাড়ায়। মালিকানা LLM 2 তার পূর্বসূরি, মালিকানাধীন LLM 1 এর চেয়ে ভাল পারফর্ম করে এবং অন্যান্য LLM এর তুলনায় উচ্চ নির্ভুলতা রয়েছে।
গবেষণা দেখায় যে যদিও LL.M.s এর ক্ষমতার উন্নতি হচ্ছে, তথ্য পুনরুদ্ধারে ত্রুটি – বিশেষ করে নতুন প্রমাণের জন্য – ঝুঁকি তৈরি করে। এলএলএম এর মেডিকেল অনকোলজি জ্ঞান আপ টু ডেট রাখার জন্য উন্নত প্রশিক্ষণ এবং ঘন ঘন আপডেট অপরিহার্য।