Study: Performance of Large Language Models on Medical Oncology Examination Questions. Image Credit: BOY ANTHONY/Shutterstock.com

সম্প্রতি প্রকাশিত এক গবেষণায় ড জামা নেটওয়ার্ক ওপেন, গবেষকরা মেডিকেল অনকোলজি পরীক্ষার প্রশ্নের উত্তর দেওয়ার ক্ষেত্রে বড় ভাষা মডেলের (LLMs) নির্ভুলতা এবং নিরাপত্তা মূল্যায়ন করেছেন।

অধ্যয়ন: মেডিকেল অনকোলজি পরীক্ষার প্রশ্নে বড় ভাষার মডেলের পারফরম্যান্স.ইমেজ ক্রেডিট: BOY ANTHONY/Shutterstock.com

পটভূমি

LLM-এর কাজগুলি সম্পূর্ণ করতে এবং রোগীদের সাথে আলাপচারিতায় চিকিত্সকদের সহায়তা করে স্বাস্থ্যসেবায় বিপ্লব ঘটানোর সম্ভাবনা রয়েছে। এই মডেলগুলি পাঠ্যের বৃহৎ কর্পোরার উপর প্রশিক্ষিত এবং মানুষের মতো প্রশ্নের উত্তর দিতে সূক্ষ্ম সুর করা যেতে পারে।

আইনের মাস্টার (LLM) বিস্তৃত চিকিৎসা জ্ঞানের প্রতিনিধিত্ব করে এবং মার্কিন যুক্তরাষ্ট্র (US) মেডিকেল লাইসেন্সিং পরীক্ষায় উত্তীর্ণ হওয়ার ক্ষমতা প্রদর্শন করে, বোঝার এবং যুক্তির দক্ষতা প্রদর্শন করে। যাইহোক, তাদের উপস্থাপনা চিকিৎসা বিশেষত্ব দ্বারা পরিবর্তিত হয়।

জ্ঞানের দ্রুত বিকাশ এবং প্রকাশনার সংখ্যা বৃদ্ধির সাথে সাথে, মেডিকেল অনকোলজি অনন্য চ্যালেঞ্জের মুখোমুখি।

LL.M.s নির্ভরযোগ্যভাবে এবং নিরাপদে তাদের চিকিৎসা জ্ঞানকে মেডিক্যাল অনকোলজির মতো গতিশীল এবং বিশেষ ক্ষেত্রগুলিতে প্রয়োগ করতে পারে তা নিশ্চিত করার জন্য আরও গবেষণার প্রয়োজন, যার ফলে ক্লিনিশিয়ান সহায়তা এবং রোগীর যত্নের উন্নতি হয়।

গবেষণা সম্পর্কে

28 মে থেকে 11 অক্টোবর, 2023 পর্যন্ত পরিচালিত এই অধ্যয়নটি এপিডেমিওলজি (স্ট্রোব) নির্দেশিকাগুলিতে পর্যবেক্ষণমূলক অধ্যয়নের রিপোর্টিং শক্তিশালীকরণ অনুসরণ করে এবং মানব অংশগ্রহণকারীদের অভাবের কারণে নীতিশাস্ত্র কমিটির অনুমোদন বা অবহিত সম্মতির প্রয়োজন হয় নি।

আমেরিকান সোসাইটি অফ ক্লিনিক্যাল অনকোলজি (ASCO) পাবলিক টেস্ট প্রশ্নব্যাঙ্ক 52টি বহুনির্বাচনী প্রশ্ন প্রদান করে, যার প্রতিটির সঠিক উত্তর এবং ব্যাখ্যামূলক রেফারেন্স রয়েছে। একইভাবে, 2021 এবং 2022 ইউরোপীয় সোসাইটি ফর মেডিকেল অনকোলজি (ESMO) পরীক্ষার প্রশ্নগুলি চিত্র-ভিত্তিক প্রশ্নগুলি বাদ দেওয়ার পরে 75 টি প্রশ্ন প্রদান করে, যার উত্তরগুলি অনকোলজিস্টদের দ্বারা তৈরি করা হয়।

পরীক্ষাটি নিরপেক্ষ ছিল তা নিশ্চিত করার জন্য, ক্যান্সার বিশেষজ্ঞরা একাধিক-পছন্দের বিন্যাসে 20টি আসল প্রশ্ন তৈরি করেছেন।

আমরা এই প্রশ্নগুলির উত্তর দিতে এবং তুলনা করার জন্য সমানভাবে লেবেল দিতে Chat Generative Pre-trained Transformer (ChatGPT)-3.5 এবং ChatGPT-4 ব্যবহার করি৷ আমরা BioMistral-7B ডোমেন পুনরুদ্ধার এবং মূল্যায়ন (BioMistral-7B DARE) সহ ছয়টি ওপেন সোর্স LLM-এর মূল্যায়ন করেছি, যা বায়োমেডিকাল ক্ষেত্রের জন্য তৈরি।

রেকর্ড করা প্রতিক্রিয়াগুলি চার-স্তরের ত্রুটি স্কেলে ব্যাখ্যাকে স্থান দেয়। R সংস্করণ 4.3.0 পরীক্ষিত নির্ভুলতা, ত্রুটি বিতরণ, এবং আন্তঃ-অনকোলজিস্ট চুক্তি ব্যবহার করে পরিসংখ্যানগত বিশ্লেষণ।

এই গবেষণায় দ্বিপদী বন্টন, ম্যাকনেমার পরীক্ষা, ফিশার পরীক্ষা, ওজনযুক্ত κ এবং উইলকক্সন র্যাঙ্ক সমষ্টি পরীক্ষা, .05 এর দ্বিমুখী P মান সহ, পরিসংখ্যানগত তাত্পর্য নির্দেশ করে।

গবেষণা ফলাফল

LLM 147টি পরীক্ষার প্রশ্নে মূল্যায়ন করা হয়, যার মধ্যে 52টি ASCO প্রশ্ন, 75টি ESMO প্রশ্ন এবং 20টি মূল প্রশ্ন রয়েছে। হেমাটোলজি ছিল সবচেয়ে সাধারণ বিভাগ (15.0%), কিন্তু প্রশ্নগুলি বিভিন্ন বিষয় কভার করে।

এছাড়াও পড়ুন  'গবাদি পগুর স্বাস্থ্য সুরক্ষা বাংলাদেশ অন কপিছিয়ে'

ESMO প্রশ্নটি আরও সাধারণ এবং এতে পদ্ধতিগত থেরাপির প্রক্রিয়া এবং বিষাক্ত প্রভাব জড়িত। উল্লেখযোগ্যভাবে, 27.9% প্রশ্নের জন্য 2018 সাল থেকে প্রকাশিত প্রমাণ থেকে জ্ঞান প্রয়োজন। এলএলএম সমস্ত প্রশ্নের গদ্য উত্তর প্রদান করে, যেখানে মালিকানাধীন এলএলএম 2 22.4% ক্ষেত্রে নির্দিষ্ট উত্তরের জন্য অনুরোধ করে।

ASCO-র নির্বাচিত প্রশ্নগুলির মধ্যে একটি 62 বছর বয়সী মহিলা জড়িত, মেটাস্ট্যাটিক স্তন ক্যান্সার পালমোনারি এমবোলিজমের লক্ষণ দেখা দেয়। রোগীর ক্যান্সার এবং ভ্রমণের ইতিহাস বিবেচনা করে, মালিকানা LLM 2 সঠিকভাবে নির্ধারণ করেছে যে সর্বোত্তম চিকিত্সা ছিল কম আণবিক ওজন হেপারিন বা সরাসরি মৌখিক অ্যান্টিকোয়াগুল্যান্ট।

আরেকটি ASCO প্রশ্ন মেটাস্ট্যাটিক কোলন ক্যান্সারে আক্রান্ত একজন 61 বছর বয়সী মহিলার বর্ণনা করে যার কেমোথেরাপির পদ্ধতির ফলে নিউরোপ্যাথি হয়। B-Raf প্রোটো-অনকোজিন, সেরিন/থ্রোনাইন কিনেস (BRAF) V600E মিউটেশন এবং এর পার্শ্বপ্রতিক্রিয়ার পরিপ্রেক্ষিতে, LL.M এনকোরাফেনিব এবং সেটুক্সিমাবের সাথে টার্গেটেড থেরাপিতে স্যুইচ করার পরামর্শ দিয়েছে।

মালিকানাধীন LLM 2-এর সর্বোচ্চ নির্ভুলতা ছিল, 85.0% প্রশ্নের সঠিক উত্তর দেয় (147টি প্রশ্নের মধ্যে 125টি), এলোমেলো উত্তর এবং অন্যান্য মডেলের তুলনায় উল্লেখযোগ্যভাবে ভালো। কর্মক্ষমতা ASCO (80.8%), ESMO (88.0%) এবং মূল প্রশ্ন (85.0%) এর জন্য সামঞ্জস্যপূর্ণ।

দ্বিতীয় চেষ্টায়, প্রাথমিকভাবে ভুল উত্তরগুলির 54.5% সংশোধন করা হয়েছে। মালিকানাধীন LLM 1 এবং সর্বোত্তম ওপেন সোর্স LLM Mistral-8x7B মিশ্রণ সংস্করণ 0.1 (Mixtral-8x7B-v0.1) এর যথাক্রমে 60.5% এবং 59.2% কম নির্ভুলতার হার রয়েছে। BioMistral-7B DARE, বায়োমেডিকাল ক্ষেত্রের জন্য টিউন করা হয়েছে, 33.6% এর নির্ভুলতা অর্জন করেছে।

গদ্য উত্তরের গুণগত চিকিত্সক মূল্যায়ন দেখিয়েছে যে মালিকানাধীন LLM 2 83.7% প্রশ্নের সঠিক এবং ত্রুটি-মুক্ত উত্তর প্রদান করেছে।

যখন প্রশ্নগুলির জন্য সাম্প্রতিক প্রকাশনাগুলির জ্ঞানের প্রয়োজন হয়, তখন ভুল উত্তরগুলি প্রায়শই ঘটতে থাকে এবং জ্ঞান স্মরণে, যুক্তিতে এবং পড়ার বোঝার ক্ষেত্রে ত্রুটি ঘটে।

চিকিত্সকরা 63.6% ত্রুটিকে ক্ষতির কারণ হিসাবে শ্রেণীবদ্ধ করেছেন, 18.2% ক্ষেত্রে কোনও হ্যালুসিনেশন নেই।

উপসংহারে

এই গবেষণায়, LL.M ছাত্ররা ক্লিনিকাল অনুশীলনে প্রবেশকারী প্রশিক্ষণার্থীদের জন্য একটি মেডিকেল অনকোলজি পরীক্ষার প্রশ্নে ভাল পারফর্ম করেছে। মালিকানা LL.M.2 85.0% বহুনির্বাচনী প্রশ্নের সঠিকভাবে উত্তর দিয়ে এবং সঠিক ব্যাখ্যা প্রদান করে ব্যাপক মেডিকেল অনকোলজি জ্ঞান এবং যুক্তি দক্ষতা প্রদর্শন করেছে।

যাইহোক, ভুল উত্তর, বিশেষ করে সাম্প্রতিক প্রকাশনাগুলি জড়িত, গুরুতর নিরাপত্তা উদ্বেগ বাড়ায়। মালিকানা LLM 2 তার পূর্বসূরি, মালিকানাধীন LLM 1 এর চেয়ে ভাল পারফর্ম করে এবং অন্যান্য LLM এর তুলনায় উচ্চ নির্ভুলতা রয়েছে।

গবেষণা দেখায় যে যদিও LL.M.s এর ক্ষমতার উন্নতি হচ্ছে, তথ্য পুনরুদ্ধারে ত্রুটি – বিশেষ করে নতুন প্রমাণের জন্য – ঝুঁকি তৈরি করে। এলএলএম এর মেডিকেল অনকোলজি জ্ঞান আপ টু ডেট রাখার জন্য উন্নত প্রশিক্ষণ এবং ঘন ঘন আপডেট অপরিহার্য।

উৎস লিঙ্ক