সম্প্রতি প্রকাশিত এক গবেষণায় ড প্রোস্টেট ক্যান্সার এবং প্রোস্টেট রোগগবেষকদের একটি দল একটি চ্যাট-উত্পাদিত প্রাক-প্রশিক্ষিত ট্রান্সফরমার (ChatGPT) থেকে পুরুষের নিম্ন মূত্রনালীর উপসর্গ (LUTS) এর প্রতিক্রিয়ার নির্ভুলতা এবং মানের মূল্যায়ন করেছে যা প্রতিষ্ঠিত ইউরোলজি রেফারেন্সের বিপরীতে সৌম্য প্রোস্ট্যাটিক বৃদ্ধির (BPE) নির্দেশ করে।
গবেষণা: ChatGPT কি পুরুষের নিম্ন মূত্রনালীর উপসর্গ সম্পর্কে উচ্চ মানের রোগীর তথ্য প্রদান করতে পারে যা সৌম্য প্রস্ট্যাটিক বৃদ্ধির ইঙ্গিত দেয়? ছবির উৎস: Miha Creative/Shutterstock.com
পটভূমি
যেহেতু রোগীরা ক্রমবর্ধমানভাবে অনলাইন চিকিৎসা নির্দেশিকা খোঁজেন, প্রধান ইউরোলজিক্যাল সোসাইটি যেমন অ্যাসোসিয়েশন ফর ইউরোলজি (EAU) এবং আমেরিকান ইউরোলজিক্যাল অ্যাসোসিয়েশন (AUA) উচ্চ মানের সংস্থান সরবরাহ করে। যাইহোক, কৃত্রিম বুদ্ধিমত্তা (AI) এর মতো আধুনিক প্রযুক্তিগুলি তাদের দক্ষতার কারণে ক্রমশ জনপ্রিয় হয়ে উঠছে।
ChatGPT প্রতি মাসে 1.5 মিলিয়নের বেশি ভিজিট করে এবং এটি একটি ব্যবহারকারী-বান্ধব কথোপকথন ইন্টারফেস প্রদান করে। একটি সাম্প্রতিক সমীক্ষায় দেখা গেছে যে 20% ইউরোলজিস্ট ক্লিনিক্যালি ChatGPT ব্যবহার করেন, 56% সিদ্ধান্ত নেওয়ার সম্ভাবনাকে স্বীকৃতি দিয়ে।
ইউরোলজিতে ChatGPT এর নির্ভুলতার উপর অধ্যয়নের মিশ্র ফলাফল রয়েছে। সঠিক, উচ্চ-মানের চিকিৎসা তথ্য প্রদানের ক্ষেত্রে ChatGPT-এর মতো AI টুলগুলির কার্যকারিতা এবং নির্ভরযোগ্যতা সম্পূর্ণরূপে মূল্যায়ন করার জন্য আরও গবেষণা প্রয়োজন।
গবেষণা সম্পর্কে
এই গবেষণায় BPE সম্পর্কিত মূল থিমগুলি সনাক্ত করতে EAU এবং AUA রোগীর তথ্য ওয়েবসাইটগুলি পরীক্ষা করা হয়েছে এবং 88টি প্রাসঙ্গিক প্রশ্ন জিজ্ঞাসা করা হয়েছে।
এই প্রশ্নগুলির মধ্যে সংজ্ঞা, উপসর্গ, রোগ নির্ণয়, ঝুঁকি, ব্যবস্থাপনা এবং চিকিৎসার বিকল্প রয়েছে। প্রতিটি প্রশ্ন পৃথকভাবে ChatGPT-এ জমা দেওয়া হয় এবং উত্তরগুলি রেফারেন্সের সাথে তুলনা করার জন্য রেকর্ড করা হয়।
দুই পরীক্ষক ChatGPT প্রতিক্রিয়াকে সত্য নেতিবাচক (TN), মিথ্যা নেতিবাচক (FN), সত্য পজিটিভ (TP), বা মিথ্যা পজিটিভ (FP) হিসাবে শ্রেণীবদ্ধ করেছেন। সিনিয়র বিশেষজ্ঞদের সাথে আলাপ-আলোচনা বা পরামর্শের মাধ্যমে মতবিরোধের সমাধান করা হয়।
F1 স্কোর, নির্ভুলতা, এবং প্রত্যাহার সহ কর্মক্ষমতা মেট্রিক্স নির্ভুলতা মূল্যায়ন করার জন্য গণনা করা হয়, যেখানে F1 স্কোর মডেল নির্ভুলতার নির্ভরযোগ্যতা মূল্যায়ন করতে ব্যবহৃত হয়।
একটি সামগ্রিক গুণমান স্কোর (GQS) বরাদ্দ করতে 5-পয়েন্ট লিকার্ট স্কেল ব্যবহার করে ChatGPT প্রতিক্রিয়াগুলি সত্যতা, প্রাসঙ্গিকতা, কাঠামো এবং ভাষার জন্য মূল্যায়ন করা হয়। স্কোর 1 (মিথ্যা বা বিভ্রান্তিকর) থেকে 5 পর্যন্ত (অত্যন্ত নির্ভুল এবং প্রাসঙ্গিক)। দুই পরীক্ষকের গড় GQS প্রতিটি প্রশ্নের চূড়ান্ত স্কোর হিসাবে ব্যবহৃত হয়।
GQS স্কোরিং-এ পরীক্ষক চুক্তি পরিমাপ করতে ইন্টারক্লাস কোরিলেশন কোফিসিয়েন্ট (ICC) ব্যবহার করা হয়েছিল, এবং উইলকক্সন স্বাক্ষরিত-র্যাঙ্ক পরীক্ষা ব্যবহার করে পার্থক্যগুলি মূল্যায়ন করা হয়েছিল, 0.05 এর কম p মানগুলিকে তাৎপর্যপূর্ণ বিবেচনা করা হয়েছিল। SAS সংস্করণ 9.4 ব্যবহার করে বিশ্লেষণ করা হয়েছিল।
গবেষণা ফলাফল
ChatGPT BPE সম্পর্কিত আটটি বিভাগে 88টি প্রশ্নের উত্তর দিয়েছে। উল্লেখযোগ্যভাবে, 71.6% প্রশ্ন (88টি প্রশ্নের মধ্যে 63টি) বিপিই ব্যবস্থাপনার উপর দৃষ্টি নিবদ্ধ করে, যার মধ্যে রয়েছে ঐতিহ্যগত অস্ত্রোপচার (27টি প্রশ্ন), ন্যূনতম আক্রমণাত্মক অস্ত্রোপচার চিকিৎসা (MIST, 21টি প্রশ্ন), এবং ফার্মাকোথেরাপি (15টি প্রশ্ন)।
ChatGPT সমস্ত 88টি প্রশ্নের উত্তর তৈরি করেছে, মোট 22,946টি শব্দ এবং 1,430টি বাক্য। তুলনামূলকভাবে, EAU ওয়েবসাইটে 4,914টি শব্দ এবং 200টি বাক্য রয়েছে এবং AUA রোগীর গাইডে 3,472টি শব্দ এবং 238টি বাক্য রয়েছে। এআই-উত্পন্ন উত্তরগুলি উত্স উপাদানের চেয়ে প্রায় তিনগুণ ভাল ছিল।
ChatGPT প্রতিক্রিয়াগুলির জন্য পারফরম্যান্স মেট্রিক্স পরিবর্তিত হয়, F1 স্কোর 0.67 থেকে 1.0 পর্যন্ত, 0.5 থেকে 1.0 পর্যন্ত নির্ভুল স্কোর এবং 0.9 থেকে 1.0 পর্যন্ত রিকল।
GQS পরিসীমা 3.5 থেকে 5। সামগ্রিকভাবে, ChatGPT-এর একটি F1 স্কোর 0.79, একটি নির্ভুল স্কোর 0.66, এবং একটি প্রত্যাহার স্কোর 0.97। দুই পরীক্ষকের মধ্যকার GQS স্কোর ছিল 4, যার রেঞ্জ 1 থেকে 5।
পরীক্ষকরা তাদের উত্তরের সামগ্রিক মানের জন্য 0.72 এর p-মান সহ তাদের দেওয়া মার্কগুলির মধ্যে কোন পরিসংখ্যানগতভাবে উল্লেখযোগ্য পার্থক্য খুঁজে পাননি। তারা 0.86 এর আইসিসি সহ তাদের মধ্যে একটি উচ্চ স্তরের চুক্তি নির্ধারণ করেছে।
উপসংহারে
সব মিলিয়ে, ChatGPT 0.5 এর উপরে ধারাবাহিকভাবে পারফরম্যান্স মেট্রিক এবং 4 এর সামগ্রিক GQS সহ 88টি প্রশ্নের উত্তর দিয়েছে, যা একটি উচ্চ মানের প্রতিক্রিয়া নির্দেশ করে। যাইহোক, ChatGPT-এর প্রতিক্রিয়া প্রায়শই খুব দীর্ঘ হয়।
বিপিই ধারণার উপর চমৎকার পারফরম্যান্সের সাথে, কিন্তু ন্যূনতম আক্রমণাত্মক অস্ত্রোপচারের চিকিৎসায় খারাপ কর্মক্ষমতা সহ বিভিন্ন বিষয় জুড়ে নির্ভুলতা পরিবর্তিত হয়। উত্তরের মানের বিষয়ে পরীক্ষকদের মধ্যে উচ্চ স্তরের চুক্তি মূল্যায়ন প্রক্রিয়ার নির্ভরযোগ্যতা তুলে ধরে।
যেহেতু AI বিকশিত হতে চলেছে, এটি রোগীর শিক্ষা এবং সহায়তা বাড়ানোর প্রতিশ্রুতি দেয়, তবে চলমান মূল্যায়ন এবং উন্নতি ক্লিনিকাল সেটিংসে এর উপযোগিতা সর্বাধিক করার জন্য গুরুত্বপূর্ণ।