Study: Can ChatGPT provide high-quality patient information on male lower urinary tract symptoms suggestive of benign prostate enlargement? Image Credit: Miha Creative/Shutterstock.com

সম্প্রতি প্রকাশিত এক গবেষণায় ড প্রোস্টেট ক্যান্সার এবং প্রোস্টেট রোগগবেষকদের একটি দল একটি চ্যাট-উত্পাদিত প্রাক-প্রশিক্ষিত ট্রান্সফরমার (ChatGPT) থেকে পুরুষের নিম্ন মূত্রনালীর উপসর্গ (LUTS) এর প্রতিক্রিয়ার নির্ভুলতা এবং মানের মূল্যায়ন করেছে যা প্রতিষ্ঠিত ইউরোলজি রেফারেন্সের বিপরীতে সৌম্য প্রোস্ট্যাটিক বৃদ্ধির (BPE) নির্দেশ করে।

গবেষণা: ChatGPT কি পুরুষের নিম্ন মূত্রনালীর উপসর্গ সম্পর্কে উচ্চ মানের রোগীর তথ্য প্রদান করতে পারে যা সৌম্য প্রস্ট্যাটিক বৃদ্ধির ইঙ্গিত দেয়? ছবির উৎস: Miha Creative/Shutterstock.com

পটভূমি

যেহেতু রোগীরা ক্রমবর্ধমানভাবে অনলাইন চিকিৎসা নির্দেশিকা খোঁজেন, প্রধান ইউরোলজিক্যাল সোসাইটি যেমন অ্যাসোসিয়েশন ফর ইউরোলজি (EAU) এবং আমেরিকান ইউরোলজিক্যাল অ্যাসোসিয়েশন (AUA) উচ্চ মানের সংস্থান সরবরাহ করে। যাইহোক, কৃত্রিম বুদ্ধিমত্তা (AI) এর মতো আধুনিক প্রযুক্তিগুলি তাদের দক্ষতার কারণে ক্রমশ জনপ্রিয় হয়ে উঠছে।

ChatGPT প্রতি মাসে 1.5 মিলিয়নের বেশি ভিজিট করে এবং এটি একটি ব্যবহারকারী-বান্ধব কথোপকথন ইন্টারফেস প্রদান করে। একটি সাম্প্রতিক সমীক্ষায় দেখা গেছে যে 20% ইউরোলজিস্ট ক্লিনিক্যালি ChatGPT ব্যবহার করেন, 56% সিদ্ধান্ত নেওয়ার সম্ভাবনাকে স্বীকৃতি দিয়ে।

ইউরোলজিতে ChatGPT এর নির্ভুলতার উপর অধ্যয়নের মিশ্র ফলাফল রয়েছে। সঠিক, উচ্চ-মানের চিকিৎসা তথ্য প্রদানের ক্ষেত্রে ChatGPT-এর মতো AI টুলগুলির কার্যকারিতা এবং নির্ভরযোগ্যতা সম্পূর্ণরূপে মূল্যায়ন করার জন্য আরও গবেষণা প্রয়োজন।

গবেষণা সম্পর্কে

এই গবেষণায় BPE সম্পর্কিত মূল থিমগুলি সনাক্ত করতে EAU এবং AUA রোগীর তথ্য ওয়েবসাইটগুলি পরীক্ষা করা হয়েছে এবং 88টি প্রাসঙ্গিক প্রশ্ন জিজ্ঞাসা করা হয়েছে।

এই প্রশ্নগুলির মধ্যে সংজ্ঞা, উপসর্গ, রোগ নির্ণয়, ঝুঁকি, ব্যবস্থাপনা এবং চিকিৎসার বিকল্প রয়েছে। প্রতিটি প্রশ্ন পৃথকভাবে ChatGPT-এ জমা দেওয়া হয় এবং উত্তরগুলি রেফারেন্সের সাথে তুলনা করার জন্য রেকর্ড করা হয়।

দুই পরীক্ষক ChatGPT প্রতিক্রিয়াকে সত্য নেতিবাচক (TN), মিথ্যা নেতিবাচক (FN), সত্য পজিটিভ (TP), বা মিথ্যা পজিটিভ (FP) হিসাবে শ্রেণীবদ্ধ করেছেন। সিনিয়র বিশেষজ্ঞদের সাথে আলাপ-আলোচনা বা পরামর্শের মাধ্যমে মতবিরোধের সমাধান করা হয়।

F1 স্কোর, নির্ভুলতা, এবং প্রত্যাহার সহ কর্মক্ষমতা মেট্রিক্স নির্ভুলতা মূল্যায়ন করার জন্য গণনা করা হয়, যেখানে F1 স্কোর মডেল নির্ভুলতার নির্ভরযোগ্যতা মূল্যায়ন করতে ব্যবহৃত হয়।

একটি সামগ্রিক গুণমান স্কোর (GQS) বরাদ্দ করতে 5-পয়েন্ট লিকার্ট স্কেল ব্যবহার করে ChatGPT প্রতিক্রিয়াগুলি সত্যতা, প্রাসঙ্গিকতা, কাঠামো এবং ভাষার জন্য মূল্যায়ন করা হয়। স্কোর 1 (মিথ্যা বা বিভ্রান্তিকর) থেকে 5 পর্যন্ত (অত্যন্ত নির্ভুল এবং প্রাসঙ্গিক)। দুই পরীক্ষকের গড় GQS প্রতিটি প্রশ্নের চূড়ান্ত স্কোর হিসাবে ব্যবহৃত হয়।

এছাড়াও পড়ুন  দেখুন: স্রষ্টা গোলাপী মার্শম্যালোকে চিনিতে পরিণত করেছেন এবং নেটিজেনদের মিশ্র প্রতিক্রিয়া রয়েছে

GQS স্কোরিং-এ পরীক্ষক চুক্তি পরিমাপ করতে ইন্টারক্লাস কোরিলেশন কোফিসিয়েন্ট (ICC) ব্যবহার করা হয়েছিল, এবং উইলকক্সন স্বাক্ষরিত-র্যাঙ্ক পরীক্ষা ব্যবহার করে পার্থক্যগুলি মূল্যায়ন করা হয়েছিল, 0.05 এর কম p মানগুলিকে তাৎপর্যপূর্ণ বিবেচনা করা হয়েছিল। SAS সংস্করণ 9.4 ব্যবহার করে বিশ্লেষণ করা হয়েছিল।

গবেষণা ফলাফল

ChatGPT BPE সম্পর্কিত আটটি বিভাগে 88টি প্রশ্নের উত্তর দিয়েছে। উল্লেখযোগ্যভাবে, 71.6% প্রশ্ন (88টি প্রশ্নের মধ্যে 63টি) বিপিই ব্যবস্থাপনার উপর দৃষ্টি নিবদ্ধ করে, যার মধ্যে রয়েছে ঐতিহ্যগত অস্ত্রোপচার (27টি প্রশ্ন), ন্যূনতম আক্রমণাত্মক অস্ত্রোপচার চিকিৎসা (MIST, 21টি প্রশ্ন), এবং ফার্মাকোথেরাপি (15টি প্রশ্ন)।

ChatGPT সমস্ত 88টি প্রশ্নের উত্তর তৈরি করেছে, মোট 22,946টি শব্দ এবং 1,430টি বাক্য। তুলনামূলকভাবে, EAU ওয়েবসাইটে 4,914টি শব্দ এবং 200টি বাক্য রয়েছে এবং AUA রোগীর গাইডে 3,472টি শব্দ এবং 238টি বাক্য রয়েছে। এআই-উত্পন্ন উত্তরগুলি উত্স উপাদানের চেয়ে প্রায় তিনগুণ ভাল ছিল।

ChatGPT প্রতিক্রিয়াগুলির জন্য পারফরম্যান্স মেট্রিক্স পরিবর্তিত হয়, F1 স্কোর 0.67 থেকে 1.0 পর্যন্ত, 0.5 থেকে 1.0 পর্যন্ত নির্ভুল স্কোর এবং 0.9 থেকে 1.0 পর্যন্ত রিকল।

GQS পরিসীমা 3.5 থেকে 5। সামগ্রিকভাবে, ChatGPT-এর একটি F1 স্কোর 0.79, একটি নির্ভুল স্কোর 0.66, এবং একটি প্রত্যাহার স্কোর 0.97। দুই পরীক্ষকের মধ্যকার GQS স্কোর ছিল 4, যার রেঞ্জ 1 থেকে 5।

পরীক্ষকরা তাদের উত্তরের সামগ্রিক মানের জন্য 0.72 এর p-মান সহ তাদের দেওয়া মার্কগুলির মধ্যে কোন পরিসংখ্যানগতভাবে উল্লেখযোগ্য পার্থক্য খুঁজে পাননি। তারা 0.86 এর আইসিসি সহ তাদের মধ্যে একটি উচ্চ স্তরের চুক্তি নির্ধারণ করেছে।

উপসংহারে

সব মিলিয়ে, ChatGPT 0.5 এর উপরে ধারাবাহিকভাবে পারফরম্যান্স মেট্রিক এবং 4 এর সামগ্রিক GQS সহ 88টি প্রশ্নের উত্তর দিয়েছে, যা একটি উচ্চ মানের প্রতিক্রিয়া নির্দেশ করে। যাইহোক, ChatGPT-এর প্রতিক্রিয়া প্রায়শই খুব দীর্ঘ হয়।

বিপিই ধারণার উপর চমৎকার পারফরম্যান্সের সাথে, কিন্তু ন্যূনতম আক্রমণাত্মক অস্ত্রোপচারের চিকিৎসায় খারাপ কর্মক্ষমতা সহ বিভিন্ন বিষয় জুড়ে নির্ভুলতা পরিবর্তিত হয়। উত্তরের মানের বিষয়ে পরীক্ষকদের মধ্যে উচ্চ স্তরের চুক্তি মূল্যায়ন প্রক্রিয়ার নির্ভরযোগ্যতা তুলে ধরে।

যেহেতু AI বিকশিত হতে চলেছে, এটি রোগীর শিক্ষা এবং সহায়তা বাড়ানোর প্রতিশ্রুতি দেয়, তবে চলমান মূল্যায়ন এবং উন্নতি ক্লিনিকাল সেটিংসে এর উপযোগিতা সর্বাধিক করার জন্য গুরুত্বপূর্ণ।

উৎস লিঙ্ক