মাউন্ট সিনাইয়ের আইকান স্কুল অফ মেডিসিনের গবেষকরা বলছেন যে অত্যাধুনিক কৃত্রিম বুদ্ধিমত্তা সিস্টেম যা বড় ভাষা মডেল (এলএলএম) নামে পরিচিত তা দুর্বল মেডিকেল কোডার।তাদের গবেষণা 19 এপ্রিল অনলাইন ইস্যু প্রদর্শিত NEJM কৃত্রিম বুদ্ধিমত্তাক্লিনিকাল বাস্তবায়ন বিবেচনা করার আগে এই প্রযুক্তিগুলিকে পরিমার্জিত এবং যাচাই করার প্রয়োজনীয়তার উপর জোর দিন।
অধ্যয়নটি মাউন্ট সিনাই হেলথ সিস্টেমের 12 মাসের রুটিন কেয়ার থেকে 27,000টিরও বেশি অনন্য রোগ নির্ণয় এবং পদ্ধতির কোডের একটি তালিকা বের করেছে, যেখানে শনাক্তযোগ্য রোগীর ডেটা বাদ দেওয়া হয়েছে।প্রতিটির একটি বর্ণনা ব্যবহার করুন কোড, গবেষকরা ওপেনএআই, গুগল এবং মেটা থেকে মডেলগুলিকে সবচেয়ে সঠিক মেডিকেল কোড আউটপুট করার জন্য অনুরোধ করেছিলেন। মূল কোডের সাথে জেনারেট করা কোডের তুলনা করুন এবং ত্রুটির জন্য যেকোন প্যাটার্ন বিশ্লেষণ করুন।
গবেষকরা রিপোর্ট করেছেন যে GPT-4, GPT-3.5, Gemini-pro, এবং Llama-2-70b সহ অধ্যয়ন করা সমস্ত বড় ভাষার মডেলগুলি মূল মেডিকেল কোডগুলি পুনরুত্পাদনের ক্ষেত্রে সীমিত নির্ভুলতা (50% এর কম) দেখিয়েছে, যা একটি উল্লেখযোগ্য বৈশিষ্ট্যকে তুলে ধরে মেডিকেল কোডিং এর জন্য তাদের ইউটিলিটির মধ্যে ফাঁক। সর্বোচ্চ সঠিক ম্যাচ হার সহ GPT-4 সেরা পারফরম্যান্স প্রদর্শন করেছে আইসিডি-9-CM (45.9%), ICD-10-CM (33.9%), এবং CPT কোড (49.8%)।
GPT-4 ভুলভাবে জেনারেট করা কোডের সর্বোচ্চ অনুপাতও তৈরি করে যা এখনও সঠিক অর্থ প্রকাশ করে। উদাহরণস্বরূপ, GPT-4 “নোডুলার প্রস্টেট” এর জন্য একটি কোড তৈরি করেছে যখন ICD-9-CM এটিকে “মূত্রনালীর বাধা ছাড়াই নোডুলার প্রোস্টেট” হিসাবে বর্ণনা করেছে, যা চিকিৎসা পরিভাষা সম্পর্কে তুলনামূলকভাবে সংক্ষিপ্ত বোঝাপড়া প্রদর্শন করে। যাইহোক, এমনকি এই প্রযুক্তিগতভাবে সঠিক কোডটি বিবেচনায় নিয়ে, এখনও একটি অগ্রহণযোগ্য সংখ্যক বাগ রয়েছে।
পরবর্তী সেরা পারফর্মার মডেল, GPT-3.5, ঝাপসা হয়ে যাওয়ার সম্ভাবনা সবচেয়ে বেশি। এটি ভুলভাবে কোডগুলির সর্বোচ্চ অনুপাত তৈরি করে যেগুলি সঠিক হলেও, সঠিক কোডগুলির তুলনায় প্রকৃতিতে আরও সাধারণ। এই ক্ষেত্রে, যখন ICD-9-CM বর্ণনা “অ্যানেস্থেশিয়ার অনির্দিষ্ট প্রতিকূল প্রতিক্রিয়া” প্রদান করা হয়েছিল, GPT-3.5 একটি কোড তৈরি করেছিল “অন্য নির্দিষ্ট বিরূপ প্রতিক্রিয়া, অন্য কোথাও শ্রেণীবদ্ধ নয়।”
“আমাদের ফলাফলগুলি মেডিকেল কোডিংয়ের মতো সংবেদনশীল পরিচালন এলাকায় AI প্রযুক্তি স্থাপনের আগে কঠোর মূল্যায়নের প্রয়োজনীয়তা তুলে ধরেছে,” বলেছেন গবেষণার সংশ্লিষ্ট লেখক, MD, MS, Data-Driven and Digital Medicine (D3M) এবং পারফেকশনের সহকারী অধ্যাপক৷ মাউন্ট সিনাই আইকান মেডিসিন (গ্যাস্ট্রোএন্টারোলজি)।
“যদিও কৃত্রিম বুদ্ধিমত্তার প্রচুর সম্ভাবনা রয়েছে, তবে এটিকে সতর্কতার সাথে যোগাযোগ করতে হবে এবং স্বাস্থ্যসেবায় এর নির্ভরযোগ্যতা এবং কার্যকারিতা নিশ্চিত করার জন্য ক্রমাগত বিকাশ করতে হবে।”
এই মডেলগুলির একটি সম্ভাব্য অ্যাপ্লিকেশন স্বাস্থ্যসেবা শিল্পগবেষকরা বলছেন যে মেডিক্যাল কোডগুলি স্বয়ংক্রিয়ভাবে ক্লিনিকাল পাঠ্যের উপর ভিত্তি করে পরিশোধ এবং গবেষণার উদ্দেশ্যে বরাদ্দ করা হচ্ছে।
“আগের গবেষণায় এটি আরও নতুন দেখানো হয়েছে বড় ভাষা মডেল ডিজিটাল কাজ নিয়ে লড়াই। যাইহোক, ক্লিনিকাল পাঠ্য থেকে চিকিৎসা কোড বরাদ্দ করার ক্ষেত্রে তাদের নির্ভুলতা বিভিন্ন মডেলে পুঙ্খানুপুঙ্খভাবে তদন্ত করা হয়নি। “কো-সিনিয়র লেখক ইয়াল ক্লাং, এমডি, পিএইচডি, ডি3এম এর জেনারেটিভ আর্টিফিশিয়াল ইন্টেলিজেন্স রিসার্চ প্রোগ্রামের পরিচালক বলেছেন।
“সুতরাং আমরা এই মডেলগুলি তাদের সংশ্লিষ্ট অফিসিয়াল পাঠ্য বিবরণের সাথে মেডিক্যাল কোডগুলিকে মেলানোর মৌলিক কাজটি কার্যকরভাবে সম্পাদন করতে পারে কিনা তা মূল্যায়ন করার লক্ষ্য রেখেছি।”
অধ্যয়নের লেখকরা প্রস্তাব করেন যে বিশেষজ্ঞ জ্ঞানের সাথে LL.M এর সংমিশ্রণ চিকিৎসা কোডগুলিকে স্বয়ংক্রিয়ভাবে বের করতে পারে, সম্ভাব্যভাবে বিলিং সঠিকতা উন্নত করতে পারে এবং স্বাস্থ্যসেবার প্রশাসনিক খরচ কমাতে পারে।
“এই গবেষণাটি স্বাস্থ্যসেবাতে কৃত্রিম বুদ্ধিমত্তার বর্তমান সক্ষমতা এবং চ্যালেঞ্জগুলির উপর আলোকপাত করে, ব্যাপকভাবে গ্রহণের আগে সতর্কতার সাথে বিবেচনা এবং আরও পরিমার্জনার প্রয়োজনীয়তা তুলে ধরে,” বলেছেন সহ-সিনিয়র লেখক গিরিশ নাদকার্নি, এমডি, এমপিএইচ, আইরিন এবং আর্থার এম। ফিশবার্গ, মাউন্ট সিনাই-এর মেডিসিনের অধ্যাপক, ব্যক্তিগতকৃত মেডিসিনের জন্য চার্লস ব্রনফম্যান ইনস্টিটিউটের পরিচালক এবং ডি3এম সিস্টেমের পরিচালক।
গবেষকরা সতর্ক করেছেন যে অধ্যয়নের কৃত্রিম কাজগুলি বাস্তব জীবনের পরিস্থিতিগুলিকে সম্পূর্ণরূপে উপস্থাপন করতে পারে না যেখানে LL.M.
এরপরে, গবেষণা দলটি স্বাস্থ্যসেবা কার্যক্রমের গুণমান এবং দক্ষতার উন্নতির লক্ষ্যে সঠিক মেডিকেল ডেটা এক্সট্রাকশন এবং বিলিং কোড অ্যাসাইনমেন্টের জন্য কাস্টমাইজড এলএলএম টুলস তৈরি করার পরিকল্পনা করেছে।
গবেষণার শিরোনাম “বড় ভাষার মডেল তৈরি করা দুর্বল মেডিকেল কোডার তৈরি করে: মেডিকেল কোড প্রশ্নের একটি বেঞ্চমার্ক বিশ্লেষণ।”
কাগজের বাকি লেখকরা (অন্যথায় উল্লেখ না থাকলে) মাউন্ট সিনাই থেকে এসেছেন: বেঞ্জামিন এস. গ্লিকসবার্গ, পিএইচডি; ) রবার্ট ফ্রিম্যান, আরএন, এমএসএন, এনই-বিসি, এমডি, পিএইচডি;
অধিক তথ্য:
আলী সরোশ এট আল।, বড় ভাষার মডেলগুলি খারাপ মেডিকেল কোডার – মেডিকেল কোড প্রশ্নের জন্য একটি বেঞ্চমার্ক, NEJM কৃত্রিম বুদ্ধিমত্তা (2024)। DOI: 10.1056/AIdbp2300040
দ্বারা প্রদান করা হয়
মাউন্ট সিনাই হাসপাতাল
উদ্ধৃতি: কৃত্রিম বুদ্ধিমত্তার অগ্রগতি সত্ত্বেও, মানুষের তত্ত্বাবধান সমালোচনামূলক রয়ে গেছে: অধ্যয়ন (2024, এপ্রিল 22) সংগৃহীত 22 এপ্রিল, 2024, https://medicalxpress.com/news/2024-04-ai- advancements- human-oversight-essential থেকে। html
এই নথিটি কপিরাইট দ্বারা সুরক্ষিত। ব্যক্তিগত অধ্যয়ন বা গবেষণার উদ্দেশ্যে ন্যায্য লেনদেনের স্বার্থ ছাড়া লিখিত অনুমতি ছাড়া কোনো অংশ পুনরুত্পাদন করা যাবে না। বিষয়বস্তু শুধুমাত্র রেফারেন্স জন্য.