ওপিওড সংকট মোকাবেলায় কৃত্রিম বুদ্ধিমত্তা ব্যবহার করার জন্য UC সান দিয়েগোর উদ্যোগ

এআই মডেলগুলি প্রায়শই চিকিৎসা নির্ণয়ে ভূমিকা পালন করে, বিশেষ করে যখন এক্স-রে-এর মতো ছবি বিশ্লেষণ করা হয়। যাইহোক, গবেষণায় দেখা গেছে যে এই মডেলগুলি সর্বদা সমস্ত জনসংখ্যার গোষ্ঠীতে ভাল পারফরম্যান্স করে না, প্রায়শই মহিলাদের এবং বর্ণের লোকেদের উপর খারাপ পারফর্ম করে।

এই মডেলগুলি কিছু আশ্চর্যজনক ক্ষমতাও প্রদর্শন করে। 2022 সালে, এমআইটি গবেষকরা রিপোর্ট করেছেন যে একটি কৃত্রিম বুদ্ধিমত্তা মডেল তাদের বুকের এক্স-রে-র উপর ভিত্তি করে রোগীর দৌড়ের সঠিকভাবে ভবিষ্যদ্বাণী করতে পারে – এমন কিছু যা সবচেয়ে দক্ষ রেডিওলজিস্টরাও করতে পারেনি।

গবেষণা দলটি এখন খুঁজে পেয়েছে যে মডেলগুলি যেগুলি জনসংখ্যাগত ভবিষ্যদ্বাণীতে সবচেয়ে নির্ভুল ছিল সেগুলিও সবচেয়ে বড় “ইক্যুইটি ফাঁক” দেখিয়েছে – বিভিন্ন জাতি বা লিঙ্গের মানুষের চিত্র নির্ভুলভাবে নির্ণয়ের ক্ষেত্রে বৈষম্য। গবেষণায় দেখা গেছে যে মডেলগুলি ডায়াগনস্টিক মূল্যায়ন করার সময় “ডেমোগ্রাফিক শর্টকাট” ব্যবহার করতে পারে, যা নারী, কালো মানুষ এবং অন্যান্য গোষ্ঠীর জন্য ভুল ফলাফলের দিকে পরিচালিত করে, গবেষকরা বলেছেন।

“এটা জানা যায় যে উচ্চ-ভলিউম মেশিন লার্নিং মডেলগুলি মানব জনসংখ্যার ভবিষ্যদ্বাণী করতে পারে যেমন স্ব-প্রতিবেদিত জাতি, লিঙ্গ, বা বয়স খুব ভাল। এই কাগজটি এই ক্ষমতাটিকে পুনরায় প্রদর্শন করে এবং তারপর এই ক্ষমতাটিকে বিভিন্ন গোষ্ঠীতে দুর্বল কর্মক্ষমতার সাথে তুলনা করে, এটি সংযুক্ত। নজিরবিহীন,” এমআইটির ইলেকট্রিক্যাল ইঞ্জিনিয়ারিং এবং কম্পিউটার সায়েন্সের সহযোগী অধ্যাপক, এমআইটির ইনস্টিটিউট ফর মেডিক্যাল ইঞ্জিনিয়ারিং অ্যান্ড সায়েন্সের সদস্য এবং গবেষণার সিনিয়র লেখক মার্জিয়েহ গাসেমি বলেছেন।

গবেষকরা আরও খুঁজে পেয়েছেন যে তারা মডেলটিকে আরও ন্যায্য করতে পুনরায় প্রশিক্ষণ দিতে পারে। যাইহোক, তাদের “debiasing” পদ্ধতি সবচেয়ে ভাল কাজ করে যখন মডেলটি একই ধরণের রোগীদের উপর পরীক্ষা করা হয়, যেমন একই হাসপাতালের রোগীদের। যখন এই মডেলগুলি বিভিন্ন হাসপাতালের রোগীদের জন্য প্রয়োগ করা হয়, তখন ইক্যুইটি ফাঁক আবার দেখা দেয়।

আমি মনে করি মূল টেকওয়েগুলি হল: প্রথমত, আপনার নিজের ডেটাতে কোনও বাহ্যিক মডেলকে পুঙ্খানুপুঙ্খভাবে মূল্যায়ন করা উচিত, কারণ মডেল বিকাশকারীরা তাদের প্রশিক্ষণের ডেটাতে প্রদত্ত যে কোনও ন্যায্যতার গ্যারান্টি আপনার জনসংখ্যাতে স্থানান্তর করতে পারে না। দ্বিতীয়ত, যতক্ষণ আপনার কাছে পর্যাপ্ত ডেটা থাকে, আপনার নিজের ডেটাতে মডেলটিকে প্রশিক্ষণ দেওয়া উচিত। “


হাওরান ঝাং, এমআইটি-এর একজন স্নাতক ছাত্র এবং নতুন কাগজের প্রধান লেখকদের একজন

এমআইটি স্নাতক ছাত্র ইউজে ইয়াংও এই গবেষণাপত্রের প্রধান লেখক, যা প্রকাশিত হবে প্রাকৃতিক ঔষধইমোরি ইউনিভার্সিটি স্কুল অফ মেডিসিনের রেডিওলজি এবং ইমেজিং সায়েন্সের সহযোগী অধ্যাপক জুডি গিচোয়া এবং এমআইটি-তে ইলেকট্রিক্যাল ইঞ্জিনিয়ারিং এবং কম্পিউটার সায়েন্সের থুয়ান এবং নিকোল ফাম অধ্যাপক ড.

পক্ষপাত দূর করুন

2024 সালের মে পর্যন্ত, এফডিএ 882টি AI-সক্ষম মেডিকেল ডিভাইস অনুমোদন করেছে, যার মধ্যে 671টি রেডিওলজিতে ব্যবহারের জন্য ডিজাইন করা হয়েছে। যেহেতু ঘাসেমি এবং তার সহকর্মীরা 2022 সালে দেখিয়েছিলেন যে এই ডায়াগনস্টিক মডেলগুলি সঠিকভাবে জাতি সম্পর্কে ভবিষ্যদ্বাণী করতে পারে, তারা এবং অন্যান্য গবেষকরা দেখিয়েছেন যে মডেলগুলি লিঙ্গ এবং বয়সের পূর্বাভাস দেওয়ার ক্ষেত্রে দুর্দান্ত, এমনকি যদি তারা এই কাজগুলিতে প্রশিক্ষিত না হয়।

“অনেক জনপ্রিয় মেশিন লার্নিং মডেলের অতিমানবীয় জনসংখ্যাগত ভবিষ্যদ্বাণী করার ক্ষমতা রয়েছে – রেডিওলজিস্টরা বুকের এক্স-রে থেকে স্ব-প্রতিবেদিত জাতি সনাক্ত করতে পারে না,” ঘাসেমি বলেন। “এই মডেলগুলি রোগের পূর্বাভাস দিতে ভাল, কিন্তু প্রশিক্ষণের সময়, তারা অন্যান্য অবস্থার ভবিষ্যদ্বাণী করতে শিখছে যা আদর্শ নাও হতে পারে এই গবেষণায়, গবেষকরা কেন এই মডেলগুলি নির্দিষ্ট গোষ্ঠীর জন্য কাজ করে না।” বিশেষ করে, তারা দেখতে চেয়েছিল যে মডেলগুলি ভবিষ্যদ্বাণী করতে জনসংখ্যাগত শর্টকাট ব্যবহার করেছে কিনা যা নির্দিষ্ট গোষ্ঠীর জন্য কম নির্ভুল হয়েছে। এই শর্টকাটগুলি ঘটতে পারে যখন AI মডেলগুলি চিত্রের অন্যান্য বৈশিষ্ট্যগুলির উপর নির্ভর না করে একটি মেডিকেল অবস্থা উপস্থিত কিনা তা নির্ধারণ করতে জনসংখ্যাগত বৈশিষ্ট্যগুলি ব্যবহার করে।

বোস্টনের বেথ ইজরায়েল ডেকোনেস মেডিকেল সেন্টার থেকে সর্বজনীনভাবে উপলব্ধ বুকের এক্স-রে ডেটাসেট ব্যবহার করে, গবেষকরা একজন রোগীর তিনটি ভিন্ন অবস্থা রয়েছে কিনা তা ভবিষ্যদ্বাণী করার জন্য একটি মডেল প্রশিক্ষিত করেছেন: ফুসফুসে তরল, একটি ধসে পড়া ফুসফুস, বা একটি বর্ধিত হৃদয়। তারপরে তারা প্রশিক্ষণের ডেটাতে রাখা এক্স-রেতে মডেলটি পরীক্ষা করে।

এছাড়াও পড়ুন  'বিশ্ব কর্মক্ষেত্রেনিরাপত্তাওস্বাস্থ্যদি বস ২০২৪' পালন কর এনারপ্যাক

সামগ্রিকভাবে, মডেলগুলি ভাল পারফর্ম করেছে, তবে বেশিরভাগই “ইক্যুইটি ফাঁক” দেখিয়েছে — পুরুষ এবং মহিলা, সাদা এবং কালো রোগীদের মধ্যে নির্ভুলতার পার্থক্য।

মডেলগুলিও এক্স-রে বিষয়ের লিঙ্গ, জাতি এবং বয়সের পূর্বাভাস দিতে সক্ষম। উপরন্তু, জনসংখ্যাগত ভবিষ্যদ্বাণীতে প্রতিটি মডেলের যথার্থতা এবং এর ন্যায্যতার ব্যবধানের আকারের মধ্যে একটি উল্লেখযোগ্য সম্পর্ক ছিল। এটি পরামর্শ দেয় যে এই মডেলগুলি রোগের পূর্বাভাসের জন্য একটি শর্টকাট হিসাবে জনসংখ্যার শ্রেণীবিভাগ ব্যবহার করতে পারে।

গবেষকরা তখন ইক্যুইটি ফাঁক বন্ধ করার জন্য দুটি কৌশল চেষ্টা করেছিলেন। মডেলের একটি সেটের জন্য, তারা তাদের “সাবগ্রুপের দৃঢ়তা” অপ্টিমাইজ করার জন্য প্রশিক্ষণ দিয়েছিল, যার অর্থ হল যদি মডেলটি সবচেয়ে খারাপ-পারফর্মিং সাবগ্রুপে আরও ভাল পারফর্ম করে, অন্য গোষ্ঠীর তুলনায় মডেলটির একটি গ্রুপে ত্রুটির হার বেশি থাকলে এটি পুরস্কৃত হয়। , তোমাকে শাস্তি দেওয়া হবে।

মডেলের অন্য সেটে, গবেষকরা ছবি থেকে কোনো জনসংখ্যা সংক্রান্ত তথ্য মুছে ফেলতে বাধ্য করার জন্য একটি “গ্রুপ দ্বন্দ্ব” পদ্ধতি ব্যবহার করেছিলেন। গবেষকরা দেখতে পেয়েছেন যে উভয় কৌশলই বেশ কার্যকর ছিল।

“অভ্যন্তরীণ-বন্টন ডেটার জন্য, আপনি সামগ্রিক কর্মক্ষমতার ক্ষেত্রে উল্লেখযোগ্য ত্যাগ না করে ন্যায্যতার ব্যবধান কমাতে বিদ্যমান উন্নত পদ্ধতিগুলি ব্যবহার করতে পারেন,” ঘাসেমি বলেন, “উপ-গ্রুপ দৃঢ়তা পদ্ধতিগুলি নির্দিষ্ট গোষ্ঠী এবং গোষ্ঠীগুলিকে ভুল ভবিষ্যদ্বাণী করার জন্য খুব সংবেদনশীল হতে বাধ্য করে৷ গ্রুপের তথ্য সম্পূর্ণরূপে মুছে ফেলার চেষ্টা করুন।”

সবসময় ন্যায্য নয়

যাইহোক, এই পদ্ধতিগুলি শুধুমাত্র তখনই কাজ করে যখন মডেলটি একই ধরণের রোগীদের ডেটার উপর পরীক্ষা করা হয় যার উপর এটি প্রশিক্ষিত হয়েছিল—উদাহরণস্বরূপ, শুধুমাত্র বেথ ইজরায়েল ডেকোনেস মেডিকেল সেন্টার ডেটাসেটের রোগীদের জন্য।

গবেষকরা যখন অন্য পাঁচটি হাসপাতালের ডেটাসেট থেকে রোগীদের বিশ্লেষণ করার জন্য BIDMC ডেটা ব্যবহার করে “debiased” মডেলটি পরীক্ষা করেন, তখন তারা দেখতে পান যে মডেলটির সামগ্রিক নির্ভুলতা উচ্চ রয়ে গেছে, কিন্তু কিছু মডেল বড় ইক্যুইটি গ্যাপ দেখিয়েছে।

“যদি আপনি রোগীদের একটি গ্রুপে মডেলটিকে ডেবিয়াস করেন, আপনি যখন অন্য হাসপাতালে অন্য হাসপাতালের রোগীদের একটি নতুন গ্রুপে চলে যান তখন সেই ন্যায্যতা অগত্যা সত্য হয় না,” ঝাং বলেছিলেন।

গবেষকরা বলছেন যে এটি উদ্বেগজনক কারণ অনেক ক্ষেত্রে হাসপাতালের দ্বারা ব্যবহৃত মডেলগুলি অন্যান্য হাসপাতালের ডেটার উপর ভিত্তি করে তৈরি করা হয়, বিশেষ করে যদি মডেলগুলি অ-দ্য-শেল্ফ কেনা হয়।

“আমরা দেখেছি যে এমনকি অত্যাধুনিক মডেলগুলি যা প্রশিক্ষণ সেটের মতো ডেটাতে সর্বোত্তম পারফরম্যান্স করে তা নতুন পরিবেশে সর্বোত্তম নয়- অর্থাৎ, তারা সামগ্রিক এবং উপগোষ্ঠীর পারফরম্যান্সের মধ্যে একটি ট্রেড-অফ করে না- বন্ধ,” ঘাসেমি বলল। “দুর্ভাগ্যবশত, আসলে এভাবেই মডেলগুলি মোতায়েন হওয়ার সম্ভাবনা রয়েছে৷ বেশিরভাগ মডেলগুলিকে প্রশিক্ষিত করা হয় এবং একটি হাসপাতাল বা একটি উত্স থেকে ডেটা দিয়ে যাচাই করা হয় এবং তারপরে ব্যাপকভাবে স্থাপন করা হয়।”

গবেষকরা দেখেছেন যে যে মডেলগুলি পক্ষপাত দূর করতে জনসংখ্যার প্রতিকূল দৃষ্টিভঙ্গি ব্যবহার করেছিল সেগুলি যখন পক্ষপাত অপসারণের জন্য উপ-জনসংখ্যার দৃঢ়তা পদ্ধতি ব্যবহার করে এমন মডেলগুলির তুলনায় নতুন রোগী গোষ্ঠীগুলিতে পরীক্ষা করার সময় কিছুটা ন্যায্য ছিল। তারা এখন নতুন ডেটা সেটগুলিতে ন্যায্য ভবিষ্যদ্বাণী করে এমন মডেল তৈরি করতে পারে কিনা তা দেখতে অন্যান্য পদ্ধতিগুলি বিকাশ এবং পরীক্ষা করার চেষ্টা করার পরিকল্পনা করেছে।

ফলাফলগুলি পরামর্শ দেয় যে এই জাতীয় এআই মডেলগুলি ব্যবহার করা হাসপাতালগুলি নির্দিষ্ট গোষ্ঠীর জন্য ভুল ফলাফল প্রদান করছে না তা নিশ্চিত করার জন্য তাদের ব্যবহার শুরু করার আগে তাদের নিজস্ব রোগীর জনসংখ্যার বিরুদ্ধে তাদের মূল্যায়ন করা উচিত।

এই গবেষণাটি গুগল রিসার্চ স্কলার অ্যাওয়ার্ড, রবার্ট উড জনসন ফাউন্ডেশন হ্যারল্ড অ্যামোস মেডিকেল কলেজ ডেভেলপমেন্ট প্রোগ্রাম, আরএসএনএ হেলথ ডিসপ্যারিটিস, ল্যাকুনা ফান্ড, গর্ডন এবং বেটি মুর ফাউন্ডেশন এবং ন্যাশনাল ইনস্টিটিউট অফ বায়োমেডিকেল ইমেজিং অ্যান্ড বায়োইঞ্জিনিয়ারিং এবং একটি অনুদান দ্বারা সমর্থিত ছিল। ন্যাশনাল হার্ট, লাং এবং ব্লাড ইনস্টিটিউট থেকে।

উৎস:

জার্নাল রেফারেন্স:

ইয়াং, ওয়াই।, ইত্যাদি(2024) ন্যায্য মেডিকেল ইমেজিং এর বাস্তব-বিশ্বের সীমাবদ্ধতা। প্রাকৃতিক ঔষধ. doi.org/10.1038/s41591-024-03113-4.

উৎস লিঙ্ক