مقاله پژوهشی

 

روایی و پایایی ارزیاب‌ها در نیمرخ ارزیابی توافقی شنیداری‏ـ‏ادراکی صوت

 

نازیلا سالاری مجد1، سیده مریم خدامی1، میشل درینان2، محمد کمالی3، یونس امیری شوکی4، نادر فلاحیان5

1ـ گروه گفتاردرمانی، دانشکده توانبخشی، دانشگاه علوم پزشکی تهران، ایران

2ـ گروه فیزیک پزشکی، بیمارستان Freeman، Newcastle upon Tyne، بریتانیا

3ـ گروه مدیریت توانبخشی، دانشکده علوم توانبخشی، دانشگاه علوم پزشکی ایران، تهران، ایران

4ـ گروه گفتاردرمانی، دانشکده علوم توانبخشی، دانشگاه علوم پزشکی ایران، تهران، ایران

5ـ گروه ارتوپدی فنی، دانشگاه علوم بهزیستی و توانبخشی، تهران، ایران

 

چکیده

زمینه و هدف: ارزیابی شنیداری‏ـ‏ادراکی یک روش اصلی در شناسایی اختلال صوت و سنجش میزان پیشرفت درمان است. با این وجود، مطالعات داخلی معدودی به موضوع ارزیابی شنیداری‏ـ‏ادراکی صوت پرداخته‌اند. هدف مطالعۀ حاضر تدوین، بررسی روایی نسخۀ فارسی نیمرخ ارزیابی توافقی شنیداری‏ـ‏ادراکی صوت (اتشا) و پایایی ارزیاب‌ها با استفاده از این نیمرخ بود.

روش بررسی: روایی محتوایی کیفی نیمرخ با استفاده از آرای 9 آسیب‌شناس گفتار و زبان متخصص در زمینۀ صوت و اختلالات آن و یک زبان‌شناس از طریق پرسش‏نامه به‌دست آمد. برای بررسی پایایی، نمونه‏های صوتی 40 بزرگسال 20 تا 45 ساله دچار اختلال صوت با منشأ عصب‌زاد و اختلال عملکردی با و بدون ضایعه فیزیکی در حنجره و 10 بزرگسال با همان محدودۀ سنی دارای صوت بهنجار ضبط شد. نمونه‏های صوتی حاوی کشش واکه و خواندن شش جمله نیمرخ اتشا بود. پایایی درونی با استفاده از آلفای کرونباخ و پایایی ارزیاب‌ها با استفاده از ضریب همبستگی پیرسون محاسبه شد.

یافته‏ها: نتایج حاصل از روایی محتوایی کیفی منجر به تدوین یک نیمرخ توافقی برای ارزیابی شنیداری ادراکی صوت شد. ثبات درونی نیمرخ براساس ضریب آلفای کرونباخ 95/0 بود. زمانی‏که نمره‌دهی نیمرخ دوبار توسط یک نفر انجام شد، ضریب همبستگی پیرسون بین 86/0 برای شدت کلی اختلال تا 42/0 برای زیروبمی بود(05/0>p). هنگامی‏که ارزیابی‌کنندگان دو فرد متفاوت بودند، ضریب همبستگی پیرسون بین 85/0 برای شدت کلی اختلال تا 32/0 برای زیروبمی بود(05/0>p).

نتیجه‏گیری: اتشا یک نیمرخ روا و پایا برای ارزیابی شنیداری‏ـ‏ادراکی صوت در بزرگسالان در زبان فارسی است.

واژگان کلیدی: نیمرخ ارزیابی توافقی شنیداری‏ـ‏ادراکی صوت، ارزیابی صوت، روایی، پایایی ارزیاب‌ها

 

(دریافت مقاله: 29/3/92، پذیرش: 28/7/92)

 

مقدمه


ارزیابی شنیداری‏ـ‏ادراکی صوت، توصیف ویژگی‏های صوت صرفاً از طریق شنیدن است. ارزیابی ادراکی یک جنبۀ مهم در تشخیص قراردادی صوت است که امروزه روش اصلی در شناسایی اختلال صوت و سنجش میزان پیشرفت درمان محسوب می‌شود.  این روش که در دسترس‏ترین و از پرکاربردترین شیوه‌های ارزیابی صوت و اختلالات آن شناخته می‌شود، از جنبه‏های مختلف مقرون به‌صرفه بوده و ویژگی برجستۀ آن عدم ‏وابستگی به ابزار است(1و2). البته این روش دارای محدودیت‏های بسیاری است؛ برای مثال میزان تجربۀ درمانگر بر پایایی آن اثر می‌گذارد. اما به‌علت ویژگی مهم در دسترس‌بودن، در حال حاضر جایگاه خود را در ارزیابی‏های صوت بهخوبی حفظ کرده‏ است(3).

نتایج ارزیابی ادراکی صوت در نیمرخ ثبت میشود. نیمرخ‌ها با ارائۀ یک چارچوب مشخص برای ارزیابی، مشخص‌کردن تکالیف مورد نیاز و با ارائۀ یک روش درجهبندی معین برای ثبت نتایج توانستهاند پایایی ارزیابی‌های ادراکی را ارتقا دهند(2). اولین تلاش برای طراحی نیمرخ توسط Laver (1980) صورت گرفت و منجر به تهیۀ طرح تحلیلی نیمرخ صوتی (Vocal Profile Analysis Schemas :VPAS) شد. آخرین نیمرخ، ارزیابی بالینی صوت 2 (Clinical Voice Evaluation 2: CVE2) است که در سال 2007 توسط Williamson (2008) طراحی شد(1و4). در میان نیمرخها، نیمرخهای ارزیابی شنیداری‏ـ‏ادراکی صوت CAPE-V (Consensus Auditory Perceptual Evaluation of Voice) یکی از پرکاربردترین‏ها است که به دنبال گردهمایی متخصصان صوت از سراسر جهان، که توسط ASHA در سال 2003 برگزار شد، تهیه شد(5). متخصصان بالینی از این نیمرخ برای درجه‏بندی چندین شاخص مرتبط با کیفیت صوت، شامل شدت کلی اختلال صوت (overall severity)، گرفتگی (roughness)، نفس‏آلودگی (breathiness)، تقلا (strain)، زیروبمی (pitch)، و بلندی (loudness) استفاده می‌کنند. این نیمرخ شامل دو شاخص دیگر با عنوان «اظهارنظر راجع به وضعیت تشدید» و «ویژگیهای دیگر» است. در شاخص اول، متخصص بالینی وضعیت تشدیدی بیمار یعنی بهنجار، پرخیشومی (hypernasality) و یا کم‌خیشومی (hyponasality) را توصیف می‌کند. در صورتی‌که علائم دیگری در صوت فرد ادراک شود در شاخص «ویژگی‏های دیگر» ثبت می‌شود. نتایج به دو صورت کمی و کیفی گزارش میشوند. همۀ ویژگی‏های ادراکی با استفاده از یک مقیاس 100 میلی‌متری بینایی (Visual Analogue Scale: VAS) به‌صورت کمی درجه‏بندی می‏شوند. نتیجه‌گیری کیفی براساس امتیاز کمی و در قالب عبارات بهنجار، اختلال خفیف، متوسط و شدید است. تکالیف مورد استفاده در این نیمرخ شامل کشش واکه‌های /a/ و /i/، خواندن 6 جمله و گفتار پیوسته بهمدت 20 ثانیه است. جملۀ اول شامل واکه‌های رایج زبان، جملۀ دوم دربردارندۀ شروع آسان و جملۀ سوم شامل همخوان‌های صدادار است. جملۀ چهارم برای شناسایی انسداد چاکنایی، جملۀ پنجم برای شناسایی خیشومی‌شدگی و جملۀ آخر برای ارزیابی فشار داخل دهانی طراحی شده است. همچنین نیمرخ CAPE-V از نظر روایی در رأس نیمرخ‏های ارزیابی ادراکی صوت است(6). پژوهش Zraick و همکاران (2011) روی روایی این نیمرخ نشان داد که نسبت به نیمرخ GRBAS که آن هم از نیمرخ‌های پرکاربرد در ارزیابی ادراکی است، به تغییرات حساس‌تر است و همچنین پایایی بیشتری دارد(7). پژوهشگران کشورهای هند، پرتغال و آمریکای شمالی در مطالعات مختلف پایایی این نیمرخ و عوامل تأثیرگذار بر آن را بررسی کرده‌اند(10-8). Masaki (2009) نیز در مؤسسه تکنولوژی ماساچوست اقدام به تهیۀ نسخۀ کودکان این نیمرخ کرده است(2).

با این وجود، مطالعات داخلی معدودی از نیمرخ ارزیابی توافقی شنیداری‏ـ‏ادراکی صوت استفاده کرده‌اند(11)، و تلاشی برای تهیۀ این نوع نیمرخ‌ها یا بررسی روایی و پایایی نیمرخهای موجود صورت نگرفته است و فقط از برگردان فارسی نیمرخها استفاده شده یا نتایج ارزیابی ادراکی بدون استفاده از نیمرخ ثبت شده است. با توجه به اهمیت ارزیابی شنیداری‏ـ‏ادراکی صوت و نقش نیمرخ‌ها در بهبود پایایی این شیوۀ ارزیابی، هدف از این پژوهش تهیۀ نسخۀ فارسی و بررسی روایی CAPE-V با عنوان نیمرخ ارزیابی توافقی شنیداری ادراکی صوت (اتشا) و بررسی پایایی (پایایی دورنی و پایایی ارزیاب‌ها) این نیمرخ بود.

 

روش بررسی

به منظور تهیۀ نسخۀ فارسی CAPE-V، نیمرخ مذکور به‌همراه تکالیف بخش خواندن که شامل شش جمله بود طراحی شد. بنابر نتایج گردهمایی متخصصان صوت در سال 2003، هریک از جملات نیمرخ CAPE-V مشخصات آواشناختی و آکوستیکی ویژه‌ای دارد(6). به این ‌منظور 120 جمله متناسب با اهداف نیمرخ طراحی شد. برای مثال، برای جملۀ شمارۀ شش که هدف آن ارزیابی فشار داخل دهانی بود، 20 جمله طراحی شد. سپس دو آسیبشناس گفتار و زبان و یک زبان‌شناس از بین 120 جملۀ طراحی‌شده، 30 جمله (به ازای هر جملۀ نیمرخ، 5 جمله) را انتخاب کردند. ملاک انتخاب جملات ضمن در نظر گرفتن اهداف هر جملۀ نیمرخ، متناسب بودن سادگی و روانی جملات با جملات نسخۀ انگلیسی از نظر ویژگیهای واج‌شناختی، ساختار دستوری و طول جمله بود. سپس بهمنظور رفع ابهام معنایی اصطلاحات بهکار رفته در نیمرخ و تعیین روایی محتوایی کیفی آن، از نظرات 10 صاحبنظر شامل آسیب‌شناسان گفتار و زبان متخصص در صوت و اختلالات آن و زبان‌شناس استفاده شد. علاوه بر تهیه و بررسی روایی محتوایی نسخۀ فارسی نیمرخ، از بین 30 جملۀ پیشنهادی 6 جملۀ نهایی با توجه به آرای این صاحب‌نظران برگزیده شد.

پس از تهیۀ نسخۀ فارسی نیمرخ اتشا (پیوست) و تکالیف بخش خواندن آن، پایایی نیمرخ بررسی شد. به این منظور، نمونه‌های صوتی (شامل تکلیف واکه و خواندن جملات) بزرگسالان مبتلا به اختلال صوت و افراد دارای صوت بهنجار جمع‌آوری شد. این مرحله از مطالعه در درمانگاه گوش، حلق و بینی و بخش شنوایی‌شناسی بیمارستان آموزشی و تخصصی امیراعلم دانشگاه علوم پزشکی تهران انجام شد. جامعۀ مورد مطالعه افراد مراجعه‌کننده با شکایت صوتی به بخش استروبوسکوپی درمانگاه و کارمندان و دانشجویان حاضر در بیمارستان در زمان اجرای پژوهش بودند. از جمعیت مورد نظر 40 فرد مبتلا به اختلال صوت (15 زن و 25 مرد) و 10 فرد دارای صوت هنجار (5 زن و 5 مرد) با محدودۀ سنی 45-20 سال به روش غیراحتمالی در دسترس انتخاب شدند. معیارهای ورود برای افراد مبتلا به اختلال صوت به این ترتیب بود 1ـ با شکایت صوتی به کلینیک مراجعه کرده باشند و اختلال صوتی آنها توسط پزشک متخصص گوش، حلق و بینی و آسیب‌شناس گفتار و زبان بیمارستان تأیید شده باشد؛ 2ـ براساس نتایج ویدئواستروبوسکوپی و به تشخیص پزشک متخصص گوش، حلق و بینی مبتلا به یکی از اختلالات صوت با منشأ عصبزاد یا اختلال صوت عملکردی با یا بدون ضایعه در حنجره باشند و 3ـ قادر به کشش واکههای /a/ و /i/ بهمدت 4 تا 5 ثانیه باشند. معیارهای ورود برای افراد دارای صوت هنجار شامل 1ـ در زمان اجرای مطالعه و دو هفته پیش از آن به سرماخوردگی مبتلا نشده باشند؛ 2ـ در زمان اجرای مطالعه و دو هفته پیش از آن هیچ‌گونه شکایت صوتی نداشته باشند؛ 3ـ حنجرۀ آنها براساس نتایج معاینۀ پزشک متخصص گوش، حلق و بینی، سالم باشد؛ 4ـ ویژگیهای صوتی آن‌ها بنابر ارزیابی ادراکی انجام‌‌شده توسط دو آسیب‌شناس گفتار و زبان در محدودۀ هنجار باشد و 5ـ دادههای اکوستیک آنها براساس تحلیل‌های اکوستیک انجام‌شده با استفاده از نرم‌افزار Pratt 5.1.10 از نظر فرکانس پایه، شدت، آشفتگی فرکانس (jitter)، آشفتگی شدت (shimmer) و نسبت سیگنال به نویز با توجه به سن و جنس در محدودۀ هنجار باشد(12). آزمودنیها تکلیف واکه را پس از محقق تکرار می‌کردند. هریک از جملات تکلیف خواندن نیز  روی برگۀ جداگانهای نوشته شده بود. در صورتیکه آزمودنی قادر به خواندن جملات نیمرخ نبود، پس از محقق تکرار می‌کرد و اگر قادر به تکرار جملات نبود از مطالعه کنار گذاشته می‌شد. نمونه‌های صوتی با استفاده از یک میکروفن کندانسور مدل USB AVID VOCAL STUDIO که به یک لپ‌تاپ سونی مدل VPCEE23FX متصل بود، با استفاده از نرم‌افزار PRO TOOLS در اتاق اکوستیک واقع در بخش شنوایی‌شناسی بیمارستان ضبط شد. شرایط ضبط نمونه‌های صوتی برای تمامی شرکت‌کنندگان یکسان بود. آزمودنیها هر دو تکلیف واکه و خواندن را با بلندی و زیروبمی عادتی تولید کردند و فاصلۀ میکروفن از دهان آزمودنی‌ها cm10 بود. دو آسیب‌شناس گفتار و زبان متخصص در زمینۀ صوت، بر مناسب بودن نمونه‌های صوتی از لحاظ توزیع انواع متنوع اختلال صوت (برحسب معیارهای ورود) و شدتهای متفاوت اختلال صوت نظارت کردند.

با توجه به اینکه ارزیابی ادراکی صوت یک شیوۀ ارزیابی ذهنی و مبتنی بر تجارب شنیداری‏ـ‏ادراکی متخصص است و در مطالعات مشابه(10-8) برای بررسی پایایی نیمرخ‌ها از روش‌های پایایی ارزیاب‌ها استفاده شده بود، در مرحلۀ بعدی مطالعۀ حاضر نیز این شیوه برای بررسی پایایی نیمرخ انتخاب شد. به این منظور، نمونه‌های صوتی جمع‌آوری شده در قالب لوح‌های فشرده بههمراه نسخۀ فارسی نیمرخ اتشا و دستورالعمل استفاده از آن در اختیار محقق و یک آسیب‌شناس گفتار و زبان مجرب در زمینۀ ارزیابی ادراکی صوت و اختلال آن قرار گرفت. برای جلوگیری از هر نوع
Text Box: جدول 1ـ شاخص‌های مرکزی و پراکندگی نمره‌دهی نوبت دوم محقق و آسیب‌شناس گفتار و زبان مجرب به افراد مبتلا به اختلال صوت براساس نیمرخ اتشا (40n=)

	میانگین (انحراف معیار) نمره نوبت دوم محقق		میانگین (انحراف معیار) نمره آسیب‏شناس
شاخص	مردان (25=n)	زنان (15=n)		مردان (25=n)	زنان (15=n)
شدت کلی اختلال	(819/28) 90/33	(715/29) 15/23		(842/27) 93/47	(520/25) 15/25
خشونت صدا	(645/28) 70/35	(360/30) 55/23		(857/27) 63/44	(065/21) 10/23
نفس‏آلودگی	(116/27) 53/32	(326/24) 05/22		(825/19) 22	(699/21) 25/19
تقلا	(795/30) 57/30	(572/30) 10/22		(226/22) 70/28	(114/23) 60/17
زیروبمی	(820/17) 80/5	(539/16) 20/6		(167/19) 43/14	(940/18) 25/10
بلندی	(432/22) 37/12	(324/20) 15/11		(225/23) 17/29	(376/22) 05/19سوگیری در هنگام ارزیابی ادراکی، فایل نمونههای صوتی اختلال‌دار و بهنجار دوباره کدگذاری و به‌صورت تصادفی در پوشه‌های جداگانه توزیع شد. برای تکمیل نیمرخ اتشا و با هدف بررسی پایایی ارزیاب‌ها، محقق و آسیب‌شناس گفتار و زبان مجرب با استفاده از گوشی AKG مدل K7 به نمونههای صوتی گوش کردند و برای هر نمونۀ صوتی یک نیمرخ را براساس دستورالعمل ارائه‌شده تکمیل کردند. آزمونگران مجاز بودند که هر نمونۀ صوتی را حداکثر دو بار گوش دهند. برای بررسی پایایی ارزیابی بین دو ارزیابی‌کنندۀ یکسان، نیمرخ اتشا 30 روز بعد دوباره توسط محقق تکمیل شد و برای بررسی پایایی بین دو ارزیابی‌کنندۀ متفاوت، نتایج ارزیابی محقق با نتایج ارزیابی یک آسیب‌شناس گفتار و زبان مجرب مقایسه شد. در بررسی پایایی ارزیاب‌ها از ضریب همبستگی پیرسون استفاده شد.

 

یافته‌ها

براساس نظرات 10 آسیب‌شناس گفتار و زبان متخصص در زمینۀ صوت و اختلالات آن و زبان‌شناس، نسخۀ برگردان فارسی CAPE-V با عنوان نیمرخ اتشا ابهام معنایی ندارد و از روایی محتوایی کیفی برخوردار است. براساس آرای صاحب‌نظران فوق از بین 30 جملۀ پیشنهادی محققان، 6 جملۀ نهایی انتخاب شد که بنابر توافق اکثریت، مناسب‌ترین جملات با درنظر گرفتن معیارهای ذکر شده در بخش روش بررسی بودند. یافتهها نشان داد ضریب آلفای کرونباخ برای بررسی ثبات درونی نیمرخ 95/0 است.

همان‌طورکه گفته شد در مرحلۀ بعدی پایایی ارزیاب‌ها محاسبه شد. به این منظور، ابتدا نمراتی که شرکت‌کنندگان در نیمرخ اتشا و بنابر نظر محقق و آسیب‌شناس گفتار و زبان مجرب کسب کرده‌ بودند، جمع‌آوری و ثبت شد. برای نمونه، شاخص‌های مرکزی و پراکندگی نمره‌دهی دوم محقق همراه با نمره‌دهی آسیب‌شناس گفتار و زبان مجرب به افراد مبتلا به اختلال صوت در جدول 1 ارائه شده است. ابتدا ضریب همبستگی پیرسون بین نمرهدهی اول و دوم محقق برای هریک از شاخصهای نیمرخ اتشا محاسبه شد. به‌طور کلی، ضریب همبستگی پیرسون برای هریک از شاخص‏های نیمرخ اتشا بین مقادیر 42/0 تا 86/0 بود(05/0>p). همچنین ضریب تکرارپذیری (Interclass Correlation Coefficient: ICC) بین نمرهدهی اول و دوم محقق برای هریک از شاخصهای نیمرخ اتشا بین 86/0 (برای شدت کلی اختلال) تا 42/0 (برای زیروبمی) بود(05/0>p). بررسی نمرهدهی اول و دوم محقق برحسب تکالیف مورد استفاده نشان
Text Box: جدول 2ـ ضریب همبستگی پیرسون برای شاخص‏های نیمرخ اتشا بین نمره‏دهی اول و دوم محقق (پایایی درون‏آزمونگر)(05/0>p)

شاخص‏های نیمرخ اتشا	ضریب همبستگی در تکلیف کشش واکه	ضریب همبستگی در تکلیف خواندن	ضریب همبستگی کلی
شدت کلی اختلال	85/0	86/0	86/0
خشونت صدا	79/0	83/0	83/0
نفس‌آلودگی	74/0	74/0	74/0
تقلا	80/0	82/0	82/0
زیروبمی	42/0	42/0	42/0
بلندی	52/0	61/0	50/0داد ضریب همبستگی پیرسون در تکلیف کشش واکهها برای هریک از شاخصهای نیمرخ اتشا بین 42/0 تا 85/0 است(05/0>p). در تکلیف خواندن 6 جملۀ فارسی نیز ضریب همبستگی پیرسون برای هریک از شاخصهای نیمرخ اتشا در محدودۀ 42/0 تا 86/0 بود(05/0>p) که در جدول 2 آمده است. برای سنجش پایایی بین دو ارزیابی‌کنندۀ متفاوت، نتایج نمره‌دهی دوم محقق با نمره‌دهی آسیب‌شناس گفتار و زبان مجرب مقایسه و ضریب همبستگی پیرسون محاسبه شد. براساس نتایج این بخش ضریب همبستگی پیرسون به‌طور کلی برای هریک از شاخصهای نیمرخ اتشا بین 32/0 تا 85/0 بود(05/0>p). نمودارهای 1 و 2 همبستگی بین هریک از نمره‌دهی‌های محقق با آسیب‌شناس گفتار و زبان را بهتفکیک در دو شاخص شدت کلی اختلال و زیروبمی نشان می‌دهند. جدول 3 ضریب همبستگی پیرسون برای هریک از شاخصهای نیمرخ در تکلیف کشش واکهها را که در محدودۀ 31/0 تا 82/0 و در تکلیف خواندن جملات بین مقادیر 30/0 تا 86/0 بود(05/0>p) نشان می‏دهد. همان‌گونه که در جدول 2 دیده میشود بالاترین مقدار ضریب همبستگی مربوط به شاخص شدت کلی اختلال صوت و پایین‌ترین مقدار مربوط به شاخص زیروبمی است. جدول 3 نیز نشان می‌دهد مشابه یافته‌های فوق در مورد پایایی بین دو ارزیابی‌کننده متفاوت دیده شد.

 

بحث

هدف از مطالعۀ حاضر بررسی روایی و پایایی نسخۀ فارسی نیمرخ CAPE-V با عنوان نیمرخ اتشا بود. آرای گروهی از آسیبشناسان گفتار و زبان مجرب و زبانشناس نشان داد نیمرخ اتشا همراه با تکالیف بخش خواندن آن روایی محتوایی کیفی دارد. بررسی یافته‌های مربوط به بخش پایایی نشان داد نیمرخ اتشا پایایی درونی مناسبی دارد. از سوی دیگر، نتایج ارزیابی ادراکی در مطالعۀ حاضر نشان داد کلیۀ شاخص‌های نیمرخ اتشا به استثنای زیروبمی و بلندی در هر دو بخش پایایی بین ارزیابی‌کنندگان یکسان و ارزیابی‌کنندگان متفاوت از قدرت تکرارپذیری مطلوبی برخوردار هستند که این موضوع بیانگر پایایی مناسب این نیمرخ است.

با درنظر گرفتن معیارهای روان‌سنجی، نیمرخی روایی دارد که بتواند همان چیزی را اندازه‏گیری کند که برای آن ساخته شده است. به این ‌ترتیب تعیین روایی محتوایی از مراحل مهم ساخت هر آزمون جدید است. Kreiman و Gerratt (1998) معتقدند مبحث روایی در مطالعات ارزیابی شنیداری‏ـ‏ادراکی صوت مورد بیتوجهی واقع شده است و بیشتر پژوهش‌ها به بررسی پایایی این روش ارزیابی پرداختهاند. این مؤلفان در توجیه نظرات خود تأکید می‌کنند که روایی هر ارزیابی به پایایی آن وابسته است. بنابراین یک آزمون بدون پایایی نمیتواند چیزی را بسنجد که برای اندازهگیری آن ساخته شدهاست(13). مطالعۀ Maryn و همکاران (2008) نشان داد استفاده از تکالیف متنوع در ارزیابی‌هایشنیداری‏ـ‏ادراکی، سبب بهبود روایی زیست محیطی ((ecological می‌شود که اصطلاح دیگری برای اطلاق به روایی محتوایی است(3) و این مسئله به خوبی در نیمرخ CAPE-V رعایت شده است. Kempster و همکاران (2009) دو نیمرخ CAPE-V و GRBAS را با یکدیگر مقایسه و این‌طور نتیجه‌گیری کردند که GRBAS بهطور استاندارد به زبان انگلیسی منتشر نشده است و دستورالعملی در مورد نحوۀ استفاده از آن و تکالیف گفتاری این نیمرخ وجود ندارد. درمقابل، CAPE-V که با هدف بهبود ثبات در ارزیابی‌های بالینی بدون‌نیاز بیش از حد به زمان اجرا یا آموزش طراحی شده است، پروتکل ویژه‌ای در مورد طراحی تکالیف و نحوۀ اجرا دارد. از سوی دیگر، CAPE-V از مقیاس دیداری برای ثبت نتایج ارزیابی استفاده می‌کند، درحالی‌که GRBAS یک مقیاس رتبه‌ای چهار درجهای دارد که به‏شدت استفاده از آن را در طراحی پروژه و تحلیلهای آماری محدود می‌کند. آن‌ها خاطرنشان کردند که نیمرخ CAPE-V شاخص‌های صوتی بیشتری را نسبت به GRBAS ارزیابی میکند. این مؤلفان با در نظر گرفتن جنبه‌های فوق، CAPE-V را نیمرخ دارای روایی برای ارزیابی شنیداری‏ـ‏ادراکی در سال 2010 معرفی کردند(6). Zraick و همکاران (2011) به‌منظور بررسی روایی CAPE-V، پایایی آن را بررسی کردند. آن‌ها قضاوتهای 21 متخصص مجرب صوت را در مورد 22 نمونۀ صوت هنجار و 37 نمونۀ مبتلا به اختلال صوت را با استفاده از دو نیمرخ CAPE-V و GRBAS جمع‌آوری کردند. نتایج پایایی بین ارزیابی‌کنندگان یکسان بین 35/0 تا 82/0 بود که بیشترین همبستگی در شاخص نفس‌آلودگی و کم‌ترین آن در شاخص تقلا ثبت شد. پایایی بین ارزیابی‌کنندگان متفاوت نیز بین 76/0 برای شاخص شدت کلی اختلال تا 28/0 برای زیروبمی بود. همچنین آنها گزارش کردند که پایایی قضاوتهای ادراکی با استفاده از CAPE-V نسبت به GRBAS به‌طور خفیفی ارتقا یافته است و این نتیجه را شواهدی برای روایی همزمان CAPE-V معرفی کردند(7). با توجه به مجموع مزایای ذکرشده، نیمرخ CAPE-V از میان نیمرخ‌های موجود انتخاب و نسخۀ فارسی آن تهیه شد.

پایایی یک آزمون به‏معنای تکرارپذیر بودن آن است. یک آزمون پایا میتواند با اطمینان در محیطهای بالینی و پژوهشی بهکار گرفته شود. بررسی متون نشان می‌دهد روشهای مختلفی برای تعیین پایایی وجود دارد. در این مطالعه برای تعیین پایایی از دو روش بررسی ثبات درونی و پایایی ارزیاب‌ها استفاده شد. ضریب آلفای کرونباخ یکی از پرکاربردترین شاخص‏ها برای تعیینثبات درونی است و مقدار عددی آن بین صفر تا یک است و هرچه ضریب به عدد یک نزدیک‌تر باشد نشان می‏دهد تکرارپذیری واقعی آماری آزمون بیشتر است(14). در پژوهش حاضر ضریب آلفای کرونباخ به‎دست آمده بین شش شاخص نیمرخ اتشا 95/0 بود که نشان میدهد نیمرخ اتشا از نظر آماری ثبات داخلی مطلوبی دارد.

در این مطالعه برای بررسی پایایی ارزیاب‌ها ضریب همبستگی پیرسون محاسبه شد. نتایج پایایی بین ارزیابی‌کنندگان یکسان نشان داد که امتیازهای ثبت‌شده توسط محقق در دو نمره‏دهی متوالی برای شاخصهای شدت کلی اختلال صوت، خشونت صدا، نفس‌آلودگی و تقلا از همبستگی قوی برخوردار است(05/0>p). بهعبارت دیگر، قضاوت ادراکی محقق راجع به این 4 شاخص با وجود فاصلۀ زمانی 30 روزه به‌طور مناسب تکرار شد، اما در شاخص‏های زیروبمی و بلندی همبستگی مطلوبی دیده نشد. همسو با نتایج این بخش از مطالعه، Boone و همکاران (2005) نیز معتقدند که ارزیابی زیروبمی به­طور ثابت و دقیق بسیار دشوار است(15). در مجموع به‌نظر می‌رسد پایین‌بودن مقادیر همبستگی در ارزیابی ادراکی زیروبمی چندان هم دور از انتظار نیست، زیرا ادراک زیروبمی نسبت به سایر شاخص‌های صوتی دشوارتر است؛ به‌ویژه هنگامی‌که در کیفیت صوت نیز اختلال باشد. درست به همین دلیل پیشنهاد می‌شود برای اطمینان از نتایج ارزیابی ادراکی زیروبمی باید مقادیر فرکانس پایۀ صوت نیز اندازه‌گیری شوند تا احتمال هرگونه ادراک اشتباه دربارۀ زیروبمی کم‌تر شود. محدودۀ مقادیر پایایی درون‌فردی در پژوهش Zraick و همکاران (2011) نیز بسیار مشابه با مطالعۀ حاضر بود. در هر دو پژوهش شاخص نفس‌آلودگی همبستگی بالایی داشته است، اما در مطالعۀ حاضر، برخلاف مطالعۀ Zraick و همکاران (2011)، همبستگی شاخص تقلا نیز بالا بوده است.

برای تعیین پایایی بین دو ارزیابی‌کنندۀ متفاوت ضریب همبستگی پیرسون بین نتایج ارزیابی نوبت دوم محقق و نتایج ارزیابی آسیب‌شناس مجرب گفتار و زبان محاسبه شد. نتایج نشان داد که امتیازهای به‏دست آمده از شاخصهای شدت کلی اختلال صوت، خشونت صدا، نفس‌آلودگی و تقلا از همبستگی قوی‏ای برخوردار هستند(05/0>p). بدین‌معنا که توافق محقق و آسیب‌شناس گفتار و زبان مجرب بر سر قضاوت ادراکی دربارۀ شاخص‏های شدت کلی اختلال صوت، خشونت صدا، نفس‌آلودگی و تقلا زیاد بود، اما نتیجۀ مشابه برای دو شاخص زیروبمی و بلندی دیده نشد. نتایج بررسی پایایی بین نمره‌دهی محقق و آسیب‌شناس گفتار و زبان مجرب در پژوهش حاضر، به استثنای نتایج حاصل از شاخص زیروبمی، در راستای نتایج مطالعه Sofranko و Prosek
Text Box: جدول 3ـ ضریب همبستگی پیرسون برای شاخص‏های نیمرخ اتشا بین نمره‏دهی نوبت دوم محقق و آسیب‌شناس گفتار و زبان مجرب (پایایی بین ‌آزمونگران)(05/0>p)

شاخص‏های نیمرخ اتشا	ضریب همبستگی در تکلیف کشش واکه	ضریب همبستگی در تکلیف خواندن	ضریب همبستگی کلی
شدت کلی اختلال	82/0	86/0	58/0
خشونت صدا	70/0	77/0	79/0
نفس‌آلودگی	75/0	77/0	79/0
تقلا	72/0	80/0	79/0
زیروبمی	31/0	30/0	32/0
بلندی	42/0	58/0	52/0(2014) است که با هدف بررسی تأثیر میزان و نوع تجربه بر قضاوت‏های ادراکی صورت گرفته است. این مؤلفان نتیجه‌گیری کردند که توافق بین گفتاردرمان‌گران مجرب بسیار بالاتر از توافق گفتاردرمان‏گران بی‏تجربه بود(10). باید خاطرنشان کرد که زمانی‌که ارزیابی توسط افراد مختلف صورت می‌گیرد تفاوت عمده بین این دو مطالعه وجود دارد، با این­حال بسیاری از نتایج دو مطالعه با هم همخوانی دارند که این موضوع می‌تواند شاهد دیگری بر پایایی بالای نیمرخ اتشا باشد. به‌نظر می‌رسد اگر در این پژوهش نیز مشابه مطالعۀ Pitts و همکاران (2005) نتایج ارزیابی ادراکی پس از گذراندن یک دورۀ آموزشی مورد بررسی قرار می‌گرفت، توافق بین‌ ارزیابی‌کنندگان در مورد شاخص زیروبمی نیز افزایش پیدا می‌کرد. همان‌گونه که در توجیه نتایج پایایی بین دو ارزیابی‌کننده یکسان ذکر شد، دشوار بودن ادراک زیروبمی نیز می‌تواند کم‌بودن توافق بین دو آزمونگر را روی قضاوت شنیداری شاخص زیروبمی تبیین کند(15).

در مطالعهای دیگر، Jesus و همکاران (2008) مقادیر ضریب همبستگی پیرسون را برای بررسی پایایی بین دو آسیب‌شناس گفتار و زبان مجرب در کلیۀ شاخصهای CAPE-V بین 89/0 تا 95/0 گزارش کردند(9). شاید مهم‌ترین علت بالا بودن توافق بین‌ ارزیابی‌کنندگان در پژوهش اخیر مقایسۀ قضاوت ادراکی دو آسیب‌شناس گفتار و زبان مجرب باشد، درحالی‌که در مطالعۀ حاضر دو متخصص تجربۀ یکسانی در ارزیابی ادراکی نداشتند. نکتۀ جالب‌توجه آن است که با وجود این تفاوت فقط توافق بر سر دو شاخص زیروبمی و بلندی نسبت به شاخص‌های دیگر کم بود. همان‌گونه که پیش از این نیز ذکر شد، نتیجۀ پژوهش Kempster و همکاران (2009) حاکی از آن بود که حساسیت نیمرخ CAPE-V به تفاوتهای کوچک در و بین بیماران مبتلا به اختلالات صوت بیشتر است(6) که این نتیجه می‌تواند شاهدی دیگر بر پایایی بیشتر نیمرخ فوق باشد.

 

نتیجهگیری

اتشا میتواند به‌عنوان یک نیمرخ روا و پایا برای ارزیابی شنیداری ادراکی صوت در محیطهای بالینی و پژوهشی به‏کار رود. پایایی نتایج ارزیابی ادراکی براساس نیمرخ اتشا حتی بدون گذراندن دوره‌های آموزشی خاص برای بیشتر شاخص‌های صوتی بالا است. هرچند توافق بین ارزیابی‌کنندگان در نمره‌دهی به دو شاخص‌ زیروبمی و بلندی نیمرخ زیاد نبود، اما بدون‌تردید آموزش می‌تواند میزان توافق را به مقدار قابل‌ملاحظه‌ای افزایش دهد. در مطالعات بعدی می‌توان با بررسی تأثیر عامل آموزش گام‌های مهمی برای ارتقای پایایی نیمرخ اتشا برداشت.

 

سپاسگزاری

مقالۀ حاضر حاصل بخشی از پایاننامۀ کارشناسیارشد در دانشگاه علوم پزشکی تهران است. نویسندگان مراتب تشکر و سپاس خود را از جناب آقای دکتر یحیی مدرسی، زبان‌شناس و عضو محترم هیات علمی پژوهشکدۀ علوم انسانی، جناب آقای دکتر پیمان دبیرمقدم متخصص حنجره و عضو محترم هیات علمی دانشگاه علوم پزشکی تهران، جناب آقای ابراهیمی مسئول بخش شنوایی‌شناسی بیمارستان امیراعلم و کلیۀ شرکت‌کنندگان در این مطالعه اعلام می‌دارند.


 

REFERENCES


1.             Gould J, Waugh J, Carding P, Drinnan M. A new voice rating tool for clinical practice. J Voice. 2012;26(4):e163-70.

2.             Misono S, Merati AL, Eadie TL. Developing auditory-perceptual judgment reliability in otolaryngology residents. J Voice. 2012;26(3):358-64.

3.             Maryn Y, Corthals P, Van Cauwenberge P, Roy N, De Bodt M. Toward improved ecological validity in the acoustic measurement of overall voice quality: combining continuous speech and sustained vowels. J Voice. 2010;24(5):540-55.

4.             Webb AL, Carding PN, Deary IJ, MacKenzie K, Steen N, Wilson JA. The reliability of three perceptual evaluation scales for dysphonia. Eur Arch Otorhinolaryngol. 2004;261(8):429-34.

5.             Karnell MP, Melton SD, Childes JM, Coleman TC, Dailey SA, Hoffman HT. Reliability of clinician-based (GRBAS and CAPE-V) and patient-based (V-RQOL and IPVI) documentation of voice disorders. J Voice. 2007;21(5):576-90.

6.             Kempster GB, Gerratt BR, Verdolini Abbott K, Barkmeier-Kraemer J, Hillman RE. Consensus auditory-perceptual evaluation of voice: development of a standardized clinical protocol. Am J Speech Lang Pathol. 2009;18(2):124-32.

7.             Zraick RI, Kempster GB, Connor NP, Thibeault S, Klaben BK, Bursac Z, et al. Establishing validity of the Consensus Auditory-Perceptual Evaluation of Voice (CAPE-V). Am J Speech Lang Pathol. 2011;20(1):14-22.

8.             Santosh M, Rajashekhar B. Perceptual and acoustic analysis of voice in individuals with total thyroidectomy: pre-post surgery comparison [corrected]. Indian J Otolaryngol Head Neck Surg. 2011;63(1):32-9.

9.             Jesus LMT, Barney A, Couto PS, Vilarinho H, Correia A. Voice quality evaluation using CAPE-V and GRBAS in European Portuguese. J Voice. 2008;24(5):61-4.

10.         Sofranko JL, Prosek RA. The effect of levels and types of experience on judgment of synthesized voice quality. J Voice. 2014;28(1):24-35.

11.         Khoddami SM, Rabiee S, Jahani Y. Comparison of voice perceptual characteristics between speech- language pathologists’, dysphonic and normal voiced adult’s view. Audiol. 2009;18(1-2):26-35. Persian.

12.         Izadi F, Mohseni R, Daneshi A, Sandughdar N. Determination of fundamental frequency and voice intensity in Iranian Men and Women aged between 18 and 45 years. J Voice. 2012;26(3):336-40.

13.         Kreiman J, Gerratt BR. Validity of rating scale measures of voice quality. J Acoust Soc Am. 1998;104(3 Pt 1):1598-608.

14.         Shultz KS, Whitney DJ. Measurement theory in action: case studies and exercises. 1st ed. California: Sage Publication; 2005.

15.         Boone DR, McFarlane SC, Von Berg SL. The voice and voice therapy. 7th ed. Boston: Allyn & Bacon; 2004.Research Article

 

 

Validity and rater reliability of Persian version of the Consensus Auditory Perceptual Evaluation of Voice

 

 

Nazila Salary Majd1, Seyyedeh Maryam Khoddami1, Michael Drinnan2, Mohammad Kamali3, Yoones Amiri-Shavaki4, Nader Fallahian5

 

1- Department of Speech therapy, School of Rehabilitation, Tehran University of Medical Sciences, Iran

2- Department of Regional Medical Physic, Freeman Hospital, Newcastle upon Tyne, United Kingdom

3- Department of Rehabilitation Management, School of Rehabilitation Sciences, Iran University of Medical Sciences, Tehran, Iran

4- Department of Speech therapy, School of Rehabilitation Sciences, Iran University of Medical Sciences, Tehran, Iran

5- Department of Technical Orthopedic, University of Social Welfare and Rehabilitation Sciences, Tehran, Iran

 

 

Received: 19 June 2013, accepted: 20 October 2013

 

Abstract

Background and Aim: Auditory-perceptual assessment of voice a main approach in the diagnosis and therapy improvement of voice disorders. Despite, there are few Iranian studies about auditory-perceptual assessment of voice. The aim of present study was development and determination of validity and rater reliability of Persian version of the Consensus Auditory Perceptual Evaluation of Voice (CAPE-V).

Methods: The qualitative content validity was detected by collecting 10 questionnaires from 9 experienced speech and language pathologists and a linguist. For reliability purposes, the voice samples of 40 dysphonic (neurogenic, functional with and without laryngeal lesions) adults (20-45 years of age) and 10 normal healthy speakers were recorded. The samples included sustain of vowels and reading the 6 sentences of Persian version of the consensus auditory perceptual evaluation of voice called the ATSHA.

Results: The qualitative content validity was proved for developed Persian version of the consensus auditory perceptual evaluation of voice. Cronbach’s alpha was high (0.95). Intra-rater reliability coefficients ranged from 0.86 for overall severity to 0.42 for pitch; inter-rater reliability ranged from 0.85 for overall severity to 0.32 for pitch (p<0.05).

Conclusion: The ATSHA can be used as a valid and reliable Persian scale for auditory perceptual assessment of voice in adults.

Keywords: Consensus Auditory Perceptual Evaluation of Voice, voice assessment, validity, rater reliability

 

Please cite this paper as: Salary Majd N, Khoddami SM, Drinnan M, Kamali M, Amiri-Shavaki Y, Fallahian N. Validity and rater reliability of Persian version of the Consensus Auditory Perceptual Evaluation of Voice. Audiol. 2014;23(3):65-74. Persian.