تالار گفتمان نبض فردا  

بازگشت   تالار گفتمان نبض فردا > کامپیوتر و اینترنت > اخبار آی تی IT > اخبار سخت افزار

اطلاع رسانی

ارسال موضوع جدید  پاسخ
 
ابزارهای موضوع نحوه نمایش
قدیمی 04-18-2014   #1
S@m!ra
مدیر تالار نرم افزار و سخت افزار
 
S@m!ra آواتار ها
 

تاریخ عضویت: Jan 2013
محل سکونت: آغوش خدا...
نوشته ها: 7,641
تشکرهای ایشان: 18,619
15,335بار در5,285پست از ایشان تشكر شده است

صندوق مدال ها

S@m!ra به Yahoo ارسال پیام
پیش فرض کامپیوترهایی که یاد می گیرند بشنوند





شاید تاکنون با گونه های مختلفی از برنامه های تشخیص گفتار یا نرم افزارهای مترجم سروکار داشته یا با آن ها برخورد کرده اید. حتی نسخه های خاصی از این برنامه ها روی اسمارت فون های به نسبت جدید نیز پیاده سازی شده اند و کاربر را از جست وجوی متنی، اجرای دستی بعضی برنامه ها و چنین مواردی بی نیاز می کنند. اما طراحی این برنامه ها چالش های خاص خودش را دارد. برای مثال برنامه های فعلی تشخیص گفتار نسبت به لحن بیان، سرعت ادای کلمه ها و در کل صداهای زائد محیط حساس هستند و چه بسا اگر کمی جمله ها را سریع یا با لحنی نامأنوس بیان کنید، نتوانند واژه ها را به درستی تشخیص دهند. همچنین برنامه ای که برای تشخیص گفتار به زبان انگلیسی طراحی شده است، جمله های ادا شده به زبان های دیگر را متوجه نمی شود. پس اگر شیوه های کنونی دگرگون نشود، طراحی برنامه ای که بتواند همه زبان های رایج دنیا را دست کم تشخیص بدهد، کار دشواری خواهد بود. عصر جدید این شماره برگرفته از دو مقاله مجزا از نشریه الکترونیکی ساینس دیلی است. در قسمت نخست نگاهی خواهیم داشت به تلاش دانشمندان برای بهبود تشخیص زبان توسط کامپیوترها و در قسمت دوم کوشش متخصصان برای طراحی برنامه ای را از نظر خواهیم گذراند که می تواند همه زبان ها را تشخیص دهد.

کامپیوترهایی که یاد می گیرند بشنوند
در انستیتوی ماکس پلانک لایبزیک آلمان و نیز مرکز تصویربرداری عصبی Wellcome Trust Center بریتانیا، گروهی از پژوهشگران علوم شناختی و مغز، مدلی ریاضی را توسعه داده اند که می تواند شناسایی و پردازش خودکار زبان انسان توسط ماشین را به طرز چشمگیری بهبود دهد. این الگوریتم ها که مکانیسم های مغز را تقلید می کنند، در آینده راه را برای ساخت ماشین های شنواتر هموار خواهند کرد. شاید به شخصه تجربه کرده باشید که فهم زبان انسان برای کامپیوترها تا چه اندازه دشوار است. برای مثال اگر تا حالا طی تماس با اداره یا سازمانی با ماشین های پاسخگوی خودکار مواجه شده باشید، می دانید که در تعامل با آن ها باید قدری صبور باشید. چون اگر کمی سریع یا آهسته صحبت کنید، اگر تلفظ تان واضح نباشد یا علاوه بر صدای شما صداهای پراکنده یا نویزهای دیگری هم از دهنی تلفن به گوش کامپیوتر برسد، سیستم پاسخگو درست جواب نمی دهد. علتش این است که برنامه های کامپیوتری فعلی پردازش های خود را براساس فراز و نشیب های موجود در صدا یا تغییرات نواخت صدا انجام می دهند. وقتی کامپیوترها زبان را پردازش می کنند، در وهله اول می کوشند مشخصه های اصلی در فرکانس های صدا را تشخیص دهند تا بتوانند کلمه ادا شده را شناسایی کنند. از این رو صداهای زائد یا لحن نامأنوس، آن ها را دچار اشتباه می کند. اما استفان کیبل (Stefan Kiebel) از انستیتوی ماکس پلانک می گوید: «مغز انسان راهکار دیگری دارد. به نظر پژوهشگران، تحلیل «توالی زمانی» یا temporal sequence در پردازش های مغز اهمیت زیادی دارد.» به گفته کیبل خیلی از محرک های محیطی در دنیای ما در قالب توالی زمانی تعریف می شوند. برای مثال موسیقی و زبان مجموعه ای از قطعات صوتی با طول متفاوت هستند که براساس یک سلسله مراتب خاص در کنار هم قرار می گیرند و معنا پیدا می کنند. فرضیه کیبل این است که وقتی شخص یک جمله را بیان می کند، مغز کار خود را از کوچک ترین جزء گفتار که همان صداها یا آواها هستند (برای مثال، صدای اُ) شروع می کند و سپس به سراغ اجزای بزرگ تر مثل موضوع گفت وگو می رود. نکته این که از نظر مغز، آواها در یک بازه زمانی به سرعت تغییر می کنند و برای مثال یک فرد در عرض چند ثانیه جمله ای متشکل از ده ها آوا را به زبان می آورد. اما اجزای بزرگ تر گفتار مثل «موضوع یا سوژه مورد بحث» تغییرات کندتری دارند و چه بسا دو نفر چندین دقیقه درباره یک سوژه خاص صحبت کنند. به نظر او، مغز همواره در جست وجوی ساختارهایی است که در بازه های زمانی قابل تعریف باشند تا بتواند با تحلیل آن ها و استنتاج، آن چه را که پس از مرحله جاری روی خواهد داد، پیش بینی کند. به این ترتیب، مغز در بیشتر موارد می تواند با دریافت اطلاعاتی که تغییرات کمتری دارند (مانند موضوع گفت وگو)، کلمه ها را از روی صداهای اول شان هم پیش بینی کند. به عنوان مثال، وقتی مغز بداند که موضوع گفت وگو «تابستان گرم» است، با شنیدن دو صدای «آف» از واژه «آفتاب» بیشتر احتمال می دهد که گوینده قصد دارد واژه «آفتاب» را به زبان بیاورد و نه واژه «آفت» را. مدلی که این گروه طراحی کرده ، توانسته است این مکانیسم طبیعی در مغز را هرچند در مقیاسی کوچک تر شبیه سازی کند. با تداوم روند فعلی می توان منتظر نرم افزارهایی بود که بتوانند با دنباله روی از انسان در تشخیص گفتار، هرچند با فراز و فرودها و سرعت و تلفظ های متفاوت، موفقیت بیشتری کسب کنند.

برنامه همه زبانه !
این روزها کامپیوترها می توانند کمابیش کلام و سخن انسان ها را تشخیص دهند و در نتیجه رفته رفته به جایی رسیده ایم که می توانیم وظایفی را که از کامپیوتر انتظار داریم، با دستورهای صوتی ( نه الزاماً توسط صفحه کلید) به او ابلاغ کنیم. خیلی از کاربران شاید حرف زدن با گوشی موبایل و ابلاغ دستورهای صوتی به آن را تجربه کرده باشند. حتی با این شیوه می توانند در بین آرشیو فایل های خود چه روی گوشی و چه روی اینترنت جست وجو کنند. اما برای طراحی یک سیستم تشخیص گفتار خوب، راه دشواری در پیش داریم. زبان گفتاری به شدت با زبان نوشتاری متفاوت است و تنوع الگوهای گفتاری نیز زیاد است. به عنوان مثال، دو نفر همزبان ممکن است بیان متفاوتی داشته باشند و از لحن صحبت آن ها گرفته تا تکیه کلام ها و دایره لغات شان با هم فرق کند. تفاوت لهجه را هم می توانید به این تنوع الگو اضافه کنید. پروفسور توربیورن اسوندسن (Torbjørn Svendsen) از دانشگاه علوم و فناوری نروژ (NTNU) و همکارانش برای دستیابی به نسل جدیدی از فناوری تشخیص گفتار، راهکار نوآورانه ای را آزموده اند. آن ها دریافته اند که تولید گفتار در همه زبان ها یکسان است. یعنی هرچند یک نفر به زبان انگلیسی حرف می زند و دیگری به زبان پارسی، آن چه در مغز رخ می دهد تا گفتار به زبان بیاید، در هر دو یکسان است. باتوجه به همین موضوع، فناوری آن ها را می توان برای همه زبان ها به کار گرفت و در نتیجه لازم نیست سیستمی را که با این فناوری ساخته شده است، با تک تک زبان ها سازگار کرد و داده های گفتاری یک زبان خاص را به آن یاد داد. پژوهشگران راهکار ابداعی خود را براساس آواشناسی گسترش دادند. آواشناسی، مطالعه صداهایی است که انسان برای سخن گفتن از آن ها استفاده می کند. آن ها در این سیستم از دانش های تکمیلی دیگر درباره گفتار و زبان نیز سود بردند؛ از جمله، هماهنگی بین صدا و فرکانس و واژه ها و این که چگونه واژه ها به هم ملحق می شوند تا جمله را پدید آورند. در روش دکتر اسوندسن و همکارانش، کامپیوتر را طوری آموزش می دهند که بتواند با تحلیل امواج صوتی ضبط شده توسط میکروفن، اجزای یک گفتار را تشخیص دهد. تاکنون دو راهکار متداول برای طراحی سامانه های تشخیص گفتار وجود داشته است که روش دانشمندان این مرکز ترکیبی از هر دو است. در یکی از این راهکارها افراد، واژه ها و صداها و قوانین استنتاجی را بررسی و سپس آن ها را وارد کامپیوتر می کنند. برای مثال، بررسی می کنند که کدام حرف صدادار است و کدام بی صدا، یا این که آیا هنگام ادای یک حرف تارهای صوتی مرتعش می شوند یا نه. سپس این قوانین به کامپیوتر هم منتقل می شود. پروفسور اسوندسن می گوید: «اگر ما یک جزء کوچک از گفتار را تحلیل کنیم و دریابیم که بازه فرکانس یکی از صداهای ادا شده بین 750 تا 1200 هرتز است، آن گاه احتمال این که آن صدای خاص، صدای «آ» باشد، زیاد است. یا اگر این بازه بین 350 تا 800 مگاهرتز باشد، احتمال این که آن حرف، حرف «او» باشد بیشتر است.»

راهکار دوم این است که یادگیری را به عهده کامپیوتر بگذاریم نه این که قوانین را خودمان به آن منتقل کنیم. پس در این راهکار، مجموعه بزرگی از داده های نمونه به کامپیوتر منتقل می شود تا خود کامپیوتر با تحلیل آن ها قوانین را بیاموزد. به گفته پروفسور اسوندسن، کامپیوتر در آغاز برای همه صداها احتمال رویداد یکسانی را در نظر می گیرد اما هرچه یادگیری با استفاده از تحلیل نمونه های انبوه (data-driven learning) پیش می رود، به آن صداهایی که بیشتر به کار می روند احتمال بیشتری نسبت داده می شود و بالعکس. در این متد نسبت به روش نخست، داده های گفتاری بیشتری پردازش می شوند. گام بعدی برای پژوهشگران، توسعه یک ماجول مستقل از زبان است تا توسط آن سامانه های تشخیص گفتار دقیق تری بسازند. این راه هم به لحاظ زمانی و هم به لحاظ هزینه مقرون به صرفه است و نه فقط نروژی ها (که زبان شان در اقلیت قرار دارد) بلکه همه از آن سود خواهند برد. در دنیا زبان هایی وجود دارند که تنها افراد اندکی به آن زبان ها سخن می گویند، پس برنامه ای چنین فراگیر برای آن ها نیز بسیار کارآمد خواهد بود. این فناوری می تواند حتی در موقعیت هایی که چندین زبان مختلف همزمان مورد استفاده قرار می گیرند، کارساز باشد؛ چنان که تنها 30 تا 60 ثانیه طول می کشد تا یک زبان گفتاری توسط این سیستم شناسایی شود. شاید یکی از کاربردهایی که می توان از این سامانه انتظار داشت در سناریوی فرضی زیر قابل تصور باشد: یک گردشگر خارجی با موقعیتی اضطراری مواجه می شود و به پلیس مراجعه می کند. نه از زبانش پیداست که اهل کدام کشور است و نه خودش می تواند منظورش را بفهماند. پس از او می خواهیم که با کامپیوتر باهوش مان حرف بزند و کامپیوتر در کمتر از یک دقیقه می گوید که او دارد به فلان زبان حرف می زند!

منبع: وبسايت شبکه و 101cyber
__________________
حیف جمعه ها روزنامه منتشر نمی شود ، حیف!
چه تیتری میشد آمدنت …
اللهم عجل لولیک الفرج

S@m!ra آنلاین نیست.   پاسخ با نقل قول
یک کاربر از پست مفیدS@m!raتشکر کرده است:
Sponsored Links
پاسخ


کاربران در حال دیدن موضوع: 1 نفر (0 عضو و 1 مهمان)
 

(View-All تعداد کاربرانی که این تاپیک را مشاهده کرده اند : 2
S@m!ra, tina74
ابزارهای موضوع
نحوه نمایش

مجوز های ارسال و ویرایش
شما نمیتوانید موضوع جدیدی ارسال کنید
شما امکان ارسال پاسخ را ندارید
شما نمیتوانید فایل پیوست در پست خود ضمیمه کنید
شما نمیتوانید پست های خود را ویرایش کنید

BB code هست فعال
شکلک ها فعال است
کد [IMG] فعال است
کد HTML غیر فعال است

انتخاب سریع یک انجمن


اکنون ساعت 18:31 برپایه ساعت جهانی (GMT - گرینویچ) +3.5 می باشد.


Powered by vBulletin Version 3.8.9
.Copyright ©2000 - 2017, Jelsoft Enterprises Ltd

Free Persian Language By Persian Forum Ver 3.0
« ثبت شده در پایگاه ساماندهی وزارت ارشاد »
مسئولیت متون درج شده در این پایگاه اینترنتی، بر عهده ی نویسنده ی آن می باشد.