中國青年報客戶端訊(陳書靈 中青報·中青網(wǎng)記者 王燁捷)只需一枚攝像頭和一對耳機便能將畫面轉(zhuǎn)化成語言,描繪場景、提示風險,讓視障者出行更安全、生活更便捷。日前,復旦大學自然語言處理實驗室(FudanNLP)的師生們研發(fā)了一款基于多模態(tài)大模型的“復旦·眸思”(MouSi)系統(tǒng),為視障者量身打造了“聽見世界”App。預計今年3月該App將完成第一輪測試,在我國一二線城市和地區(qū)同步開啟試點,根據(jù)算力情況進行推廣。
“聽見世界”App有三種工作模式。一是街道行走模式,它可以細致掃描道路情況,發(fā)現(xiàn)紅綠燈、十字路口、障礙物等,提示潛在風險;二是自由問答模式,它可以帶著視障人士走進博物館、藝術(shù)館、公園,捕捉四周景象的每個細節(jié),用聲音構(gòu)建生活場景;三是尋物模式,它可以及時幫助主人找到不知道被放在哪里的手杖、不同口味的牛奶等。
據(jù)悉,我國盲人數(shù)量有1700多萬,但在街上很少看到盲人出行。一個重要的原因是他們出門要面對大量不安全因素,難以獨自成行。
復旦大學自然語言實驗室張奇教授介紹,“聽見世界”App項目的主導者都是“初出茅廬”的學生,在組內(nèi)頭腦風暴會上,年輕學子總能提出開創(chuàng)性想法”。
該項目團隊共計吸納了從本科生到博士生共25名復旦學子以及桂韜等多位教師、專家的加入。為了更好地感受視障者的難處,團隊成員同樣模擬真實情境,蒙眼探索視障者“黑暗”世界,并邀請視障人士加入,進一步摸清真實而具體的需求。在基于幾億張圖片訓練出的“眸思”大模型基礎上,針對視障者提出的各類需求,同學們又用上萬張圖片進行特殊樣本訓練,使“眸思”具備能夠適配更多場景的能力。未來,該項目還會開發(fā)更多的使用模式,比如閱讀模式,服務盲人朋友點菜、讀書等場景;解說模式,承擔無障礙電影解說員的工作。
(編輯:映雪)