人工智慧也能成為你的「眼」？Facebook 測試能解讀影像內容的 App VQA

當你上傳照片到 Facebook 後，通常系統會詢問你是否要標註照片中的朋友，並提供 Facebook 所辨識出的人臉選項，讓你省去搜尋朋友名字的麻煩，而往後的這項功能將會再進化升級了。Facebook 要將人工智慧用在照片人臉辨識上，怎麼說呢？未來當你點選 Facebook 上的某張照片時，Facebook 還能用語音告訴你照片中有什麼。

在今年 3 月的年度開發大會 F8 上，Facebook 技術長 Mike Schroepfer 介紹了旗下人工智慧團隊（Facebook’s AI Research，FAIR ）一手打造的「Memory Networks（MemNets）」技術，這項技術能讓機器進行複雜的問答對話，當時 Schroepfer 現場展示了 MemNets 系統，先讓機器讀取《魔戒》一書的內容摘要資訊，接著再提出如「魔戒被拿到末日火山前被帶到哪裡」這類與魔戒有關的複雜問題，MemNets 系統能夠從先前讀取的內容摘要中，找到符合問題的答案，進而回答問題。

而現在，Facebook 正在測試的 app「VQA（Visual Q&A）」，利用 Facebook 的影像辨識技術結合 MemNets 系統，讓機器能辨識照片中各個不同的部分，並回答使用者所提出的、關於照片內容的各種問題。

例如，在 Facebook 上出現小孩的照片，你可能會問 VQA，「小孩現在在哪裡呢？」或是「小孩在幹嘛呢？」，這時，VQA 便會回答你，「小孩正在浴室」或是「小孩正在刷牙」。

下方為 VQA 技術的示範影片：

Visual Question and Answering DemoEarlier this year, we showed some of our work on natural language understanding — specifically, a system called Memory Networks (MemNets) that can read and then answer questions about short texts. In this demo of a new system we call VQA, or visual Q&A, MemNets are combined with our image recognition technology, making it possible for people to ask the machine what’s in a photo.

由 Facebook Engineering 貼上了 2015年11月3日

VQA 對視力有缺損的人來說，無疑是其接觸社群平台的一大幫助。如 Schroepfer 所說，「想像你是視力缺損者，對你來說，要在社群平台上與朋友交流，得依靠視力才能全然參與其中。而你其中一位朋友，捕捉自己剛出生的小孩影像，即便現在已經有科技能讀出社群平台的文字，但你卻缺少了解照片內容的輔助工具」，這時候，VQA 功能就能為視力受損者帶來不少便利。