Magi 火了:搜索引擎界的一股清流
聲明:本文來自于微信公眾號 InfoQ(ID:infoqchina),作者:Tina,授權站長之家轉載發布。
“Peak Labs”公司近日發布了其人工智能系統 Magi 的公眾版“ magi.com ”。通過這一搜索引擎,用戶輸入關鍵詞,即可獲取 Magi 從互聯網文本中自主學習到的結構化知識和網頁搜索結果,每個結構化結果后面都會附上來源鏈接和其可信度評分。
這跟我們使用的傳統搜索引擎不同,傳統搜索引擎返回的是一系列的鏈接,要解讀問題,還需要自己去點擊網頁挖掘有用信息。
這一引擎發布后,引來大批網友圍觀,將它的服務器玩掛了。Magi 作者發微博做了回應:“突然很多人關注到了我們,真的很感謝大家,其實搜索引擎真的不是我們的主業,我們自己沒做任何推廣,更沒來得及準備應對這恐怖的流量……Magi 單次搜索的計算量比一般的網頁搜索要重很多,請大家手下留情,同時再次表示抱歉!”
magi.com 的結果中,答案在搜索框的正下方,鏈接則在頁面右邊,跟主流搜索引擎的用戶界面相反。如在 magi.com 里搜索“編程語言”,出來的首先是各種主流編程語言的合集:C#、Python、Java、JavaScript…同時給予“編程語言”這個詞以“描述”和“屬性”解釋。紅黃綠的顏色代表 Magi 給出的可信評分級別。
在答案的右側提供了一些鏈接,用鼠標劃過它們即可看到,答案是從哪個具體的來源學習到的:
Magi 的關注點在用戶搜索行為的本質,相對傳統搜索引擎來說做了一點小改進 :“幫你思考”。當輸入想了解事物或信息,傳統搜索引擎給出的是按照結果的權重 (Page Rank) 展現的鏈接信息,需要自己去歸納和判斷可信度。Magi 多做了一步,不僅收錄互聯網上的海量文本,還會去嘗試理解并學習這些文本中蘊含的知識和數據。
季逸超表示,Magi 類似于民用版的 IBM Watson 或非學術版的 Wolfram Alpha。Wolfram Alpha 是一個讀得懂你提問的搜索引擎,它的目標是“計算一切” 。按照發明者 Stephen Wolfram 的說法,它是一個計算知識引擎,而不是像百度或者谷歌那樣的搜索引擎。簡單地說來,它其實是一個繪圖計算器、參考書圖書館、以及搜尋引擎的綜合體,非常超前。
除了直接給出計算結果,Wolfram Alpha 還能夠處理基于自然語言的事實問答問題,例如:
如果輸入“China GDP”,出現的將不是一大堆網頁,而是直觀的數據和圖表。包括:中國 GDP 最新情況,從 1970 年至今的中國 GDP 增長情況(圖表形式)、中國通貨膨脹率、失業人口率。
如果輸入“How many people in China”,你可以看到當前中國的總人口數、人口密度、平均每年人口增長率、預期壽命和平均年齡等數據。
Magi 的背后
Magi 來自中國團隊 Peak Labs,創始人季逸超在開發者圈子內也小有名氣。2011 年,還在北大附中讀書期間,他就獨自完成了猛犸瀏覽器 iOS 的開發。2012 年,季逸超創辦了自己的公司,繼續推動瀏覽器和輸入法項目。目前,Peak Labs 主要精力都放在 Magi 項目上,專注于背后的技術,以及相關商業產品的開發。
“我們真正做商業化的,是 Magi 背后的技術——基于遷移學習的開放信息提取。”Magi 采取的遷移學習 NLU 算法,具有的優勢在于只需使用通用數據訓練 AI 引擎,就能使 AI 引擎很好的適用專業垂直領域。Magi 首先使用互聯網知識和自有的數據進行預訓練,而專業垂直領域的任務僅需極少量人工數據標注,就能達到大規模數據的訓練效果。
季逸超在知乎上給出了詳細而全面的技術解讀
一、利用率和通用性
Magi 不再依賴于預設的規則和領域,“不帶著問題” 地去學習和理解互聯網上的文本信息,同時盡可能找出全部信息 (exhaustive) 而非挑選唯一最佳 (most promising)。Magi 通過一系列預訓練任務淡化了具體實體或領域相關的概念,轉而學習 “人們可能會關注內容中的哪些信息?”。為 Magi 設計了專門的特征表達、網絡模型、訓練任務、系統平臺(下面都會講到),并投入大量精力逐漸構建了 proprietary 的專用訓練 / 預訓練數據。Magi 通過終身學習持續聚合和糾錯,為人類用戶和其他人工智能提供可解析、可檢索、可溯源的知識體系。
二、覆蓋率和時效性
配合自家 web 搜索引擎以評估來源質量,信息源和領域不設白名單,綜合 Clarity(清晰度)、Credibility(可信度)、Catholicity(普適性)三個 Magi 權衡知識工程的規模化和準確性難題的量化標準來進行來源質量評估。且注重時效性,時效性體現在上文提到的對既有知識的時間線追蹤,做到不再周期性觸發 batch 更新,整個系統持續在線上學習、聚合、更新、糾錯。
三、可塑性和國際化
沒有前置 NER 和 dependency parsing 等環節,減少母文本信息的損失。為 Magi 的提取模型設計了專用的 Attention 網絡結構以及數個配套的預訓練任務。技術棧完全 language-independent,可以實現低資源和跨語言 transfer。
它做對了什么?
Magi 官網和季逸超自己也坦承還存在一些不足,比如消歧義、工程性,以及規模化和準確度等。對于搜索慢的問題,季逸超在微博中說,這是由于單次搜索的計算量比一般的網頁搜索要重很多。Magi 搜索結果目前還不夠好,但這也不妨礙它成為一個未來的搜索引擎方向,給用戶提供一個可信任的和理解學習之后的知識。特別是發展在這個 AI 時代,搜索引擎的結果更應該貼近用戶的需求。
現在的主流搜索引擎依靠機器抓取,建立在超鏈分析基礎上的網頁搜索,采用搜索爬蟲和排序算法的組合,以關鍵詞為核心自動檢索,實現海量信息的自動獲取與重要性排序。作為獲取信息的入口,它直接關系到我們獲取的信息的質量,也成就了早期的互聯網公司。
但現在搜索引擎的過度商業化操作已經引起了用戶的反感。Magi 的優勢在于去除了商業化的元素,篩除了廣告,使搜索到的信息更純粹,更有價值,節省用戶的時間。
季逸超在他的微博里說道:“現在的 Magi 飽含一個工程師樸素的初心,既不想拿廣告惡心你,也對你的隱私毫無興趣。”
Magi 引擎的“火”,說明了搜索引擎在向更好的方向發展。
聲明:本文轉載自第三方媒體,如需轉載,請聯系版權方授權轉載。協助申請