2024 年10月,在信息檢索和數據挖掘的國際學術會議CIKM (International Conference on Information and Knowledge Management) 上,京東探索研究院院長、京東科技人工智能業務負責人何曉冬博士發表的研究成果DSSM模型(基于點擊數據學習用于網絡搜索的深度結構化語義模型:Learning deep structured semantic models for web search using clickthrough data)因對內容推薦架構產生重大影響并為產業帶來巨大的經濟效益,榮獲 CIKM 2024年唯一的“最佳時間檢驗獎(Test of Time Award)”。
CIKM 由ACM SIGIR分會主辦,是信息檢索和數據挖掘領域的頂級學術會議之一,因CIKM論文的研究成果經常得到產業界的采納,所以CIKM也是少數受到學術界和產業界共同關注的活動,只有少數高質量的論文能夠脫穎而出被錄用,2024年CIKM的錄用率僅為23%。每年的“最佳時間檢驗獎”更是彰顯了論文在學術和產業上的雙重價值——以在過去10年產生重大和持續影響為評選標準。
本次獲評的DSSM雙塔模型是各類雙塔模型的開山之作,奠定了召回和粗排階段的基礎架構,為后續眾多改進型雙塔模型奠定了基礎。
DSSM雙塔模型最大的特點是,user 和 item 是獨立的兩個子網絡,即分別使用相對獨立的兩個復雜網絡構建用戶相關特征的 user embedding 和 item 相關特征的item embedding,因而被稱為雙塔模型。
DSSM模型不僅為內容推薦系統的基礎模型和架構奠定了堅實的基礎——是深度語義學習方向最基礎的模型結構,解決了語義相似度計算的問題。2016年,圖靈獎得主Yoshua Bengio和Ian Goodfellow(GAN的發明者)、Aaron Courville三人共同編撰的深度學習領域奠基性教材《Deep Learning》(引用量3萬余次)一書中就將本次獲評的DSSM模型視為基于內容的推薦系統的基礎架構。同時,因為兼顧性能與效率,DSSM 模型對產業界十分友好,在發布后的10年中得到了大量的應用。
DSSM 深度語義匹配模型最早是應用于 NLP 領域中計算語義相似度任務。語義匹配本身是一種排序問題,和推薦場景不謀而合,所以 DSSM 模型被自然的引入到推薦領域中,如搜索引擎檢索、廣告相關性、問答系統、機器翻譯等。過去10余年,深度學習技術的應用極大地提升了互聯網搜索引擎的語義理解能力、信息檢索效率和用戶搜索體驗,使得搜索結果更加精準、豐富和個性化。頭部搜索引擎,電商平臺的搜索、推薦和廣告業務中都大量采用了該技術,產生了巨大的經濟價值。
何曉冬博士曾表示,“在多年的技術落地實踐中,我們意識到,用AI來提升、賦能傳統實體行業才能最大化影響力和應用價值,傳統實體行業的體量足夠大,提升1%就能創造巨大的應用價值!焙螘远┦吭诰〇|科技負責人工智能在產業上的落地應用,近年來陸續與團隊研發出了智能客服、數字人直播、智能外呼等多項專業可信賴的AI產品,在零售、物流、金融、政務文旅等領域獲得了廣泛應用。據公開消息,京東云言犀數字人已服務超5000家品牌,帶動銷售額超百億;智能客服覆蓋了消費者進店后30多個關鍵環節,可自動化應答售前、售中、售后全場景90%的服務咨詢,服務品牌商家數量超40萬;智能外呼與政務熱線緊密結合,助力大同、東莞、保定、蕪湖多地12345熱線實現數智升級……
技術創新是企業發展的重要驅動力。不少技術人認為,能否讓技術擁有廣袤的實踐場景,產生應用價值,是考評是否加入該企業的終極門檻。以京東為例,京東創立20多年來,持續投入供應鏈基礎設施和技術創新應用,為用戶帶去“多快好省”的極致體驗,也推動品牌和商家實現降本增效,不僅擁有海量應用場景,更積累了大量專業數據?梢哉f,技術與創新的基因早已植入京東的發展脈絡。這也是京東可以讓大量技術人在真實場景中充分發揮創造力,持續推出多項專業可信賴的AI等技術創新的重要原因。
(責任編輯:魏京婷)