• 沒有找到結果。

IOSec 2019: 無。

一、 參加會議經過 ACII 2019

的演講“How Machines Perceive Emotions?”主要想傳達的精神是人們數位裝置已經可以從各種類型的資 料感知使用者的情緒,包含智慧型手機相機、貼文或文章自然語言資料、社群網路互動、影音多媒體

關於大會的 main conference sessions,我從中挑選幾場值得分享的,撰寫其核心概念如下。

(1) 透過穿戴式裝置與人體行為多重感測器,加上深度學習方法,可有效對社群媒體上使用者所沒有 提供的 missing data values 進行 imputation,並且獲得不錯的誤差減少,顯示感測資料明顯與社群 媒體個人屬性欄位有所關聯,不過要能取得感測資料與社群媒體資料的配對是蠻不容易的。

(2) 一般進行文字探勘多是從社群媒體使用者貼文中,預測使用者屬性或情感,然而對實際應用來說,

尤其是憂鬱症或躁鬱症偵測,不僅與情感相關,使用者屬性也很有關聯,因此有學者同時結合屬 性資料與多媒體感測行為資料,來準確預測使用者是否有憂鬱症或躁鬱症。

(3) PyPLT 是今年 ACII 研究人員所開發的 preference learning toolbox,主要提供目前最好的 ordinal data processing 演算法,能有效且方法地從資料中產生物件彼此間的 ordinal relations 如 ranking 與 subjective ratings,可有效應用於推薦系統與精準行銷,目前提供演算法包含 RankSVM、RankNet 與 ANN-Backpropagation。

(4) 澳洲南昆士蘭大學研究人員提出 Unsupervised Adversarial Domain Adaptation,可有效針對跨語言對 話資料進行使用者情緒識別,主要概念是透過生成對抗網路 GAN 來學習 language-invariant feature representations,且其中不需要目標語言的情緒標記資料,這是該方法最具貢獻之處。

(5) 德州大學研究人員開發出融合主動學習 active learning 的深度神經網路模型,來進行 speech emotion recognition,可透過使用者回饋有效解決標記資料不足的問題。

ACM UbiComp 2019

ACM UbiComp 是一個資訊科學中跨領域的頂尖國際會議,主要涉及的領域包含機器學習、資料科學、

穿戴式裝置、行動運算、以及人機互動介面,從 2017 年開始,UbiComp 僅接受來自 Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies (IMWUT)的論文發表,藉此提高所收 錄論文的曝光度,並讓相關學者有一個頂尖互動交流的論壇。

3

在今年 ACM UbiComp 2019 會議中,我最想分享的是來自英國牛津大學電腦科學系的 Prof. Marta Kwiatkowska 的 keynote talk,“Machine Learning Models for Ubiquitous Systems with Safety and Reliability Guarantees”,在演講中 Prof. Kwiatkowsk 一直強調 predicting multimodal features 的概念,她認為從智慧 型手機到穿戴式裝置、乃至於無人自駕車與機器人,背後人工智慧模型必須要能隨時感知環境的各種 模態資料,如影像、影片、文字、對話、聲音、甚至物理世界的實體互動與變化,然而目前的人工智 慧機器學習模型多只能針對單一模態進行模型訓練與建立,研究人員應透過深度學習逐步邁向有效的 萃取不同模態的特徵,方能做到具有足夠可靠性 reliability 的世界模型,進而對於智慧醫療儀器、生化 安全預測、以及自駕車,產生夠穩定且夠安全的智慧服務。此外,這些人工智慧模型在融合不同模態 的同時,必須要建構一種驗證機制,讓使用者的個人隱私能被多模態感測資料給還原,否則就喪失多 模態資訊帶來的好處與意義了。

關於 ACM UbiComp 2019 的 main conference sessions,內容主題涵蓋從深度學習、推薦系統、隱私保護 資料分析、文字探勘、以及社群網路分析,面向十分多元且收穫也蠻多的。以下我就最深刻且最有收 穫的所見所聞的幾項研究進行報告。

(1) LeakDoctor 這個系統能夠自動診斷並偵測智慧型手機是否有被洩漏個人隱私資料的風險,尤其針對 某一個被安裝的 app,主要利用使用者使用 app 的習慣、時間、功能所組成的 log 資料,從中透過 機器學習方法建立模型,來對使用者隱私欄位進行預測,進而獲得風險機率值。

(2) Confidence-aware Collective Matrix Factorization (CCMF)這個新的方法能產生具有隱私保護的跨領 域地點推薦結果,其精神是採用 differential privacy 來對使用者去過的地點進行隱私保護,接著再用 矩陣分解來完成推薦,但我個人認為該 CCMF 模型遺漏了 sequential features,也就是假定地點拜訪 彼此是獨立的,或許序列特徵也會洩漏個人隱私。

(3) Animo 是一款研究人員開發的 app,它能讓安裝該 app 的使用者們分享彼此的生理訊號,進而輔助 社交互動經驗,譬如分享心率 heart rate 給朋友,進而探討生理訊號如何影響社交互動的樣式。

(4) GeoLifecycle 探討線上與線下 location-based social networks (LBSN)中使用者參與社團(communities) 對於地點拜訪之間的影響,目的使找出並預測哪些人究竟最終會離開該 LBSN 服務(churn predic-tion),並進行地點推薦,實驗結果發現探索新地點以及具足夠的線上討論,對於預測離開以及地點 推薦而言,有最大的貢獻與影響。

(5) PANDA 是一個融合 deep multi-task learning 的空氣品質預測演算法,該方法解決了傳統空氣品質預 測的三個難題:只有一部分的時間序列與空氣品質有關、特徵都是事先定義好並且計算而得的、卻 少足夠量測站來建構有效的訓練模型。

ACM RecSys 2019

ACM RecSys 是推薦系統領域的頂尖國際會議,會議最大的特點是 single session,也就是所有與會學者 只會在同一個大演講廳中聆聽,因此格外能引起討論與互動,並且能夠讓每一個最新研究有最大的曝 光度。推薦系統典型作法是透過使用者與商品之間的互動來建立監督式模型,近年來隨著深度學習技 術的普及,深度學習相關進階演算法逐漸被應用在建構更有效的推薦系統上,因此今年 ACM RecSys 2019 可以在各場演講中聽到深度學習的各種延伸與變形,而應用的領域也從傳統的商品推薦,推廣到 精準行銷、智慧醫療、金融科技、智慧型個人助理等重要人工智慧議題上。從今年的大會 tutorials,更 可知到目前推薦系統的趨勢,即公平性 fairness、市場區域 marketplaces、圖形特徵表示學習 graph embedding、以及多任務學習 multi-task learning。

4

關於今年推薦系統大會的 keynote,來自蘇黎世大學的 Prof. Eszter Hargittai 讓我最有感,她的講題是

“Whose Data Traces, Whose Voices? Inequality in Online Participation and Why it Matters for Recommender Systems Research”,其主要精神是要告訴我們推薦系統產生的結果仰賴於使用者群眾是哪些、他們的網 路數位足跡長什麼樣子、他們具備什麼技能、他們所見所買是來自於服務提供者所給的呈現方式,此 外,對各個人屬性(如性別、種族、年齡等敏感欄位)對於推薦系統將造成不可忽視的不公平性,使 得推薦系統朝向某一屬性值產生偏差(bias),譬如黃種人男性在電子商務平台上的行為,將使得同樣是 黃種人男性的使用者獲得類似的偏差推薦結果。最核心的問題是,除了使用者與商品之間的互動、使 用者彼此間的社群網路結構、商品與商品之間基於 metadata 所構成的知識圖譜 knowledge graph,如何 蒐集且利用使用者的數位足跡,並透過深度學習來進行特徵學習,將是下一階段推薦系統的主要課題,

而其中蒐集到數位足跡又涉及隱私與個資,在 GDPR 的規定下又形成另一個挑戰。

今年 ACM RecSys 的論文發表十分多元有趣,以下就我聽到比較有趣的進行報告分享:

(1) Deep Generative Ranking (DGR)模型為解決推薦系統中 user-item 互動稀疏性與最佳化過程中的不穩 定性,提出透過 Wasserstein auto-encoder 來產生 pointwise implicit feedback 來生成 pairwise ranking list,並且透過理論證明來確保它能在極端稀疏資料上維持足夠的 generalization error。

(2) Style Conditioned Recommendations (SCR)透過將風格作為條件來達到多樣化推薦,這個作法以 Conditional Variational Autoencoder 為基礎,讓 encoder 與 decoder 能把 user profiles 當成 condition 來 學 user-content interactions,藉此能將原先應用在影像風格轉換上的 style transfer 應用在推薦系統上。

(3) 有學者嘗試探討 session-based item recommendation 的預測極限,在多種資料集包含電子商務、音樂 串流、打卡地點,並透過 entropy rate 作為量測指標,系統性比較在不同訓練技巧下,過去 items 如 何對未來 items 預測產生影響,並分析預測準確性的 upper bound。

(4) LORE 是一個考慮資格 eligibility 與個數限制 capacity 的推薦演算法,尤其應用於有限制資料並限量 的折扣券發放上,需要推薦感興趣且有可能帶來吸引更多相關客戶的目標客戶,LORE 透過 Min-Cost Flow network optimization 來使得方法能在 polynomial time 下滿足 constraints,並進一步分成 single period solution 與 sequential time period offering 來討論時間對於限制與效果的影響。

(5) FiBiNET 進一步考慮 user features 與 item features 的重要性以及彼此間的特徵互動所建構的 click rate prediction 演算法,其主要想法是透過 Squeeze-Excitation network (SENET)機制來學習特徵的重要 性,並透過 bilinear function 來學習特徵互動,實驗發現比經典的 FM 與 FFM 模型還要有更好的推 薦準確性,若再加上 deep neural network layers,更可勝過 SOTA 的 XdeepFM 模型。

IOSec 2019

由於人在盧森堡大學進行移地研究訪問,在 Dr. Jun Pang 的邀請下,一同前往他們主辦的 Information &

Operational Technology (IT & OT) security systems workshop 聆聽資料科學在資訊系統安全中的最新研 究,該會議中我發現為了達到資訊系統安全性,各種感測器與監控裝置紀錄了許多文字與影響的 logs,

這些感測而得的資料通常在資訊安全領域是缺少被利用的,主要原因是這些感測資料許多都和使用者 個人隱私有關,因此就衍生出不侵犯隱私的機器學習、推薦系統與深度學習演法的機會,目的是不能 讓所建構的模型得以回推使用者敏感欄位,並同時提高偵測惡意入侵與提早偵測異常行為的準確性。

IOSec workshop 是附屬在 The European Symposium on Research in Computer Security 2019 會議下,因此 可以聽到大師級的分享。

我去聆聽來自以色列大學 Prof. Adi Shamir 的 keynote talk,講題是“The Insecurity of Machine Learning:

Problems and Solutions”,Prof. Shamir 藉由僅通過少數改變原始資料的 adversarial examples 就能欺騙深

5

度學習神經網路模型作為開頭,來探討我們該如何信任機器學習產生的預測結果。在 Prof. Shamir 的演 講中,它透過一個簡單的數學模型,將電腦視覺物件辨識、無人自駕車、國家安全等問題給抽象化,

度學習神經網路模型作為開頭,來探討我們該如何信任機器學習產生的預測結果。在 Prof. Shamir 的演 講中,它透過一個簡單的數學模型,將電腦視覺物件辨識、無人自駕車、國家安全等問題給抽象化,

相關文件