摘要:2011年至2015年,五年共造成經濟損失550億元。
中國的反欺詐有多難? “2011年至2015年,五年共造成經濟損失550億元,“ 通付盾創始人董事長兼CEO汪德嘉,在一本財經舉辦的“2017消費金融CRO全球峰會“上稱,看看中國黑產的規模,就知道反欺詐有多難。 大數據、人工智能、活體識別、人像比對、設備指紋、人臉識別““大量的風控技術,都開始運用到場景之中。
技術真的能阻擋黑產腳步嗎? 段瑩:“未來信貸是拼圖式的,拼成一個生態“
01 五類信貸資產 我們總結2017年整個中國信貸市場上信貸資產的特點,可以分為五大類: 1、線下消費貸。以場景風控為核心,比如捷信,擁有幾萬人駐扎的門店。通常經營標準化的3C、家電產品等。它的優勢是,因為有消費場景,所以風險相對可控;但需要大量的地面人員,門檻相對高。 2、線下信用貸。通過門店去獲客,比如車主貸、白領貸等等。這類特點是通過門店、信貸員去獲客,做初步審核,然后加上中央的集中風控,是比較典型的“信貸員模式“和“信貸工廠模式“的結合。 這兩類玩家相對比較多一點。 3、抵押貸。比如車抵貸、房抵貸等,以抵押的形式控制風險,風控也偏向傳統,是很多傳統金融機構開展的業務。 4、線上小額現金貸,Payday。 5、線上大額現金貸。 不管是線上還是線下的現金貸業務,都是在2015年才開始有比較大發展。payday這種模式,在2015年中旬起步,隨著一些公司的快速擴張,迅速興起。這類模式的特點是,額度特別小,利率相對高。
為什么很多人會做payday呢? 因為很多機構是偏互聯網出身的,payday更多是強調高利率來覆蓋高風險,通過快速的風控迭代,保證存量用戶,就能產生利潤。 線上的大額現金貸,跟payday相比,最大的特點是借款額度相對大。這時,機構就沒有足夠資金或風險忍受度,能在在幾萬、幾十萬甚至上百萬的用戶中測試。 所以,這種模式更多是通過定向邀請白名單用戶來做。比如微粒貸,是把高風險、高利率的小額現金貸,往更高的額度、更低利率、更長的期限來擴展。 目前,受限于種種的因素,從事的大額現金貸的機構相對少一點。
02 風口浪尖的payday 未來,什么樣的信貸資產更加符合這個時代的發展潮流? 從去年監管出臺,20萬借款限額出現后,兩類業務發展的特別快:一類是車抵貸,一類是payday。 payday,它的優勢是能快速積累用戶,最大的特點是必須有足夠的流量,通過大量“新客戶變成老用戶“的沉淀來建立信貸體系,可能風控更依賴催收去做。 這個行業過去一年半發展非常紅火,競爭很激烈,也存在很多問題,比如政策風險,還有共債嚴重。 我們從2016年初開始關注共債嚴重問題。 從數據來看,2015年下半年,payday共債率大概百分之三四十,但一年半后,如今共債率漲到百分之九十以上。 這個行業競爭激烈,因為它相對來講門檻低一點,競爭激烈在所難免。 payday的這些人群到底是不是只申請payday呢?是不是可能里面也有相對好的人群會申請利率更低金額更大的產品呢?從百融的數據來看,基本上印證了我們的觀點。我們發現payday產品的申請人還去申請別家產品的payday比例挺大的,30%左右,比信用卡等一些利率更低的產品比例要高。
03 白名單 不過, payday人群里,其實還有不少“好人“,可以給他們提供利率更低、時間更長的信貸產品。 但其實很多人也都想到這一點,問題在于如何找到這類優質人群呢?如何避免被欺詐團伙盯上呢? 我們做了一些嘗試,通過邀請制的方式,先找出比較好的客戶,定向去邀請。通過這種方式,一方面盡可能避免被欺詐團伙盯上,另一方面還保證比較好的用戶體驗。 太陽底下沒有什么新鮮事,其實這個思路也并不是獨創。傳統信用卡會有聯名卡,本質是認為某一類場景下的用戶就是資質比較好的客戶,通過預篩選把風控前置,不管是主動邀請被動觸發,都能解決用戶體驗和風控的矛盾。 預設白名單,一方面能改進用戶體驗,更快進行額度定位、審批;對于信貸機構而言,能夠做到風險前置,避免風險后置的矛盾。 未來的信貸可能是拼圖式的,需要四塊拼圖,第一是資金,第二是風控能力、技術、系統,第三是流量、獲客,第四是數據。所以未來任何機構之間的合作,各家的核心能力不同,把拼圖拼到一塊,搭建一個更好的生態。
汪德嘉:“反欺詐不可能孤軍作戰“ 風控從另一個維度看,就是客戶關系的管理,流量就是獲客,精準營銷就是獲得流量。真正做好金融,就是要做好精準的風控。什么是精準風控?就是技術+數據+人工智能。 在中國用手機號做欺詐,團伙的規模到金額,觸目驚心。2011年至2015年,五年共造成經濟損失550億元,2016年電信欺詐,僅上半年就立案近百萬件,造成損失逾兩百億元。 為什么會發生這種情況?一是海量數據泄漏;二是新型欺詐行為更多是通過“人機對話“,有很強的隱蔽性;三是詐騙手段翻新速極快;四是金融欺詐逐步形成了包括上、中、下游結構完整黑色產業鏈,增加了風控的難度。 舉例說明,黑客非法獲取用戶個人信息,數據拿到后,大量二道販子在中間賺取差價。每個環節每個人分工十分明確,甚至有人會專門去聯系相關的培訓機構或詐騙團伙,從而把手上的數據賣到下游。而下游這些團隊,有專人負責詐騙的話術編寫培訓、線上通過第三方支付平臺洗錢、線下ATM機提款等,分工十分明確。 因此,企業做反欺詐不可能孤軍作戰,一定要一幫朋友,打群架的時代,有朋友、有渠道、有信息,才能把反欺詐做好。 從移動金融風控整個鏈條看,我們關注幾點:一是賬號,二是應用APP,三是業務,即欺詐風險和信用風險。形成一套產品,把風控防止前置,做到多維度,態勢感知,以及風險信息共享,只有這樣才能做到更精準的防控。 目前互聯網金融應用都以APP的形式存在。對黑客來說,只要有漏洞,就可以偽造交易,竊取用戶的信息,從而利用這些信息來騙貸。因此,一定要對APP進行檢測,看是不是有病,是否健康。 如何對APP進行檢測?我們的做法是把移動互聯網上所有的APP、安卓、IOS都集中起來放在一個庫里。再用不同的維度進行分析,從偽造、密碼、弱點、內容等角度掃描。黑客一旦通過APP發到云端,我們立刻就能知道他的具體位置,從而幫助破案取證。 現在也有許多公司利用人工智能做風控,我認為人工智能的算法不重要,重要的是樣本。例如向C端提供反欺詐機器人,可以看手機是否健康;通過深度學習技術智能分析各行業風險,打造全場景風控策略。這些都是很好的嘗試。 喬楊:“大數據風控,既要用“術“也得懂“道““
01 數到用時方恨少 我講兩個部分,大數據風控困境和突圍。首先,第一個問題,數據是不是越多越好? 我們認為在數據質量可控、數據質量有保證的情況下,盡量引入更豐富、更多元化的數據加入到模型中,對模型提升是非常重要的。 隨著互聯網的普及,1994年到2004年的十年期間,語音識別領域,語音識別的錯誤率下降了一半,機器翻譯準確度提升了一倍。其中,20%來自于算法的提升,80%來自于數據量的提升。通過這個例子大家可以看到,數據量決定了可能的上限。 縱觀中國整個數據積累的情況和成熟度,我們對這個市場并不是很樂觀。目前數據共享問題并無有效的解決方案。所以基于在征信、大數據風控領域的經驗,我們觀察到“數到用時方恨少“是非常普遍的現象。
第二個問題,什么樣的數據更優質? 在探討這個問題之前,我想解釋兩個概念。第一個概念,什么是大數據? 大數據其實一定要具備三個特點,一是量大,二是多元性/多維度,三是即時性。百度地圖的數據就具備這樣的特點。 另外一個概念還需要解釋一下:原始數據和加工數據的區別。 很多公司之間的客群、抓取數據的方式、手段和維度都是類似的,但為什么風控表現參差不齊呢?其實這個道理很簡單。這些數據提供方,包括這些數據使用方,在“特征工程“階段的能力不一樣。 如果說數據量決定了模型的可能上限,特征工程的優劣決定了模型的實際上限。 不同的特征工程對模型效果的差別是非常大的。舉個例子,2016年6月,大數據分析競賽平臺Kaggle,上線了全球最大的酒店預定網站Expedia 的“酒店預定預測比賽“。 這項比賽主要是要求參賽者基于Expedia提供的用戶的歷史搜索數據來預測客戶最終會預定哪一個酒店,共有1974個隊伍參賽。 最終比賽結果評比標準為平均精確值(Mean Average Precision),值越大說明模型預測的精度越高。 我們以最終排名前15位的一個團隊的特征工程步驟為例。在第一階段,團隊做了較為簡單的特征工程處理,最終得分0.04。第二階段,團隊進行了精進的特征工程,最終得分0.28。模型效果提升達到了6倍。由此可見特征工程對模型效果的影響是非常明顯的。 特征工程無非是從大量的噪聲數據里面篩選出可用的、有價值的特征。自從互聯網誕生以來,就像我們在錄音的時候產生大量的噪聲一樣,產生大量的垃圾信息。如何從這些海量的數據里面篩選出可用的、高效的特征,其實就是考驗一個建模能力的過程。 所以關鍵的步驟有兩個,第一步,數據清洗;第二步,特征變量的加工。 那么,是不是召集一個技術非常強大的團隊,全部是由博士和統計學的碩士組成的團隊做出來的模型一定是非常好的?這里有思維誤區,特征工程其實優劣與否,不只是基于一個理論知識,更多是對于業務的理解。 舉個我前東家的例子: Discover信用卡反欺詐做得好在業內是有口碑的。第一代反欺詐模型是vendor模型(外包模型),是由包括FICO在內的頂尖數據公司模型團隊搭建的。 經濟危機后,美國監管機構要求金融機構能夠解釋自己的模型,由于模型是外包的,我們對于模型的解釋性是非常受限的。只有通過自建模型才能解決這個問題。 我有幸參與并領導了Discover第二代反欺詐預測模型項目。我們整個項目團隊一共6個人,用了6個月的時間完成了模型的搭建,模型的效果大大出乎我們的意料。 所以,一個成功的風控團隊不只是建立在扎實的理論知識基礎上的,更需要對業務的深刻理解。 那有人會問了,我花重金請一批既有技術又懂業務的大牛,這個問題不就解決了嗎?答案也是否定的。 在未來,新數據源和新特征的獲取會越來越難。模型的精度并不是隨著特征的增長而線性提高。隨著人工特征工程的深入,投入的人力和時間越來越長,得到的新特征對系統的提升卻越來越少。換句話說,人力投入的邊際收益是遞減的。 再舉個IBM 沃森的例子。IBM 沃森具備很強的語音分析能力,可以像谷歌的搜索軟件一樣,迅速搜索自己巨大的知識庫找出答案。美國有一個比較知名的公司,以沃森作為實驗,所有這些點都是實際的人類參賽點的表現,跟計算機的表現完全不在一個量級上面。 隨著時間的推移加入更多的數據和特征,沃森表現越來越好,人力投入的邊際效益是遞減的。 邊際效益遞減達到一個邊際的時候,怎么對模型和策略進行優化? 我認為有兩個方面:一方面,經濟學上的Gilder's Law,是說盡可能多的采用便宜的資源,盡可能節約貴的資源。另一方面,在特征工程達到效益邊際之后,就需要在算法和模型上做進一步的優化。 如圖所示,2個上限,1個途徑。 數據源與數據清洗是決定了這個模型能達到的可能上限,特征變量加工是決定了模型的實際上限,最終模型與算法的提升是接近上限途徑。 但在模型和算法提升的過程中,也有一個誤區。如上圖所示,隨著訓練樣本的迭代,訓練誤差越來越低。但同時在認證樣本上的誤差達到一定復雜程度的時候會增高,這就會出現一個問題。 如何從全局觀,通過模型和算法提升整體決策效果,將成為下一個風控難題。 總結來看,大數據風控面臨四大困境:數據資源壁壘,自有數據累積,數據特征提煉,算法模型提升。
02 既要用“術“也需得“道“ 那么,這些困境有沒有解決方案? 以市場營銷為例,解決這個問題,可以通過智能推薦的算法方式對客戶進行精準的評判。 以一家信用卡公司的客戶觸達策略為例,當接通任一用戶的電話時,客服代表的系統上會提示客戶的基本畫像,可推薦的產品列表及預測的購買概率,方便客服代表進行溝通和推薦產品。系統背后有多個主題模型,用來預測各個主題的產品的購買傾向,并最終給出推薦產品的排序和組合。 重要的是,這些主題模型的建立,是根據真實的歷史數據訓練出來的。而這些歷史數據的積累是有著嚴格的實驗設計規則的。 由于模型評分Top 20%的人響應率為34%,因此預計200萬客戶中會有約68萬人開卡。而如果沒有該模型,隨機發送(響應率10%),需要發680萬人才能達到相同的開卡量。 因此僅該營銷活動,就為部門節省480萬營銷預算(近70%)。 說到反欺詐,可以說目前的互聯網反欺詐離不開文本挖掘,最重要的是語義識別,其次是圖像的挖掘。但是二者問題都是投入大,突破小,極易遇到瓶頸。 機器學習,數據挖掘等是大招,當對不良內容其他的方式都難以識別的時候用機器學習的方式效果最好。缺點是見效慢,維護成本大,樣本的收集工作量大等等。但是一旦機器學習到達一定程度,會是最好的反欺詐手段。 以上說的都是“術“,都是被動的去處理問題,而真正想把反欺詐做好需要的是“道“。 也就是產品模式的突破,信用體系的搭建,從源頭使欺詐的門檻高于欺詐的收益,才會最終杜絕欺詐。這也就是反欺詐領域里所有人努力的目標。 隨著網絡上意見型數據的爆發,情感分析也被廣泛研究和應用。目前常見的情感極性分析方法主要是兩種:基于情感詞典的方法和基于機器學習的方法。 但情感詞典存在著一定弊端。詞典把所有常用詞都打上了唯一分數,有許多不足之處:一是,不帶情感色彩的停用詞會影響文本情感打分;二是,由于中文的博大精深,詞性的多變成為了影響模型準確度的重要原因。再有就是,同一個詞在不同的語境下可以是代表完全相反的情感意義。 尤其是在中介言論識別方面,是否能夠準確的對漏洞的大小進行衡量,是平臺的核心。 在反欺詐和平臺輿情風險管理方面,我們ZRobot有非常多的嘗試。我們從豐富的輿情來源,包括網絡上面的涉黑論壇、黑產、中介信息進行了文本分析、語音分析,能夠為客戶提供像風險預警、漏洞紕漏以及防控建議。我們對情感分析也做了大量的研究。 我們也通過機器學習的方式在這方面有了大量的嘗試,通過這個方式可以判斷中介的一些言論,關聯到他對這個中介表達出來的風險漏洞到底有多大,做出精準的評判。 最后,我們還換了一個角度去看社交網絡數據,通過全局的觀點對整體網絡做了一個評判。這也是我們目前自創的一個技術,叫做漫網技術。
«
三星“爆炸門”后 蘋果能否接手第一寶座?
|
蘇寧易購418狂歡1小時戰報出爐:同比狂增548%
»