晶文摘

[人工智慧] 防詐欺模型應用實作

給晶新聞一個讚



防詐欺模型應用實作


作者: 夏肇毅

初稿: 20220820


 

Search:  防詐欺模型 python


靠AI扮演壞人來練兵!SAS揭露用GAN設計金融防詐欺模型的新 ...

https://www.ithome.com.tw › news

 

 

步驟一、構建Amazon Fraud Detector 模型

https://pages.awscloud.com › Tech-blog_Amazon-Frau...

 

Search:  詐欺 python

 

python 信用卡欺詐模型建立 - 程式人生

https://www.796t.com › content

資料準備: 來源於Kaggle

準備並初步檢視資料集

時間序列下的交易發生頻率(分為詐騙和正常)

詐騙和正常交易交易金額的頻率分佈

各特徵和因變數的關係

用邏輯迴歸方法對信用卡資料進行建模分析

 

 

信用卡詐騙分析-不平衡資料分析與處理kernel翻譯-完整版

https://medium.com › 機器學習知識歷程 › 信用卡詐騙...

預處理

縮放和分配 Scaling and Distributing

拆分數據 Splitting the Data(從原始DataFrame)

隨機欠採樣和過採樣

分佈和相關性 Distributing and Correlating

異常檢測 Anomaly Detection

降維和分群 Dimensionality Reduction and Clustering (t-SNE)

分類器 Classifiers

更深入地了解邏輯回歸 A Deeper Look into Logistic Regression

使用SMOTE進行過採樣 Oversampling with SMOTE

測試

使用邏輯回歸進行測試 Test Data with Logistic Regression

神經網絡測試(欠採樣與過採樣)Neural Networks Testing (Undersampling vs Oversampling)

 

Part 5. Imbalanced Data 不平衡資料 - iT 邦幫忙

https://ithelp.ithome.com.tw › articles

評估指標

Confusion Matrix 混淆矩陣

Precision and Recall 精確率與召回率

F1 score

ROC(Receiver Operating Characteristic) 接收者操作特徵曲線

曲線下面積稱 Area Under Curve (AUC)

 重組資料

Oversampling 過採樣

SMOTE  (Synthetic Minority Oversampling Technique)

Border Line SMOTE

Undersampling 欠採樣

Tomek Link

Edited Nearest Neighbor

注意事項

先切分資料,再對訓練資料採樣。

常透過交叉驗證控制過擬合。

觀察少數樣本與多數樣本分布情形。

 

SMOTE + ENN : 解決數據不平衡建模的採樣方法 - Medium

https://medium.com › 數學-人工智慧與蟒蛇 › smote-e...

二分類模型的評估指標

【混淆矩陣 Confusion Matrix】

【精確度與召回率 Precision and Recall】

【F1 分數 F1-Score】

【ROC 分數 / 曲線】

過採樣方法 : Synthesized Minority Oversampling Technique (SMOTE)

【SMOTE 方法 : 合成少數過採樣方法】

【Border Line SMOTE 方法】

欠採樣方法 : Edited Nearest Neighbor

【Edited Nearest Neighbor,ENN 算法】

【結合過採樣與欠採樣算法】

結尾 : 不平衡數據集分類建模流程



Search:  Credit Fraud || Dealing with Imbalanced Datasets

 

Credit Fraud || Dealing with Imbalanced Datasets - Kaggle

https://www.kaggle.com › janiobachmann

 

Credit Fraud || Dealing with Imbalanced Datasets

https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

 

https://www.kaggle.com/code/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets/notebook

信用欺詐探測器

一、了解我們的數據

a) [收集我們的數據的感覺]

二、預處理

a) 縮放和分佈

b) 拆分數據

三、隨機欠採樣和過採樣

a) 分佈和關聯

b) 異常檢測

c) 降維和聚類(t-SNE)

d) 分類器

e) 更深入地研究邏輯回歸

f) 使用 SMOTE 過採樣

四。測試

a) 使用邏輯回歸進行測試

b) 神經網絡測試(欠採樣與過採樣)

 

從不平衡的數據集中糾正以前的錯誤:

永遠不要對過採樣或欠採樣的數據集進行測試。

如果我們想實現交叉驗證,請記住在交叉驗證期間對訓練數據進行過採樣或欠採樣,而不是之前!

不要使用準確性分數作為數據集不平衡的指標(通常會很高且具有誤導性),而是使用 f1-score、precision/recall 分數或混淆矩陣

 

 

Search:  DEALING WITH IMBALANCED DATA: UNDERSAMPLING, OVERSAMPLING AND PROPER CROSS-VALIDATION

undersampling, oversampling and proper cross-validation

https://www.marcoaltini.com › blog › dea...

翻譯這個網頁

2015年8月17日 — undersampling the majority class. One of the most common and simplest strategies to handle imbalanced data is to undersample the majority class.

 

 

Search: 

https://github.com/marcoalt/Physionet-EHG-imbalanced-data

 

 

 

Search:  異常檢測 wiki

異常檢測- 維基百科,自由的百科全書

https://zh.wikipedia.org › zh-tw › 异常??

異常檢測[編輯] ... 在資料探勘中,異常檢測(英語:anomaly detection)對不符合預期模式或資料集中其他專案的專案、事件或觀測值的辨識。 ... 通常異常專案會轉變成銀行欺詐 ...

 


Search:  SMOTE 過採樣 wiki

Oversampling and undersampling in data analysis - Wikipedia

https://en.wikipedia.org › wiki › Oversampling_and_unde…


Search:  Confusion Matrix wiki

Confusion matrix - Wikipedia

https://en.wikipedia.org › wiki › Confusi...

翻譯這個網頁 https://en-m-wikipedia-org.translate.goog/wiki/Confusion_matrix?_x_tr_sl=en&_x_tr_tl=zh-TW&_x_tr_hl=zh-TW&_x_tr_pto=sc

Search:  精確率 召回率 wiki

精確率同召回率 - 維基百科

https://zh-yue.wikipedia.org › wiki › 精確率同召回率

 

Search:  F1 score wiki

F-score - 維基百科,自由的百科全書

https://zh.m.wikipedia.org › zh-tw › F-score

Search:  ROC AUC wiki

ROC曲線- 維基百科,自由的百科全書 - Wikipedia

https://zh.m.wikipedia.org › zh-tw › ROC曲?

Search:  bin_goods bin_bads

風控建模系列之數據特徵篩選方法總結(上) - 壹讀

https://read01.com › 科技 › 科學

... 用於評估特徵的預測能力,IV是在woe的基礎上計算的,在進行woe編碼前,需要對特徵做分箱處理(離散化),然後計算每個箱體內的好人數(bin_goods)和壞人數(bin_bads), ...