晶文摘

[人工智慧] 反洗錢模型應用實作

給晶新聞一個讚



反洗錢模型應用實作


作者: 夏肇毅

初稿: 20220820




重點:

RNN:把現在的資料連同過去的資料一起來處理,然後調整參數來學習.

GPT微調任務: 標記,文句分類,文字蘊涵,文句相似度,多選題.

預訓練模型: 將類神經網路事先訓練好供人微調使用.

預訓練語言模型的例子: BERT,GPT

LSTM: 長短期記憶

長短期記憶模組: 遺忘門,輸入門,輸出門

斷詞: 將句子的詞切開

斷詞演算法:基於詞典的分詞法, 統計的機器學習算法, 深度學習的算法 

POS: 詞性標記, Part-of-Speech tagging

BOW: 詞袋, Bag-of-Words, 文章中各句子各用詞的數量.

詞向量: Word Vector, 將詞轉成向量,相同語意的詞會靠很近 

語言模型: 利用貝氏機率來計算一個句中字詞生成的機率

CBOW: Continuous Bag-of-Words,利用上下文來預測中間詞出現的機率

skip-gram: 用中間詞來訓練上下文出現詞的機率

人工智慧於金融應用之驅動力:大數據發展,硬體進步,機器學習技術,消費者期待,電腦安全進步

金融服務的主要AI技術:機器學習,自然語言處理(NLP),深度學習,機器人流程自動化(RPA),認知計算

AI於銀行業的應用:潛力客戶預測,精準行銷,機器人理財,信用評分,反詐欺,身分識別,自動報告

人工智慧於保險科技的應用: 行銷,核保定價,文件判讀,客服,基因檢測



自然語言處理(Natural language  processing)

科技> [人工智慧] CNN,影像分區塊與RNN

http://cubicpower.idv.tw/cubicnotes/notes-0000038.html


文字探勘(Text Mining)

Google Tensorflow: Text

Sentiment analysis- IMDB large movie review dataset

Basic text classification 

https://www.tensorflow.org/tutorials/keras/text_classification?hl=zh-tw

基本文本分類

情緒分析

下載並探索 IMDB 數據集

加載數據集

準備數據集進行訓練

配置數據集以提高性能

創建模型

損失函數和優化器

訓練模型

評估模型

創建隨時間變化的準確度和損失圖

導出模型

對新數據的推論

練習:關於 Stack Overflow 問題的多類分類


Word embeddings

https://www.tensorflow.org/text/guide/word_embeddings?hl=zh-tw

詞嵌入

將文本表示為數字

One-hot 編碼

用唯一的數字編碼每個單詞

詞嵌入

設置

下載 IMDb 數據集

使用嵌入層

文本預處理

創建分類模型

編譯和訓練模型

檢索經過訓練的詞嵌入並將它們保存到磁碟

可視化嵌入


Text classification with an RNN 

https://www.tensorflow.org/text/tutorials/text_classification_rnn?hl=zh-tw

使用 RNN 進行文本分類

設置

設置輸入管道

創建文本編碼器

創建模型

訓練模型

堆疊兩個或多個 LSTM 層


Classify text with BERT

https://www.tensorflow.org/text/tutorials/classify_text_with_bert?hl=zh-tw

使用 BERT 對文本進行分類

關於 BERT

情緒分析

從 TensorFlow Hub 加載模型

選擇一個 BERT 模型進行微調

預處理模型

使用 BERT 模型

定義你的模型

模型訓練

損失函數

優化器

加載 BERT 模型並進行訓練

評估模型

繪製隨時間變化的準確性和損失

導出推理


Search: LogisticRegression

 

[Day 9] 邏輯迴歸(Logistic Regression) - iT 邦幫忙

https://ithelp.ithome.com.tw › articles

 

[Python實作]邏輯斯迴歸模型Logistic Regression - PyInvest

https://pyecontech.com › 2020/02/06 › python_logistic...

 




Search:  反洗錢 模型 python

 

【玉山AI實例3】自建反洗錢黑名單偵測模型,快速揪出問題

https://www.ithome.com.tw › news

 

 

(Top 1% Solution)玉山人工智慧公開挑戰賽2020夏季賽 - Medium

https://medium.com › 玉山人工智慧公開挑戰賽2020夏...

爬蟲實作

資料清理

模型訓練流程

洗錢文章分類模型(AML Classifier)

CountVectorizer+樸素貝葉斯(Multinomial Naive Bayes)

TfidfVectorizer+樸素貝葉斯(Multinomial Naive Bayes)

BERT-Based Model

Bidirectional Encoder Representations from Transformers (BERT)

NLP開源套件 — Kashgari

套件安裝

BERT + BiLSTM + CRF

Conditional Random Fields (CRF)

輸入資料格式

資料驗證集

模型訓練(AML Classifier)

Rule-based Approach

AML Keyword List檢討與修正

AML焦點人物擷取模型(AML NER Model)

Name Entity Recognition

SOTA of Name Entity Recognition

BERT — 句子Level的NER模型

模型訓練(NER Model)

模型比較

Bi-directional LSTM/GRU

Bi-directional BiLSTM/GRU + CRF

CNN + LSTM

Bi-directional LSTM + CNN (Customized)