晶文摘

[人工智慧] 文字探勘Text Mining應用實作

給晶新聞一個讚



文字探勘Text Mining應用實作


作者: 夏肇毅

初稿: 20220822




重點:

RNN:把現在的資料連同過去的資料一起來處理,然後調整參數來學習.

GPT微調任務: 標記,文句分類,文字蘊涵,文句相似度,多選題.

預訓練模型: 將類神經網路事先訓練好供人微調使用.

預訓練語言模型的例子: BERT,GPT

LSTM: 長短期記憶

長短期記憶模組: 遺忘門,輸入門,輸出門

斷詞: 將句子的詞切開

斷詞演算法:基於詞典的分詞法, 統計的機器學習算法, 深度學習的算法 

POS: 詞性標記, Part-of-Speech tagging

BOW: 詞袋, Bag-of-Words, 文章中各句子各用詞的數量.

詞向量: Word Vector, 將詞轉成向量,相同語意的詞會靠很近 

語言模型: 利用貝氏機率來計算一個句中字詞生成的機率

CBOW: Continuous Bag-of-Words,利用上下文來預測中間詞出現的機率

skip-gram: 用中間詞來訓練上下文出現詞的機率

人工智慧於金融應用之驅動力:大數據發展,硬體進步,機器學習技術,消費者期待,電腦安全進步

金融服務的主要AI技術:機器學習,自然語言處理(NLP),深度學習,機器人流程自動化(RPA),認知計算

AI於銀行業的應用:潛力客戶預測,精準行銷,機器人理財,信用評分,反詐欺,身分識別,自動報告

人工智慧於保險科技的應用: 行銷,核保定價,文件判讀,客服,基因檢測




文字探勘(Text Mining)


邏輯斯迴歸模型Logistic Regression

Bag of Words

TF-IDF Approach

Cosine Similarity



Search: LogisticRegression

 

[Day 9] 邏輯迴歸(Logistic Regression) - iT 邦幫忙

https://ithelp.ithome.com.tw › articles

 

[Python實作]邏輯斯迴歸模型Logistic Regression - PyInvest

https://pyecontech.com › 2020/02/06 › python_logistic...

 

 


Search:  文字關聯 python

 

【python資料探勘課程】二十四.KMeans文字聚類分析互動百科 ...

https://codertw.com › 程式語言

  • Python文字抓取

  • 資料預處理

  • 中文分詞

  • KMeans聚類分析

  • 結果評價

  •  


 

Python大數據分析(二) - HackMD

https://hackmd.io › python-bigdata-02

文字雲

結巴

分詞 斷詞

詞頻

停用詞

中文分詞的原理

基於規則

基於統計

jieba

文字雲

步驟

所有使用到的模組

要抓取的Yahoo新聞網址

上傳詞庫檔

上傳中文字型檔

下載網頁

爬取網頁

抽取新聞內容

過濾一些不是新聞內容的標籤

切換繁體中文詞庫

進行斷詞

統計分詞出現次數

移除停用詞

文字雲格式設定

生成文字雲

產生圖檔

顯示文字雲圖片

 



Search:  Python 文字探勘


文件探勘(Text Mining) — 把文字用數字表示 - Medium

https://medium.com › 企鵝也懂程式設計 › 文件探勘-te...

不重複的詞,bag-of-word (詞袋, BOW)

 One-Hot Encoding (獨熱編碼)

 

 

Text Mining & 網路爬蟲web crawler | Google新聞與文章文字雲

https://jamleecute.web.app › 網路爬蟲-web-crawler-text...

找出所有新聞的標題

找出新聞標題所對應的資料來源links

將標題與連結合併成data frame

Text mining 簡易字頻分析 (文字雲 word cloud)

使用jieba套件,進行文章中文斷詞分析


Search:  Python 文字探勘 應用

 

[Python機器學習]-自動判斷留言正負評(運用BERT model)with ...

https://medium.com › python機器學習-google我的商...

目前文字探勘的幾種工具:

詞頻矩陣法

k-means clustering分群與 Louvain 演算法分群法:

LogisticRegression(羅吉斯迴歸 或稱 邏輯迴歸)法

決策樹:

隨機森林(Random Forest):

貝式分類法:

支援向量機(Support Vector Machine):

NLP(自然語言處理 ,Natural Language Processing)

2.1 Gensim方式+Word2Vec:

2.2 RNN遞歸神經網路神經方式: LSTM

2.3 BERT:



 

 

 

Search:  信用評分 python


Python之信用評分卡模型實現 - GetIt01

https://www.getit01.com › ...


基於Python的信用評分模型開發-附資料和程式碼 - 古詩詞庫

https://www.gushiciku.cn › zh-tw

專案流程 

資料獲取 

資料預處理 

缺失值處理

異常值處理

資料切分: 分成 訓練集和測試集

探索性分析 

變數選擇 

分箱處理

WOE

相關性分析和IV篩選

模型分析 

WOE轉換

Logisic模型建立

模型檢驗

信用評分

自動評分系統 



Search:  GiveMeSomeCredit

jwu424/GiveMeSomeCredit - GitHub

https://github.com › jwu424 › GiveMeSo...

信用限額:  line of credit,credit line.

WOE(Weight of Evidence)證據權重,常用於特徵變換,

IV(Information Value)資訊價值,或者資訊量,用來衡量特徵的預測能力。

WOE describes the relationship between a predictive variable and a binary target variable.

IV measures the strength of that relationship.

WOE 描述了預測變量和二元目標變量之間的關係。

IV 衡量這種關係的強度。



Search:  woe iv 

 

對woe和iv的一些理解和看法 - 人人焦點

https://ppfocus.com › …

 

 

Search:  woe iv python


WOE值及IV值|Python程式碼

https://arsene5240.medium.com › woe值及iv值-python...

 


Search:  精準行銷 python

 

機器學習系列五:誰會簽約?以「精準行銷模型」評估顧客帶來 ...

https://medium.com › marketingdatascience › 機器學習...


機器學習X 精準行銷KDD 2.0程序:【內部資料】實案應用(附 ...

https://medium.com › marketingdatascience › 機器學習...




Search:  客戶分群 python

 

Python用K-means聚類演算法進行客戶分群的實現 - 程式人生

https://www.796t.com › article

 


Day 02:客戶分群(Customer Segmentation) -- 那些客戶是VIP?

RFM(Recency, Frequency, Monetary)

收集資料,建立資料集(Dataset)。

資料清理(Data Cleaning)、資料探索與分析(Exploratory Data Analysis, EDA)。

特徵工程(Feature Engineering)。

計算最近購買日期(Recency)

計算購買頻率(Frequency)

計算購買金額(Monetary)

合併RFM欄位

資料切割(Data Split):切割為訓練資料(Training Data)及測試資料(Test Data)。

選擇演算法(Learning Algorithms),以建立模型。

模型訓練(Model Training)。

模型計分(Score Model):計算準確度,衡量模型效能。

模型評估(Evaluate Model):比較多個模型優劣或參數調校。

新系統上線:移轉模型至正式環境。

新資料預測(Predict)。

 

客戶分群(Customer Segmentation) -- 那些客戶是我的VIP? (續)

https://ithelp.ithome.com.tw › articles






Search:  NER Wiki

Named-entity recognition - Wikipedia

https://en.wikipedia.org › wiki › Named-...

翻譯這個網頁 https://en-m-wikipedia-org.translate.goog/wiki/Named-entity_recognition?_x_tr_sl=en&_x_tr_tl=zh-TW&_x_tr_hl=zh-TW&_x_tr_pto=sc

 

 

Search:  異常檢測 wiki

異常檢測- 維基百科,自由的百科全書

https://zh.wikipedia.org › zh-tw › 异常??

異常檢測[編輯] ... 在資料探勘中,異常檢測(英語:anomaly detection)對不符合預期模式或資料集中其他專案的專案、事件或觀測值的辨識。 ... 通常異常專案會轉變成銀行欺詐 ...

 


Search:  SMOTE 過採樣 wiki

Oversampling and undersampling in data analysis - Wikipedia

https://en.wikipedia.org › wiki › Oversampling_and_unde…


Search:  Confusion Matrix wiki

Confusion matrix - Wikipedia

https://en.wikipedia.org › wiki › Confusi...

翻譯這個網頁 https://en-m-wikipedia-org.translate.goog/wiki/Confusion_matrix?_x_tr_sl=en&_x_tr_tl=zh-TW&_x_tr_hl=zh-TW&_x_tr_pto=sc

Search:  精確率 召回率 wiki

精確率同召回率 - 維基百科

https://zh-yue.wikipedia.org › wiki › 精確率同召回率

 

Search:  F1 score wiki

F-score - 維基百科,自由的百科全書

https://zh.m.wikipedia.org › zh-tw › F-score

Search:  ROC AUC wiki

ROC曲線- 維基百科,自由的百科全書 - Wikipedia

https://zh.m.wikipedia.org › zh-tw › ROC曲?

Search:  bin_goods bin_bads

風控建模系列之數據特徵篩選方法總結(上) - 壹讀

https://read01.com › 科技 › 科學

... 用於評估特徵的預測能力,IV是在woe的基礎上計算的,在進行woe編碼前,需要對特徵做分箱處理(離散化),然後計算每個箱體內的好人數(bin_goods)和壞人數(bin_bads), ...