晶文摘

[大數據] 資料爬取與大數據分析實作

給晶新聞一個讚



資料爬取與大數據分析實作


作者: 夏肇毅

初稿: 20220819



重點

雲端運算的定義: 隨需求透過連網存取共享運算資源

雲端運算的特性: 隨選自助,網路連接,資源匯集,快速彈性,可量測

雲端運算的三大服務模式:laaS,PaaS,SaaS

laaS: 架構即服務 Infrastructure as a Service, 虛擬機

PaaS: 平台即服務 Platform as a Service, 虛擬機+OS

SaaS: 軟體即服務 Software as a Service, 虛擬機+OS+軟體

大數據四個特性: 大量性,多樣性,速度性,?實性

大數據四個V: Volume, Variety, Velocity, Veracity

大數據資料類型:結構化,非結構化,半結構化

結構化資料範例: 資料表

非結構化資料範例:文字,圖片,語音,影片,網頁,E-mail

半結構化資料範例: CSV,XML與JSON

大數據分析的步驟: 定義問題,收集資料,資料清理,統計分析,採取行動



爬蟲基本概念與做法 

爬蟲工具(以 python 為例) 

資料儲存與讀取 

爬蟲實務


蒐集大數據

新聞:

社群:

公司股價與財務數據: 證交所, Yahoo Finance

比價: Yahoo,Books,  Momo, PCHome, 

語料:

開放資料: OpenData, g0v

公司資料: GCIS

地址位置: TGOS

即時公車位置: PTX

地圖: OpenStreetMap

百科全書: Wiki

旅遊: IPEEN, Yelp, PIXNET



尋找參考資料:

Google: 爬蟲 python

 

Day-1 Python爬蟲小人生(1) - iT 邦幫忙

https://ithelp.ithome.com.tw › articles

PPT: Day-2 Python爬蟲小人生(2)

DCARD: Day-3 Python爬蟲小人生(3)

 


[Python爬蟲教學]7個Python使用BeautifulSoup開發網頁爬蟲的 ...

https://www.learncodewithmike.com › 2020/02 › pytho...


Python爬蟲新手筆記 - Pala.tw

https://pala.tw › python-web-crawler



HTML:


HTML Tutorial - W3Schools


<html>

<head>

<body>

<h1><h2><h3>

<a>

<img>

<table><tr><td>

<p>

<br>

<div>

class=

id=

width=

height=

文字

靠左 靠右 置中

字體大小

照片


HTML Headings

HTML Paragraphs


<a>

<article>

<body>

<div>

<form>

<h1> - <h6>

<html>

<img>

<li>

<ol>

<p>

<table>

<u>

<ul>



HTTP:

What is HTTP - W3Schools


RWD:

HTML Responsive Web Design - W3Schools


Bootstrap:

Bootstrap 5 Tutorial - W3Schools


Javascript: 

JavaScript Tutorial - W3Schools


Web:

W3Schools Online Web Tutorials


JSON:

JSON Introduction - W3Schools


Frontend:

How To Become a Front-End Developer - W3Schools


Data Server:

W3.JS Data Servers - W3Schools


Web Server:

Node.js HTTP Module - W3Schools


JQuery:

jQuery Tutorial - W3Schools

Selector:  $(selector).action()

https://www.w3schools.com/jquery/jquery_selectors.asp


action: GET,SET,ADD,REMOVE,

GET: text(), html(), val() 

https://www.w3schools.com/jquery/jquery_dom_get.asp


SET: text(), html(), val()

https://www.w3schools.com/jquery/jquery_dom_set.asp


ADD: append(),prepend(),after(),before(),

https://www.w3schools.com/jquery/jquery_dom_add.asp


REMOVE: remove(),empty()

https://www.w3schools.com/jquery/jquery_dom_remove.asp



Beautifulsoup: 是一個python用來解析 html 的套件

[Python爬蟲教學]7個Python使用BeautifulSoup開發網頁爬蟲的.. 




爬蟲

Download file

Paser File

Extract data

Store data


Wget:

Curl:

Selenium:

selenium

 

Search:  文字關聯 python

 

【python資料探勘課程】二十四.KMeans文字聚類分析互動百科 ...

https://codertw.com › 程式語言

 

Python文字抓取 



Search:  Python Selenium 文字抓取


[Python網頁爬蟲]如何使用Selenium爬取網頁資料 - Medium

https://medium.com › seaniap › python網頁爬蟲-如何...

 

Day 20 : 動態爬蟲-利用webdriver達到自動登入 - iT 邦幫忙

https://ithelp.ithome.com.tw › articles