Python網絡爬蟲與信息提取

“The website is the API.”網絡爬蟲逐漸成為自動獲取網絡信息的主要形式。還等什么?快寫個爬蟲探索世界吧! ——“彈指之間·享受創新”,通過4周學習,你將掌握利用Python語言進行定向網絡數據爬取和網頁解析的基本能力。

北京理工大學

中國大學MOOC

計算機

普通(中級)

9 周

  • 中文
  • 6494

課程概況

“The website is the API.” (網頁即接口)網絡爬蟲是獲取數據的必備本領,不要猶豫!

本課程面向具有Python編程基礎的各類學習者,講解利用Python語言爬取網絡數據并提取關鍵信息的技術和方法,幫助學習者掌握定向網絡數據爬取和網頁解析的基本能力。

本課程介紹Python計算生態中最優秀的網絡數據爬取和解析技術,具體講授構建網絡爬蟲功能的兩條重要技術路線:requests-bs4-re和Scrapy,所講述內容廣泛應用于Amazon、Google、PayPal、Twitter等國際知名公司。課程內容是進入大數據處理、數據挖掘、以數據為中心人工智能領域的必備實踐基礎。

本課程教學內容包括:

· Python第三方庫Requests,講解通過HTTP/HTTPS協議自動從互聯網獲取數據并向其提交請求的方法;
· Python第三方庫Beautiful Soup,講解從所爬取HTML頁面中解析完整Web信息的方法;
· Python標準庫Re,講解從所爬取HTML頁面中提取關鍵信息的方法;
· Python第三方庫Scrapy,介紹通過網絡爬蟲框架構造專業網絡爬蟲的基本方法。

本課程希望傳遞“理解和運用計算生態”的理念,重點培養學習者運用當代最優秀第三方專業資源,快速分析和解決問題的能力。”人生苦短,不要刀耕火種“,嵩老師教你直面問題和需求,用最好的工具解決它!

本課程是“Python網絡爬蟲與數據分析”課程的上半部分。“Python網絡爬蟲與數據分析”課程由“Python網絡爬蟲與信息提取”和“Python數據分析與展示”兩門MOOC課程組成,完整地講解了數據獲取、清洗、統計、分析、可視化等數據處理周期的主要技術內容,培養計算思維、數據思維及采用程序設計方法解決計算問題的實戰能力技術。

課程大綱

【第〇周】網絡爬蟲之前奏
“網絡爬蟲”課程內容導學
Python語言開發工具選擇

【第一周】網絡爬蟲之規則
本周課程導學
單元1:Requests庫入門
單元2:網絡爬蟲的“盜亦有道”
單元3:Requests庫網絡爬蟲實戰(5個實例)

【第二周】網絡爬蟲之提取
本周課程導學
單元4:Beautiful Soup庫入門
單元5:信息組織與提取方法
單元6:實例1:中國大學排名爬蟲

【第三周】網絡爬蟲之實戰
本周課程導學
單元7:Re(正則表達式)庫入門
單元8:實例2:淘寶商品比價定向爬蟲
單元9:實例3:股票數據定向爬蟲

【第四周】網絡爬蟲之框架
本周課程導學
單元10:Scrapy爬蟲框架
單元11:Scrapy爬蟲基本使用
單元12:實例4:股票數據Scrapy爬蟲

預備知識

本課程需要學習者具備Python語言編程的基本知識和初步技能,建議Python零基礎學習者先修嵩老師的“Python語言程序設計”課程(至少完成前四周學習)。

證書或學分

采取百分制,客觀題和主觀編程題各占50分。60分-79分可獲得合格證書,80分以上可獲得優秀證書。測驗不難,只要認真學習都能夠取得好的成績。

參考資料

Python集成開發環境(IDE)
[1] IDLE: Python解釋器默認工具(推薦)
[2] Anaconda: https://www.continuum.io/
[3] PyCharm: http://www.jetbrains.com/pycharm/

參考教程
[1] Python零基礎入門教程:《Python語言程序設計基礎(第2版)》,嵩天、禮欣、黃天羽著,高等教育出版社,2016.12
[2] 專題參考教程: 課內資料。

參考網站
[1] Python Requests: http://www.python-requests.org
[2] Python Beautiful Soup: https://www.crummy.com/software/BeautifulSoup
[3] Python Scrapy: http://scrapy.org/

常見問題

Q1:除了Python,這個課程需要其他編程語言基礎嗎?
A1:不需要,只要具備基本的Python編程能力,就可以學習本課程。

Q2:Python 2.x和Python 3.x,這個課程采用哪個版本?
A2:Python 3.x已經足夠成熟,這是Python語言的現在和未來,嵩老師所有Python課程都采用Python 3.x系列版本。

Q3:在線開放課程看不到老師,有問題誰來解答?
A3:為了更好服務同學們,本課程教師和多名助教會每天在線答疑,盡快解決與課程相關的各類問題。

Q4:課程里面除了視頻、文檔和練習,還有什么新的形式嗎?
A4:大學老師都是一本正經的,但你見過大學老師閑扯嗎?課間,嵩老師想說說不一樣的話...

Magoosh
聲明:MOOC中國發布之課程均源自下列機構,版權均歸他們所有。本站僅作報道收錄并尊重其著作權益,感謝他們對MOOC事業做出的貢獻!(排名不分先后)
  • Coursera
  • edX
  • OpenLearning
  • FutureLearn
  • iversity
  • Udacity
  • NovoEd
  • Canvas
  • Open2Study
  • Google
  • ewant
  • FUN
  • IOC-Athlete-MOOC
  • World-Science-U
  • Codecademy
  • CourseSites
  • opencourseworld
  • ShareCourse
  • gacco
  • MiriadaX
  • JANUX
  • openhpi
  • Stanford-Open-Edx
  • 網易云課堂
  • 中國大學MOOC
  • 學堂在線
  • 頂你學堂
  • 華文慕課
  • 好大學在線CnMooc
  • 以及更多...

© 2008-2018 MOOC.CN 慕課改變你,你改變世界

3d独胆公式规律