人工智慧:Python 中的增強式學習

Soft & Share

去年 Google AlphaGo 打敗了世界圍棋冠軍,自動駕駛車,其背後運用的技術即是增強式學習,今年3月,雙月刊《麻省理工科技評論》將「增強式學習」選為 10 大突破性科技。在 Udemy 上可以找到增強式學習課程並不多,這位講師就包辦了兩堂,他有列出想要從機器學習,深度學習,到增強式學習的一系列課程,想要思考增強式學習在未來趨勢的應用,並在自己的職涯更上一層樓,不妨參考這位講師所建議的一系列學習階梯

對於產業界在增強式學習的應用進展,可以參考天下雜誌的報導

裡面讓我覺得有點驚訝的是增強式學習已經被機械業用來輔助開發穿鞋帶機,所以增強式學習已經是很明顯的「硬趨勢」,接下來的「軟趨勢」就要看你我的想像力了。

我會學到些什麼呢?

  • 應用基於梯度的監督式機器學習方法做增強式學習 ( reinforcement learning )
  • 在技​​術層面上學習增強式學習
  • 了解增強式學習與心理學之間的關係
  • 實現 17 種不同的增強式學習演算法

要求

  • 微積分
  • 機率
  • 馬可夫模型
  • The Numpy Stack ( 譯註 : Python 的 Numpy 套件 )
  • 至少有幾個監督式機器學習 ( supervised machine learning )方法的經驗
  • 梯度下降 ( Gradient descent )
  • 良好的物件導向程式設計技巧

說明

當人們談論人工智慧時,他們通常並不意味著監督式和非監督式機器學習。

這些任務與我們認為的人工智慧可以做的事相比,是非常微不足道的 – 下西洋棋和圍棋,駕駛汽車以及以超人等級玩視訊遊戲。

增強式學習最近已經變得流行起來因為做了上述這些事。

很像深度學習,很多理論在 70 年代和 80 年代被發現,但直到最近,我們已經能夠親眼看到可行的驚人效果。

在2016年,我們看到 Google 的 AlphaGo 在圍棋比賽中擊敗了世界冠軍。

我們看到人工智慧玩視訊遊戲,如 毀滅戰士和超級馬力歐。

自動駕駛汽車已經與真人駕駛車開始在真正的道路上駕駛,甚至搭載乘客(Uber),沒有人力的協助。

如果這聽起來很神奇,那麼為了將來,你可以激勵自己,因為加速回報的法則決定了這一進步只會繼續呈指數級成長。

學習監督式和非監督式機器學習是不小的壯舉。到目前為止,我已經完成了只有這些主題的 16 個課程。

而增強式學習則開闢了一個全新的世界。正如你將在本課程中學習的那樣,增強式學習的典範與監督式和非監督式學習有所不同。

它在行為心理學和神經科學領域引發了新的和驚人的洞見。正如你將在本課程中學到的,當涉及到教導一位代理人和教導一隻動物甚至人類時,有許多類似的過程。這是我們到目前為止最接近一個真實整體人工智慧所能做到的事。

本課程涵蓋什麼?

  • 多武裝強盜問題( multi-armed bandit problem )和探險開發兩難
  • 計算移動平均值及其與隨機梯度下降關係的方法
  • 馬爾可夫決策流程(MDPs)
  • 動態程式設計
  • 蒙地卡羅方法
  • 暫時的差異(TD)學習
  • 近似方法(即如何將深層神經網路或其他可微分模型插入到 RL 演算法中)

如果你準備好參加全新的挑戰,並且學習你在傳統監督式機器學習,非監督式機器學習,甚至深入學習中從未見過的人工智慧技術,那麼本課程將是為你而設計的。

在課堂上見!

注意:

本課程的所有程式碼都可以從我的 github下載:

/lazyprogrammer/machine_learning_examples

在目錄:rl

確保你總是使用 “git pull”,所以你會有最新的版本!

你必須事先了解的知識:

  • 微積分
  • 機率
  • 物件導向程式設計
  • Python 程式設計 : if/else, loops, lists, dicts, sets
  • Numpy 程式設計 : matrix and vector operations
  • 線性迴歸
  • 梯度下降
  • 技巧 (為了要走完整堂課程)
  • 使用兩倍速觀看
  • 使用手寫筆記。這將大大增加你保留資訊的能力。
  • 寫下方程式。如果不這樣做,我保證只會看起來像亂七八糟的。
  • 在討論板上提出很多問題。越多越好!
  • 意識到大多數練習將花費數天或數週才能完成。
  • 自己編寫程式碼,不要只是坐在那裡看我的程式碼。

有用的課程順序:

View original post 140 more words

Advertisements