未來展望:大規模平行運算的演進 (Future Outlook)
重點總覽 (Overview)
| 主題 | 核心重點 |
|---|---|
| 硬體演進 (G80 → A100) | 13 年間 compute throughput ×452、memory bandwidth ×18(Fig. 23.1) |
| 問題範圍擴張 | 從 regular/dense matrix + Monte Carlo → sparse、graph、adaptive refinement |
| 典範轉移 (Paradigm Shift) | 從「物理儀器為主、運算為輔」翻轉為「運算為主、物理儀器為輔」 |
| 三大例證 | self-driving cars、individualized medicine、computational lithography |
| 持續需求 | computing 成為幾乎所有創新的主驅動力 → 對更快運算的需求「永不滿足 (insatiable)」 |
| 唯一可行路 | parallel computing 是運算效能成長的「only viable approach」(Ch.1) |
| 最大潛力區 | storage data 存取的平行度 — 過去極低,改善後將催生「現在無法想像」的新應用 |
| 結論 | 我們正處於「golden age of computing」的黎明,平行程式設計人才將被持續招募與獎勵 |
本筆記聚焦 §23.2 Future Outlook。全書四步學習路徑的回顧見 23-Conclusion-And-Outlook/01-Goals-Revisited;本篇講「未來」:硬體趨勢、產業典範轉移、以及為何平行運算的需求只會更強。
GPU 硬體演進:G80 → A100 (Hardware Advancement)
自 2007 年第一顆 CUDA-enabled GPU G80 問世,到 A100(13 年),GPU 作為大規模運算裝置的能力驚人成長(Fig. 23.1):
| 指標 (Metric) | G80 (2007) → A100 13 年成長 | 量化倍率 |
|---|---|---|
| Compute throughput | 運算吞吐量 | ×452 |
| Memory bandwidth | 記憶體頻寬 | ×18 |
成長倍率 (log scale)
1000x ┤ ┌──────┐ Compute ×452
│ │██████│
100x ┤ │██████│
│ ┌──────┐ │██████│
10x ┤ ×18 Mem │██████│ │██████│
│ BW │██████│ │██████│
1x ┼──────────────┴──────┴────┴──────┴──────►
Memory BW Compute
G80 ───────────────────► A100
Compute 成長 ×452,但 bandwidth 只 ×18,兩者落差約 25×。這代表「每送進一個 byte 必須做更多運算」才能餵飽計算單元 → arithmetic intensity (OP/B) 需求持續攀升。這正是 tiling、memory coalescing、register tiling 等技巧「越來越重要而非過時」的根本原因。
- 這些進展點燃了 HPC、AI、data analytics 的爆發,並深入 finance、manufacturing、medicine 等垂直領域。
- 最具代表性的是 deep learning 革命(Ch.16):GPU 讓「從超大資料集學習」成為可能,應用於 image / speech recognition 與 video analytics。
- 自 2010 年第一版以來,可被 scalable algorithms 解決的問題範圍大幅擴張:
- 早期:regular、dense matrix computation + Monte Carlo methods。
- 如今:sparse methods、graph computation、adaptive refinement methods(本書 advanced patterns 章節即收錄多項近年重大演算法進展)。
典範轉移:從「物理為主」到「運算為主」(Paradigm Shift)
過去三十年的運算進展,觸發了產業的根本性翻轉:
舊典範 (OLD) 新典範 (NEW)
┌────────────────────────┐ ┌────────────────────────┐
│ Physical instruments │ │ Computing │
│ (主 / driver) │ ──► │ (主 / driver) │
│ ↑ assisted by │ 翻轉 │ ↑ assisted by │
│ Computing (輔) │ │ Physical instruments(輔)│
└────────────────────────┘ └────────────────────────┘
"instruments assisted "computing assisted
by computing" by physical instruments"
舊:major innovations driven by physical instruments assisted by computing。
新:driven by computing assisted by physical instruments。
Computing 已成為社會上「幾乎所有令人振奮的創新」的主驅動力。
三大例證 (Three Examples)
| 領域 (Field) | 舊典範 (物理為主) | 新典範 (運算為主) |
|---|---|---|
| 汽車 / 駕駛 | GPS:衛星訊號感測 + 計算最短路徑;後加 map apps 依即時路況改道 | Self-driving cars:以 machine-learning 運算為主,physical sensors 為輔 |
| 醫學 (Medicine) | MRI / PET:電磁/光感測 + computational image reconstruction(免手術看病灶) | Individualized medicine:以 computational genomics 為主,sequencing sensors 為輔 |
| 半導體 (Lithography) | 推進 feature size 靠物理光源進步 + 計算強制 design rules | 物理光源進展「幾乎停滯」→ 改由 computationally designed lithography masks 編排光波干涉,蝕刻極精密圖案 |
每個領域都是「sensor(物理) + computation(運算)」的組合,而主導角色從前者移到後者。MRI 的 image reconstruction 即本書 Ch.17 的案例 → 見 17-Iterative-MRI-Reconstruction/01-MRI-Background-and-Iterative-Reconstruction。
持續且永不滿足的運算需求 (The Insatiable Demand)
computing 成為主驅動力
│
▼
對更快運算的需求 (insatiable demand)
│
▼
parallel computing = 效能成長的 ONLY viable approach (Ch.1)
│
▼
產業持續創新 → 更強大的 parallel devices
│
▼
最大潛力區:storage-access parallelism (過去極低)
│
▼
催生「現在無法想像」的新一代應用
- 典範轉移製造出對「更快運算系統」的無法滿足 (insatiable) 的需求。
- 如 Ch.1 所述,parallel computing 是運算效能持續成長的唯一可行途徑(單核 frequency scaling 早已撞牆)。
- 最高潛力的改善方向:存取 storage data 的平行度 (level of parallelism in accessing storage data)。
- 過去 storage 存取「平行度非常低」。
- 對「大規模 storage data 存取」的根本性改善,很可能啟發「我們現在甚至無法想像」的整代新應用。
未來進展不是單純「核心數變多」就好。書中明確點名「storage-access parallelism」這個長期被忽略的維度;同時 compute/bandwidth 落差(見上)也意味著「memory 與 storage 的平行存取」才是下一個關鍵戰場,而非只追求 FLOPS。
結論:運算的黃金時代 (Golden Age of Computing)
- 我們正站在「golden age of computing」的黎明 (dawn)。
- 產業會持續「招募並獎勵高技能的 parallel programmers」。
- 呼應 Ch.19 的精神 — 用 fresh computational thinking「make science better, not just faster」,你的工作將在你選擇的領域帶來真正的改變。
這是全書最後一段的核心訊息:平行運算革命「才剛開始 (only at the beginning)」,不是接近尾聲。"Enjoy the ride!"
考試/面試重點 (Exam / Test Patterns)
| 情境 / 關鍵字 | 答案 / 技巧 |
|---|---|
| 「G80 → A100 的成長倍率」 | compute throughput ×452、memory bandwidth ×18(13 年) |
| 「為何 compute 成長遠超 bandwidth 仍要做優化」 | 落差約 25× → arithmetic intensity 需求升高 → tiling / coalescing 更重要(memory wall) |
| 「典範轉移 (paradigm shift) 一句話」 | 從「instruments assisted by computing」→「computing assisted by physical instruments」 |
| 「典範轉移的三個例子」 | self-driving cars、individualized medicine、computational lithography |
| 「self-driving cars 的本質」 | 以 machine-learning 運算為主、physical sensors 為輔 |
| 「individualized medicine 的驅動力」 | computational genomics(以 sequencing sensors 為輔) |
| 「現代 lithography 靠什麼推進 feature size」 | 物理光源已停滯 → computationally designed masks 編排光波干涉 |
| 「運算效能成長的 only viable approach」 | parallel computing(Ch.1) |
| 「未來最高潛力的改善方向」 | storage data 存取的平行度 (storage-access parallelism) |
| 「GPU 問題範圍如何擴張」 | dense matrix + Monte Carlo → sparse、graph、adaptive refinement |
| 「整體結論基調」 | golden age of computing 的黎明;平行運算革命「才剛開始」 |
Related Notes
- 23-Conclusion-And-Outlook/01-Goals-Revisited
- 22-Advanced-Practices-And-Future-Evolution/04-Programming-Environment-and-Future-Outlook
- 22-Advanced-Practices-And-Future-Evolution/03-Memory-Bandwidth-and-Compute-Throughput
- 01-Introduction/01-Heterogeneous-Parallel-Computing-and-the-Demand-for-Speed
- 16-Deep-Learning/01-Machine-Learning-Foundations-Perceptrons-Backpropagation
- 19-Parallel-Programming-And-Computational-Thinking/04-Computational-Thinking-and-Parallelization-Approaches