์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- c++
- SFINAE
- ์ ๋ ฌ
- ๋ ์ด์บ์คํ
- ์ฟ ๋ฒ๋คํฐ์ค
- ์ฐฝ์
- ํ ์คํธ๋ถ
- psql extension
- ํ์ด์ฌ
- ์ฃ์ง์ปดํจํ
- ๋์ปค
- adminbro
- GraphQL
- ์คํํธ์
- ์ด๋ ธ๋ฒ ์ด์ ์์นด๋ฐ๋ฏธ
- uuid-ossp
- ๋๋ฃํ์ต
- ํ๋ผ์ด๋นํด๋ผ์ฐ๋
- 42์์ธ
- enable_if
- ์ด์ ๋ธ๋ฆฌ์ด
- 42seoul
- ์๋ฃ๊ตฌ์กฐ
- ๋ถ๋์์์
- ์ด์ ๋ธ๋ฆฌ
- schema first
- mistelํค๋ณด๋
- Cloud Spanner
- raycasting
- ์คํ๋ฆฟํค๋ณด๋
- Today
- Total
written by yechoi
GCP - Big Data ์ํ(BigQuery, Cloud Dataproc, Cloud Dataflow ๋ฑ) ๋ณธ๋ฌธ
GCP - Big Data ์ํ(BigQuery, Cloud Dataproc, Cloud Dataflow ๋ฑ)
yechoi 2021. 3. 14. 22:43GCP Fundamentals: Core Infrastrucure
๐ ๊ฐ์ ์ถ์ฒ: Coursera GCP Fundamentals: Core Infrastructure
Introduction to Big Data and Machine Learning
Google Cloud Big Data Platform
Cloud Dataproc
-
managed Hadoop MapReduce, Spark, Pig, Hive service(๋น ๋ฐ์ดํฐ ํ๋ ์์ํฌ๋ค)
๐ ๊ฐ ํ๋ ์ ์ํฌ์ ์ฐจ์ด๋ฅผ ์๊ณ ์ถ๋ค๋ฉด ์ฌ๊ธฐ๋ก
-
MapReduce ๋ชจ๋ธ
๋์ฉ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํ '๋ถ์ฐ ํ๋ก๊ทธ๋๋ฐ' ๋ชจ๋ธ๋ก ๊ตฌ๊ธ์ด 2004๋ ๋ฐํํ ์ํํธ์จ์ด ํ๋ ์ ์ํฌ๋ค.
๋งต๊ณผ ๋ฆฌ๋์ค ๋๊ฐ์ง ๋ฉ๊ณ๋ก ์ด๋ค์ง๋ค. ๋งต์ ๋ฐ์ดํฐ๋ฅผ ํค์ ๋ฐธ๋ฅ๋ก ๋ณํํ๊ณ , ๋ฆฌ๋์ค๋ ์ค๋ณต ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๊ณ ์ํ๋ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ๋ ๊ณผ์ ์ด๋ค.
-
์ฌ์ฉํ๊ธฐ ์ํด์ Hadoop ํด๋ฌ์คํฐ๋ฅผ ์์ฒญ, ๊ฐ์๋จธ์ ์ค์ ์ ์๋ฃํด์ผ
-
์ค์ผ์ผ ์ , ๋ค์ด ๊ฐ๋ฅํ๋ฉฐ stackdriver๋ก ๋ชจ๋ํฐ๋ง ๊ฐ๋ฅ
-
ํ๋์จ์ด ๋ฆฌ์์ค์ ๋ํ ๋น์ฉ๋ง ์ง๋ถํ๋ฉฐ, ๋น์ฉ์ ์ด ๋จ์๋ก ์ฑ ์
-
์์์ ๋ฏธ๋ฆฌ ์ ์ ํ๋ ์์ผ๋ก ๊ณ์ฝํ๋ฉด 80%๊น์ง๋ ์ ๋ ด
-
Spark, Spark SQL, MLib(Apache Spark ๋ผ์ด๋ธ๋ฌ๋ฆฌ) ์ฌ์ฉ ๊ฐ๋ฅ
Cloud Dataflow
-
์์ Cloud Dataproc์ ๋ฐ์ดํฐ ์ฌ์ด์ฆ๋ฅผ ์๊ณ ํด๋ฌ์คํฐ์ ์ฌ์ด์ฆ๋ฅผ ์ค์ค๋ก ์กฐ์ ํ๊ณ ์ ํ ๋ ํจ์จ์
-
๋ฐ์ดํฐ๊ฐ ์ค์๊ฐ์ผ๋ก ๋ณ๋ํ๊ณ ์ฌ์ด์ฆ๋ฅผ ์์ธกํ ์ ์๋ ๊ฒฝ์ฐ Cloud Dataflow๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ํฉ๋ฆฌ์
-
Cloud Dataproc ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก extract, transform, load batch computation, continuous computation ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ ํ๋ก์ธ์ฑ ํจํด์ ์ง์
-
data pipeline์ ์ค์นํ๊ธฐ ์ํด ์ฌ์ฉ, ๊ฐ์ pipeline์ด batch์ streaming data์ ์ฌ์ฉ
๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ด๋ ๋ฐ์ดํฐ๋ฅผ ํ ์ฅ์์์ ๋ค๋ฅธ ์ฅ์๋ก ์ฐจ๋ก๋๋ก ์ ๋ฌํ๋ ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑ๋ ์ผ๋ จ์ ์์คํ . ETL(extracting, transforming, loading)์ ํฌํจํ๋ ๊ด์ํ ์ฉ์ด. ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๋ชจ๋ ์ข ๋ฅ์ ์คํค๋ง์ ๋ฐ์ดํฐ๋ฅผ ์์ฉํด์ผ ํ๊ณ , ๋ฌด์์ด๋ ๊ฐ์ ๋ฐ์ดํฐ๋ ์ฒญํฌ๋ก ๋ค์ด์ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌ๋๋ค.
-
ํด๋ฌ์คํฐ๋ฅผ ๊ตฌ์ฑํ๊ฑฐ๋ ์ธ์คํด์ค์ ์ฌ์ด์ฆ๋ฅผ ๋ณ๊ฒฝํ ํ์๊ฐ ์์
-
์ด๋ค ํ๋ก์ธ์ฑ ๋ฆฌ์์ค๋ ๊ด๋ฆฌํ ์ ์์ผ๋ฉฐ, ๋ฆฌ์์ค ๊ด๋ฆฌ๋ ํผํฌ๋จผ์ค ์ต์ ํ ๋ฑ์ ์ ๋ฌด๋ก๋ถํฐ ์์ ๋ก์
-
๋์ ์ผ๋ก ์ง์ฐ ๋ฌธ์ ๋ฅผ ๋ฆฌ๋ฐธ๋ฐ์ฑํ๋ฉฐ, hotkey(๋น๊ท ํ์ ์ผ๋ก ๋ง์ ์์ ์ฒญํฌ๊ฐ ํ ํด๋ฌ์คํฐ์ ๋งต๋๋ ๋ฌธ์ ) ์ฐ๋ ค๋ฅผ ์ค์
-
์ฃผ๋ก ETL ํด๋ก ์ฐ์ด๋ฉฐ, IoT ๋ถ์, ํฌ์ค์ผ์ด, ์ค์๊ฐ ์ดํ๋ฆฌ์ผ์ด์ (๊ฐ์ธํ ๊ฒ์ ux) ๋ฑ์ ๋ถ์ผ์์ ํ์ฉ
Big Query
- ๋ ๊ด๋ฒ์ํ๊ณ ๋ง์ ๋ฐ์ดํฐ์์ SQL ์ ํ์ค ์ฌ์ฉ
- Pay-as-you-go ๋ชจ๋ธ
- cloud storage, cloud data store์์ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ํ๊ฑฐ๋ ๋น ์ฟผ๋ฆฌ๋ก ์ด๋น 100,000 ์ค์ ์คํธ๋ฆผํ ์ ์์
- ํ ๋ผ๋ฐ์ดํธ ๋จ์์ ๋ฐ์ดํฐ์ SQL ์ฟผ๋ฆฌ๋ฅผ ์ด๋จ์๋ก ์ฒ๋ฆฌ ๊ฐ๋ฅ
- Cloud Dataflow, Hadoop, Spark ์์ ๋ฐ์ดํฐ ์ฝ๊ณ ์ฐ๊ธฐ ๊ฐ๋ฅ
- 99% SLA(Service Level Agreement, ์๋น์ค์์ค๊ณ์ฝ)
- ๋ฐ์ดํฐ ๋ณด๊ด ๋ฆฌ์ ์ ์ง์ ๊ฐ๋ฅ
- storage์ computation ๋น์ฉ์ด ๋ถ๋ฆฌ๋ผ ์์ด, ์ฟผ๋ฆฌ์ ๋ํ ๋น์ฉ์ ์ฌ์ฉํ ๋๋ง ์ง๋ถํ๋ฉด ๋จ
- ์ฅ๊ธฐ๊ฐ(90์ผ ์ด์) ๋ฐ์ดํฐ๋ฅผ Big Query์ ์ ์ฅํ ๊ฒฝ์ฐ ๊ตฌ๊ธ์ ์๋์ผ๋ก storage ๋น์ฉ์ ๋ฎ์ถค
Cloud Pub/Sub
- ๋๊ธฐ ์ด๋ฒคํธ๋ฅผ ์ฒ๋ฆฌํ ๋๋ Pub/Sub ๋ฉ์ธ์ง ์๋น์ค๊ฐ ๋์๋จ
- ์ ํ๋ฆฌ์ผ์ด์ ์ด ๋ฉ์ธ์ง๋ฅผ ๋ฐํํ๋ฉด ๊ตฌ๋ ์๋ค์ด ์์ ํ ์ ์์
- ๋ฉ์ธ์ง๋ ๋๊ธฐ์ผ ํ์ ์์ด์ ๋์ปคํ๋ง ์์คํ ์ ์ ํฉ
- ๋ฉ์ธ์ง๋ฅผ ์ ์ง์ฐ์ผ๋ก ์ต์ํ ํ๋ฒ ๊ณต๊ธํ๋๋ก ์ค๊ณ๋จ(์์ฃผ ์ ์ ํ๋ฅ ๋ก ๋๋ฒ ์ด์ ๋ฉ์ธ์ง๊ฐ ๋ณด๋ด์ง ์ ์์)
- ์ด๋น 100๋ง ๋ฉ์ธ์ง๋ฅผ ๋์์ ๋ณด๋ผ ์ ์๋ ์จ๋๋งจ๋ ํ์ฅ์ฑ์ ์ ๊ณต
- Stream data๋ฅผ ์ฒ๋ฆฌํ๋ค๋ฉด Pub/Sub์ Cloud Dataflow์ ํฉ์ด ์ข์
- GCP Compute Platform ์์ ์ ํ๋ฆฌ์ผ์ด์ ์์ ์ ์์ ์๋
Cloud Datalab
- Python, SQL๊ณผ ๊ฐ์ ์น์ํ ์ธ์ด๋ฅผ ์ฌ์ฉํ์ฌ ๋ํ์์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๊ฐํธํ๊ฒ ํ์, ์๊ฐํ, ๋ถ์, ๋ณํํ ์ ์์
- Integrated, Open source built on Jupiter
- Datalab ์์ฒด๋ ๋ฌด๋ฃ์ด๋ฉฐ ํ์, ๋ถ์ ๋ฑ์ ๊ณผ์ ์์ ์ฌ์ฉํ๋ GCP ์๋น์ค์ ๋ํด์ ๋น์ฉ ์ง๋ถ
- BigQuery, Compute Engine, Cloud Storage์ ํตํฉ๋ผ์๊ธฐ ๋๋ฌธ์ ๋ถํธํ ์ธ์ฆ์ ์ฐจ๋ฅผ ๊ฑฐ์น ํ์ ์์
- Google charts, map plot line ๋ฑ์ผ๋ก ๋ฐ์ดํฐ ์๊ฐํ ๊ฐ๋ฅ
- ์ด๋ฏธ ํต๊ณ ํจํค์ง๋ก ๋ฐํ๋ ๋ ธํธ๋ถ์ด ๋ง๊ธฐ ๋๋ฌธ์ ํ์ฉํด๋ณผ ์ ์์
Google Cloud Machine Learnind Platform
Cloud Machine Learning Platform
-
๋ฏธ๋ฆฌ ํ๋ จ๋ ๋ชจ๋ธ์ ํตํด ๋จธ์ ๋ฌ๋ ์๋น์ค๋ฅผ ์ ๊ณต
-
์์ ๋ง์ ๋ชจ๋ธ์ ๋ง๋ค์ด๋ณผ ์๋ ์์
-
TPU(Tensor Processing Units)๋ฅผ ํตํด 180 ํ ๋ผํ๋กญ(์ด๋น ๋ถ๋์์์ ์ฐ์ฐ)์ ์ฑ๋ฅ์ ๋
TPU(ํ ์ ์ฒ๋ฆฌ ์ฅ์น)๋ Google์์ ๋ง์ถค ๊ฐ๋ฐํ ASIC(Application-Specific Integrated Circuits)๋ก์ ๋จธ์ ๋ฌ๋ ์์ ๋ถํ๋ฅผ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. TPU๋ Google์ด ๋จธ์ ๋ฌ๋ ๋ถ์ผ์์ ์์ ์ฌํ๋ ๊ฒฝํ๊ณผ ๊ฒฝ์๋ ฅ์ ๋ฐํ์ผ๋ก ์ค๊ณ๋์์ต๋๋ค.
Cloud TPU ๋ฆฌ์์ค๋ ๋จธ์ ๋ฌ๋ ์ ํ๋ฆฌ์ผ์ด์ ์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ ์ ํ๋์ ์ฐ์ฐ ์ฑ๋ฅ์ ๊ฐ์ํํฉ๋๋ค. TPU๋ฅผ ์ฌ์ฉํ๋ฉด ๋ณต์กํ ๋ํ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ํ์ต์ํฌ ๋ ์ ํ์ฑ ๋ฌ์ฑ ์๊ฐ์ ์ต์ํํ ์ ์์ต๋๋ค. ๋ค๋ฅธ ํ๋์จ์ด ํ๋ซํผ์์๋ ํ์ตํ๋ ๋ฐ ๋ช ์ฃผ๊ฐ ๊ฑธ๋ ธ๋ ๋ชจ๋ธ์ด TPU์์๋ ๋ช ์๊ฐ์ด๋ฉด ์๋ ด ๋จ๊ณ์ ๋๋ฌํ ์ ์์ต๋๋ค.
-
Google Cloud Machine Learning Engine: ๋๊ท๋ชจ์ managed clustured์์ ์ด๋ ํ ์ข ๋ฅ์ ๋ฐ์ดํ๋ ํ ์ํ๋ก ๋ชจ๋ธ๋ก ์ฒ๋ฆฌํ ์ ์์
Machine learning APIs
- Cloud Vision API: ์ด๋ฏธ์ง์ ๋ด์ฉ์ ๋น ๋ฅด๊ฒ categorizeํ ์ ์์
- Cloud Speech API: ์์ฑ์ ํ ์คํธ๋ก ๋ณํ๊ฐ๋ฅ, 80๊ฐ ์ด์์ ์ธ์ด ์ง์
- Cloud Natural Language API: ์์ฐ์ด ๋ถ์, ๋ฌธ์ฅ์ ๊ฐ์ ๋ถ์ (์, ์, ์ผ์ด)
- Cloud Translation API: ์์์ ์ธ์ด๋ฅผ ์ง์ํ๋ ์ธ์ด๋ก ๋ณํ
- Cloud Video Intelligence API: ๋น๋์ค์ ์ฃผ์์ ๋ฌ ์ ์์ (๊ฒ์๊ธฐ๋ฅ๊ณผ ์ฐ๊ด ๋ฑ ๊ฐ๋ฅ)