MoonLight’s Blog

세상에서 제일 쉬운 챗GPT 프롬프트 엔지니어링

2024-09-20T12:26:28+00:00

성안당 출판사에서 책을 제공받아 작성된 리뷰입니다.

최근 ChatGPT와 같은 생성 모델의 급격한 발전과 함께 매우 다양한 분야에서 활용되고 있습니다.

이 책은 그중에서도 특히 프롬프트 엔지니어링(Prompt Engineering)이라는 개념을 깊이 있게 다루며, 생성 AI를 효과적으로 활용하는 방법, 특히 템플릿을 활용하여 구체적으로 설명합니다.

프롬프트 엔지니어링이란 사용자가 원하는 결과를 얻기 위해 적절한 질문을 생성 모델에게 제시하는 기술입니다.

이 책은 AI가 단순히 텍스트, 코드, 디자인 등을 생성해 내는 능력에서 한 단계 더 나아가, 구체적이고 효율적인 방법으로 AI를 사용할 수 있도록 101가지 템플릿을 제공하고 있습니다.

1. 필요성

저는 개발자로서 ChatGPT를 코드 생성이나 논문 요약 등의 단순한 작업을 하는 것에 활용했습니다.

하지만, 다른 사람들이 훌륭하게 ChatGPT를 활용하는 것을 보고 프롬프트 엔지니어링의 중요성을 깨닫게 되었고, 또한 그것이 ChatGPT와 같은 생성 모델에서 원하는 결과를 얻어내는 것에 필수적이라는 것도 알았습니다.

이 책에서는 다양한 상황에 맞는 프롬프트 엔지니어링 템플릿을 제공하여, 독자가 자신만의 방식으로 AI를 효과적으로 활용할 수 있도록 돕습니다.

2. 구성

이 책은 총 11개의 챕터로 구성되어 있으며, 각 챕터는 실생활에서 사용할 수 있는 템플릿을 소개하고 있습니다.

Ch. 1은 브레인스토밍 아이디어, 제안서 작성 등의 창의력을 이용한 아이디어 개발에 유용한 템플릿
Ch. 2는 페르미 기법, 4P4C 분석, 트렌드 조사, 고객 여정 지도, SWOT / PEST / PESTEL / 3C / MECE / 5W2H / AARRR 모델 등을 활용할 수 있는 다양한 템플릿
Ch. 3은 마케팅 및 프로모션에 유용한 템플릿 (SNS, 영상 마케팅)
Ch. 4는 디자인 및 그림 생성에 필요한 템플릿 작성 기법
Ch. 5는 코칭이나 비즈니스 스킬을 개발하는 유용한 템플릿
Ch. 6은 논문 및 기사 요약을 위한 템플릿.
Ch. 7은 일일 보고서, 회의 안건 작성, 보고서 작성 혹은 지원서 작성 등과 같이 일반적인 업무에 있어서 작업 효율성을 높일 수 있는 템플릿
Ch. 8은 E-Mail이나 프레젠테이션 등과 같이 다른 사람과 커뮤니케이션의 자료로 사용될 문서 작성에 유용한 템플릿
Ch. 9는 고객 응대에 관련된 문서를 생성하는 데 도움을 주는 템플릿
Ch. 10은 입사 지원서 작성을 위한 템플릿
Ch. 11은 기타 다양한 상황에서 사용할 수 있는 템플릿

3. 대상 독자

솔직히 이 책은 저 같은 개발자를 위한 책이라기보다는 창의력, 분석력, 전략 수립, 효율성 향상, 커뮤니케이션 등 다양한 영역에서 ChatGPT를 활용해야 하는 독자들에게 적합한 책입니다.

조금 더 범위를 넓히면 마케팅 전문가, 비즈니스 분석가, 기획자, 작가 등 생성 Model을 활용하여 창의적이고 효율적인 작업을 하고자 하는 사람들에게도 적합합니다.

4. 활용

생성 모델의 가장 큰 장점은 사용자가 구체적인 지시를 내리지 않아도 기본적인 내용을 생성할 수 있다는 것입니다.

이 책에서는 프롬프트에 사용하는 변수를 적절히 조절함으로써 더 나은 결과물을 얻을 수 있는 방법을 제시합니다.

책에 포함된 101가지의 템플릿은 다양한 문서나 창작물에 바로 적용 가능하며, 이를 기반으로 독자는 자신만의 프롬프트 엔지니어링 기법을 터득할 수 있습니다.

반복적인 실습을 통해 창의적이고 고품질의 AI 결과물을 도출할 수 있는 능력을 개발할 수도 있다고 생각합니다.

5. 총평

이 책은 생성 Model을 활용하여 더 나은 문서 생성, 비즈니스 전략 수립, 창의적인 아이디어 발굴 등의 작업을 하고자 하는 사람들에게 매우 유용한 가이드가 될 것입니다.

생성 Model은 이제 단순한 도구가 아니라, 효율성과 창의성을 증폭시키는 동반자로 자리 잡고 있습니다.

이 책을 통해 프롬프트 엔지니어링의 무한한 가능성을 탐구하고, 더 나은 결과물을 만들어낼 수 있을 것입니다.

AI를 위한 필수 수학 ( Essential Math for AI )

2024-09-14T12:26:28+00:00

한빛미디어 ‘나는 리뷰어다’ 활동을 위해서 책을 제공받아 작성된 서평입니다.

Machine Learning / Deep Learning의 이론을 공부하다보면 어렴풋이 각 Algorithm의 Base에는 어려운 수학 이론이 바탕에 깔려있다는 느낌을 받습니다.

AI라는 견고하고 훌륭한 건물의 설계도가 바로 수학인 것이죠.

저도 각종 Algorithm이나 최신 Deep Learning Model이 어떤 수학적 배경과 이론을 바탕으로 작동하는지 알아보려고 논문을 읽다보면

마치 외계어와도 같은 수식에 빠르게 포기했던 경험이 많이 있었습니다.

어려운 수학 공식과 각종 이론과 증명들에 대한 두려움 때문에 Machine Learning / Deep Learning 분야에 대한 공부를 포기하려고 하신 분들도 많을 것이라고 생각합니다.

저를 포함해 이런 경험을 가진 분들에게 단비와도 같은 책이 이번에 출판되었습니다.

이 책은 Machine Learning / Deep Learning의 기본이 되는 전반적인 수학 기초 개념을 쉽게 설명하기 위해서 많은 노력을 한 흔적이 보입니다.

수학 개념을 예제와 그림을 통해 알기 쉽게 설명하고, 번역가 분이 뭔가 더 설명이 필요하다고 생각되는 부분은 보충 설명을 친절하게 달아주셨습니다.

책의 특징

앞서 언급했지만, 이 책의 가장 큰 특징을 꼽으면 Machine Learning / Deep Learning의 기본이 되는 수학을 알기 쉽게 그림과 예제로 풀어서 설명해 준다는 것입니다.

자주 보거나 들어서 어렴풋이 알고 있는 용어 혹은 개념들의 뜻을 수학적으로 쉽게 설명합니다.

겁에 질릴만한 어려운 수식을 적어놓고, ‘이 수식은 이런 것이다!’라고 불친절하게 설명하는 것이 일반적인 방식이 아닌, 간단하고 중요한 최소한의 수식을 최대한 쉽고 자세하게 설명하기 위해서 노력합니다.

이름만 들어도 머리가 아픈 내용들을 실제 AI Model에서 사용되는 사례와 방법 설명하며 실제 문제에서 어떻게 사용되는 예시로써 설명합니다.

추가적으로, 잘 AI 관련 책에서 거의 다루지 않는 분야에 대한 최신 트렌드에 관련된 이야기도 합니다.

최근에는 ChatGPT을 필두로 LLM이 전 세계를 강타하고 있었고, 그 전에는 Image 관련 Model이 유행했었습니다.

하지만, 그 이외에도 AI를 활용하여 우리들에게 큰 도움이 될 수 있는 다양한 분야가 있고, 그에 대한 연구 내용도 이 책에서 함께 다루고 있습니다.

Chapter별 소개

Ch. 2. 확률 개념

AI에서 중요한 위치를 차지하고 있는 확률에 대한 기본 개념을 알아봅니다.
확률변수, 확률분포, 조건부 확률, 균등 분포, 정규분포, 기대값, 평균, 분산, 마르코프 과정, 연속분포, 이산분포, 확률밀도함수 등과 같은 개념들에 대해서 설명합니다.

Ch. 3. Data를 Function에 Fit하는 방법

Model의 Train은 Data를 특정 Function에 Fit하는 과정이라고 볼 수 있는데, 이 과정 전체에 나오는 수학적 이론들을 알아봅니다.
각 Model의 특성( Linear Regression, Logistic, Softmax, SVM, Random Forest, KNN, Tree 등)
Loss Function / Activation Function / Optimizer 등에 사용된 수학적 이론
성능 평가방법에 사용된 수학 이론등도 함께 알아봅니다.

Ch.4. 최적화 for NN

신경망(Neural Network)은 Deep Learning의 근간이 되는 Model 이기 때문에 이에 대해서도 수학적인 관점에서 알아봅니다.
먼저 Neural Network 종류와 이를 학습시키기 위한 Loss Function, Optimizer, Activation Function 등에 대해서도 수학적 원리를 알아봅니다.
Neural Network에서 가장 중요한 Hyperparamter라고 할 수 있는 Learning Rate의 의미에 대해서 확인하고 그 밖에 Feature Scale, 경사하강법, Weight 초기화 방법에 대해서도 알아봅니다.

Ch.5. CNN

CNN은 AI 시대를 연 그야말로 혁명을 일으킨 Model 구조이니 이것을 그냥 넘어갈 순 없습니다.
Convolution 연산의 수학적 의미, 사용분야, 응용방법에 대해서 알아보고, Image AI Model을 응용한 분야, 예를 들면, Vision, NLP 등에 대해서 살펴봅니다.
마지막으로, Pooling 연산 등과 같이 CNN에서 사용되는 중요 연산에 대한 수학적인 정리를 하고 마무리합니다.

Ch.6. 특이값 분해

특이값 분해의 수학적 원리에 대한 설명과 응용분야를 살펴봅니다.

Ch.7. NLP & Time Series

지금 세상은 NLP가 장악하고 있다고 해도 과언이 아닐 정도로 자연어처리 분야 열풍이 일어나고 있습니다.
Image 분야에 CNN이 있다면, NLP에는 Transformer / Attention이 있습니다.
Transformer / Attention의 수학적인 원리에 대해서 설명하고 있습니다.
NLP의 Dataset인 말뭉치(Corpus)를 효과적으로 표현하기 위한 다양한 방법론과 각 방법에 대한 수학적 배경에 대한 설명을 합니다.

Ch.8. 확률적 생성모델

생성모델(Generative Model)이란 어떤 Dataset과 유사한 Data를 생성해 내는 Model을 말합니다.
조금 더 구체적으로 학습한 Dataset의 확률 분포를 학습한다고 할 수 있으며 이는 기존 AI Model과는 다른 개념의 Model입니다.
생성모델을 잘 이해하기 위해서 우리가 어떠한 사고의 전환(결정론적 사고 vs 확률 이론적 사고 전환)이 필요한지와 생성모델이 기존 모델과 다른 점을 수학적으로 설명하고, 이를 학습하기 위한 방법 그리고 이 생성모델이 유용한 분야에 대해서 살펴봅니다.

Ch.9. 그래프 모델

다양하게 응용 가능한 그래프 기반 모델 설명 및 장점과 기본 개념 및 다양한 활용 방안에 대해서 알아봅니다.

Ch. 10. 운용 과학(Operational Research)

운용 과학이란 시간과 비용을 효율적인 방법으로 다양한 요구조건과 가용자원의 균형을 맞추는 과학분야 즉, 최적점 찾기 학문입니다.
이 분야는 AI 관련 도서나 글에서 쉽게 찾아보기 힘든 주제이기도 합니다.
운용 과학에서 다루는 다양한 방법론 열거하고, 수학적 배경지식을 설명합니다.
Machine Learning / Deep Learning을 이용한 문제 풀이 방법도 소개합니다.
이런 내용은 다른 AI 관련 도서는 찾기 쉽지 않다.

Ch. 11. 확률

확률은 AI에서 매우 중요한 수학적 개념입니다. Model이 출력하는 값이 확률이기도 하지만 Model 학습시에도 다양한 부분에서 확률이 사용되기 때문이기도 합니다.
이 책에서 사용한 확률에 대한 개념들을 정리하고, AI Model에서 알아야할 확률 이론들도 함께 알아봅니다.

Ch. 12. 수학적 논리

신경망 이전에 존재했던 논리기반 AI 모델에 대해서 다룹니다.
Deep Learning이 나오고 잘 다루어지지 않고 있지만, 최근 연구에서 논리기반 AI 모델이 개선되고 있다고 합니다.
과거의 이론이라고 생각했던 ‘논리’체계를 이용하는 방법을 Machine Learning / Deep Learning과 결합하는 방법에 대한 흥미로운 접근에 대한 내용들을 찾아볼 수 있습니다.
논리기반 AI 모델이 에이전트에게 다양한 논리체계를 부여하는 방법론에 대해서 알아봅니다.

Ch. 13. 편미분 방정식

편미분은 신경망을 학습시킬 때 필연적으로 사용하는 Backpropagation의 핵심 원리입니다.
자연계에서 편미분 방정식의 의미와 응용분야와 AI에서 편미분 방정식의 역할에 대해서 살펴봅니다.

Ch. 14. AI, 윤리, 수학, 법률, 정책

마지막으로 AI를 둘러싼 비기술적인 요소들에 대해서도 살펴보고 책은 마무리 됩니다.

총평

AI Model의 가장 기본적이고 깊은 곳의 이론적 배경을 이해하고 싶지만, 너무나 높은 수학이라는 벽에 좌절했던 저에게는 한줄기 햇살같은 책이었습니다.

저와 비슷한 경험이 있으시거나 혹은 AI 관련된 수학적 기초를 이해하고 싶으신 분들에게 추천드립니다.

Learning to (Learn at Test Time): RNNs with Expressive Hidden States

2024-08-15T12:26:28+00:00

0. 소개

안녕하세요. 현재 AI 분야를 평정하고 있는 생성형 AI(Generative AI)의 기본은 Self-Attention을 기반으로 하는 Transformer 구조입니다.

Transformer는 지금까지 발표된 어떤 구조보다도 우수한 성능을 가지지만, 유일한 단점이라면 Model의 표현력과 비례해서 Hidden State도 커져야 한다는 것입니다.

최근 발표된 Llama 3.1은 Model을 구성하는 Parameter의 개수가 4000억 개가 넘는다고 하죠.

이와 같은 Transformer의 구조는 한계를 극복하고자 발표된 Model이 TTT(Test-Time Training)이라는 구조로써, 핵심은 Hidden State 값들을 개별적으로 모두 저장하는 것이 아니라,

Hidden State 값을 표현하는 Machine Learning Model을 만들고 이를 TTT(Test-Time Training) Layer라고 부릅니다.

이 TTT(Test-Time Training) Layer(Layer라고는 하지만 실제로는 Machine Learing Model입니다) 자체의 Weight는 Self-Supervised 방식으로 Update 하도록 한다는 것이 핵심입니다.
( We propose a new class of sequence modeling layers with linear complexity and an expressive hidden state. The key idea is to make the hidden state a machine learning model itself, and the update rule a step of self-supervised learning. )

논문 Link를 아래에 남겨두었으니, 참고해 주세요

Github : https://github.com/test-time-training/ttt-lm-pytorch?tab=readme-ov-file[https://github.com/test-time-training/ttt-lm-pytorch?tab=readme-ov-file]

Paper : https://arxiv.org/abs/2407.04620[https://arxiv.org/abs/2407.04620]

PDF : https://arxiv.org/pdf/2407.04620[https://arxiv.org/pdf/2407.04620]

1. 기존 방식

Fig. 1. 은 지금까지 나온 대표적인 기법들에 대한 Hidden State Update 방식을 비교한 표입니다.

RNN & LSTM 구조와 같은 경우에는 Context를 고정된 길이로 압축을 해야 합니다.

이렇게 하는 경우에는 일정 시간 안에 처리되어 빠르다는 장점이 있지만, 어떤 길이의 Context라도 일정 길이로 압축되기 때문에 긴 문장의 경우에는 성능 저하가 필연적입니다.

반대로, Self-Attention은 Key-Value Tuple를 List에 추가하는 방식을 택하고 있으므로 문장의 길이가 거의 성능에 영향을 미치지 않습니다.

하지만, Key-Value를 저장하는 List의 크기도 선형적으로 증가하기 때문에 KV List를 Scan 하는 시간도 선형적으로 증가하게 된다는 단점이 있습니다.

2. 실험 결과

TTT Layer를 사용한 Model의 Test 결과를 살펴보도록 하겠습니다.

그전에 Test 결과에 자주 등장하는 Perplexity라는 것에 대해서 살짝 알아보도록 하겠습니다.

2.0. Perplexity

Perplexity는 Language Model의 성능을 평가하는 데 사용되는 지표로, Model이 예측하는 확률 분포의 불확실성을 측정합니다.

Perplexity는 Model이 주어진 텍스트를 얼마나 잘 예측하는지 나타내며, 낮을수록 Model의 예측이 더 정확함을 의미합니다.

2.0.0. Perplexity의 의미

낮을수록 Model이 텍스트를 더 잘 예측하고, 따라서 Model의 성능이 더 좋음을 의미합니다.

예를 들어, Perplexity 값이 1에 가까울수록 모델의 예측이 완벽하다는 것을 나타냅니다.

높을수록 Model의 예측이 부정확하고 불확실성이 높음을 의미합니다.

이는 Model이 텍스트의 다음 단어를 예측하는 데 어려움을 겪고 있음을 나타냅니다.

2.0.1. Example

Perplexity가 10이라면, Model이 다음 단어를 예측할 때 평균적으로 10개의 선택지 중 하나를 고르는 것과 같다는 의미입니다.

Perplexity가 100이라면, Model이 다음 단어를 예측할 때 평균적으로 100개의 선택지 중 하나를 고르는 것과 같다는 의미입니다.

이는 Model의 예측이 더 불확실함을 나타냅니다.

Perplexity는 Language Model의 성능을 비교하는 데 중요한 지표로 사용되며, 특히 Model이 얼마나 효율적으로 Language Pattern을 학습했는지를 평가하는 데 유용합니다.

<출처 : https://en.wikipedia.org/wiki/Perplexity[https://en.wikipedia.org/wiki/Perplexity]>

2.1. Short context: the Pile

Fig. 2.는 the Pile Dataset에서 Context Length 2k 및 8k에 대한 Test 결과를 나타냅니다.

TTT-Linear는 2k에서 Mamba와 비슷한 성능을 보이며, 8k에서는 더 나은 성능을 보입니다.

2.1.0 2k Context Length

TTT-Linear (M), Mamba, 그리고 Transformer의 성능은 거의 동일합니다. TTT-MLP (M)은 큰 FLOP 예산에서 약간 더 나쁜 성능을 보입니다. TTT-MLP는 모든 모델 크기에서 TTT-Linear보다 더 낮은 perplexity를 가지고 있지만, 추가적인 FLOP 비용이 그 이점을 상쇄시킵니다.

2.1.1 8k Context Length

TTT-Linear (M)과 TTT-MLP (M)은 Mamba보다 훨씬 더 좋은 성능을 보이며, 이는 2k에서의 관찰과는 대조적입니다.

Transformer 백본을 사용하는 TTT-MLP (T)조차도 약 1.3B 크기에서는 Mamba보다 약간 더 좋은 성능을 보입니다.

이 논문 전반에서 관찰되는 강력한 현상은 문맥 길이가 길어질수록 TTT 레이어가 Mamba보다 더 큰 이점을 가진다는 것입니다.

또한, Transformer는 여전히 모든 모델 크기에서 좋은 (어쩌면 최고 수준의) perplexit를 가지지만, FLOP 비용 때문에 경쟁력 있는 성능을 보이지 않습니다.

2.1.2 Backbone의 효과

TTT Layer를 Mamba Backbone에서 Transformer Backbone 으로 전환하면 두 가지 효과가 있습니다.

첫째, TTT Layer가 Mamba Backbone 에서 더 좋은 성능을 보입니다.

둘째, Mamba Backbone 을 사용한 경우 TTT-MLP는 최대한 TTT-Linear와 동등한 수준이지만, Transformer Backbone 을 사용하면 TTT-MLP가 명확히 더 나은 성능을 보입니다.

2.2. Long context: Books

Fig. 3.은 Books Dataset에서 Context Length 2k와 32k에 대한 Test결과입니다.

긴 Context에서의 성능을 평가하기 위해, Pile의 Books3라는 인기 있는 하위 집합을 사용하여 문맥 길이를 1k에서 32k까지 2배씩 증가시키며 Test를 진행했습니다.

Train Recipe는 Pile과 동일하며, 모든 TTT Layer에 대한 Test는 한 번의 Train 실행에서 수행되었습니다.

2.2.0 Books의 2k Context Length

Pile 2k에서의 모든 관찰은 여전히 유효하나, 이제 Mamba가 TTT-Linear보다 약간 더 나은 성능을 보입니다. (둘의 성능이 Pile 2k에서는 거의 동일했음).

2.2.1 Books의 32k Context Length

TTT-Linear (M)와 TTT-MLP (M)가 Mamba보다 더 나은 성능을 보이며, 이는 Pile 8k에서의 관찰과 유사합니다.

심지어 Transformer Backbone을 사용하는 TTT-MLP (T)도 32k 문맥에서 Mamba보다 약간 더 나은 성능을 보입니다.

TTT-MLP (T)는 1.3B에서 TTT-MLP (M)보다 약간 더 낮은 성능을 보입니다.

3. 마치며

최근 들어서 AI 분야에서는 기존의 영향력이 큰 기술들이나 기업들에서 탈출하고자 하는 움직임들이 많이 보이는 것 같습니다.

nVidia GPU 구조를 탈피하여 좀 더 가격 경쟁력이 있는 구조를 선보이는 노력을 한다거나, 이 Paper에서 제시한 TTT Layer와 같이 Transformer 구조의 한계를

극복하고자 하는 노력등이 대표적이라고 할 수 있겠습니다.

저는 이러한 방향성과 노력들이 매우 훌륭하다고 생각합니다.

이제 쓸만한 Model들은 너무 무거워져서 개인이나 작은 규모의 업체에서는 어지간한 Model은 돌릴 엄두조차 내지 못하는 상황에서 성능은 그대로 유지하면서 좀 더 경량화된

Model 구조나 효율이 좋은 HW에 대한 연구는 환영받을만 하다고 생각하고, 앞으로도 이런 방향의 연구가 많이 활성화 되었으면 합니다.

실무로 통하는 클린 코드

2024-08-14T12:26:28+00:00

한빛미디어 ‘나는 리뷰어다’ 활동을 위해서 책을 제공받아 작성된 서평입니다.

처음 Coding을 배웠던 시절이 기억납니다.

for, if-else, switch, goto…

제어문을 이용해서 내가 원하는 결과를 얻었을 때는 정말 내가 창조주가 된 것 마냥 기뻤습니다.

실무를 배우게 되고 제품의 규모가 커지고 Code의 양도 늘어나고 같이 일하는 사람들도 늘어나면서 그들이 만들어내는 수많은 Code들이 합쳐지면서 점점 유지 보수나 관리, 확장은 기하급수적으로 더 어려워지게 됩니다.

최근에는 AI / LLM의 눈부신 발전으로 인해서 단순한 Coding의 영역은 많은 도움을 받고 있지만, 아직까지도 근본적인 설계 및 유지관리, 보수를 AI Model에게 맡기는 것은 무리가 있는 것 같습니다.

현재는 AI와 인간이 같이 개발을 하고 있는 과도기라고 할 수 있습니다.

하지만, 앞서 말한 근본적인 설계의 영역은 여전히 사람들의 몫이라고 할 수 있습니다.

이와 같은 근본적인 설계 및 유지 보수와 직결되는 부분 중의 하나가 바로 ‘Clean Code’입니다.

개발자들은 Code로써 소통한다고 해도 과언이 아닙니다. 이 말은 좋은 Code는 훌륭한 의사소통 도구이며, Clean Code를 작성한다는 것은 자신은 물론 동료들을 배려하고 위하는 것이기도 합니다.

본인이 작성한 Code는 시간이 흘러 나중에 본인이 볼 수도 있는 것입니다.

예전에 작성한 본인의 Code를 보고 ‘내가 왜 저렇게 했지? 무슨 생각으로 저렇게 했었지?’라는 의문을 가지는 경우도 종종 있었을 것입니다.

개발자들은 모두 스스로 Clean Code의 중요성을 본능적으로 잘 알고 있습니다.

하지만, 실제로 Coding할 대 Clean Code를 적용하는 것은 생각만큼 쉽지 않습니다.

이 책은 다양한 환경에서 개발자들이 자주 마주치는 난감한 상황에 대한 해결 방법을 레시피 형식으로 제공합니다.

200여 개가 넘는 레시피는 Clean Code 작성 노하우 및 상황에 맞는 적절한 도움말과 해결책을 제시합니다.

단순히 설명한 하는 것이 아니라, 문제 상황을 설명하는 예제 Code를 제시하고, 이를 Clean Code로 변경하는 방법도 제안합니다.

다양한 예제들을 통해 Clean Code에 대한 ‘감’을 잡을 수 있게 도와주는 가이드 역할을 하는 것이죠.

편하니깐 혹은 이렇게 하면 쉽고 빠르게 문제를 개선할 수 있으니깐라는 생각으로 무심코 지나쳤던 제 자신의 Coding 습관을 여러 번 돌아보게 만들어 주었습니다.

혹은 Clean Code를 작성하고 싶지만, 실제로 어떻게 해야 할지 모르는 경우에도 훌륭한 지침서가 되어줄 거라고 확신합니다.

실무로 통하는 타입스크립트

2024-07-05T12:26:28+00:00

한빛미디어 ‘나는 리뷰어다’ 활동을 위해서 책을 제공받아 작성된 서평입니다.

배경

타입스크립트는 자바스크립트의 한계를 극복하기 위해 탄생한 언어입니다.

자바스크립트는 그 유연성과 광범위한 사용으로 인해 인기가 많지만, 동적 타입 시스템으로 인해 코드의 안전성과 유지보수성에서 많은 어려움을 겪어왔습니다.

이러한 문제를 해결하기 위해 등장한 타입스크립트는 정적 타입 시스템을 도입하여 코드의 오류를 사전에 잡고, 보다 견고한 애플리케이션을 개발할 수 있도록 도와줍니다.

바로 이 점이 타입스크립트가 급속도로 인기를 끌게 된 이유였습니다.

‘실무로 통하는 타입스크립트’는 이러한 타입스크립트의 탄생 배경과 그 인기를 낳은 이유를 잘 설명해줍니다.

저자는 타입스크립트가 자바스크립트 개발자들에게 얼마나 중요한 도구가 되었는지를 생생하게 전달하기 위해서 노력하는 열정이 엿보이며, 타입스크립트를 실무에 어떻게 적용할 수 있는지를 자세히 안내하려고 노력합니다.

타입스크립트는 단순히 자바스크립트의 상위 언어일 뿐만 아니라, 자바스크립트가 가진 단점을 보완하고, 개발자가 더욱 안전하고 효율적으로 코드를 작성할 수 있게 해줍니다.

예를 들면, 타입스크립트는 변수에 대해 엄격한 형식을 정의할 수 있게 하여, 컴파일 과정에서 오류를 미리 발견할 수 있습니다. 이는 코드의 품질을 높이고, 유지보수성을 크게 향상시키는 중요한 요소입니다.

구성

‘실무로 통하는 타입스크립트’는 105가지의 다양한 레시피를 통해 타입스크립트의 기본 개념부터 고급 기술까지 포괄적으로 다루고 있습니다.

이 책은 실무에서 바로 적용할 수 있는 실용적인 해결책을 제시하는 것을 목표로 하고 있으며, 특히 타입스크립트의 형식 검사기와 관련된 문제들을 어떻게 해결할 수 있는지 상세히 설명합니다.

이를 통해 독자는 타입스크립트를 이용한 개발의 효율성을 높이고, 견고하면서도 유지보수하기 쉬운 코드를 작성하는 방법을 배울 수 있을 것입니다.

이런 분들에게 필요한 책이에요

이 책은 초보자부터 전문가까지 모두에게 유용한 가이드입니다.

각 장은 독립적으로 작성되어 있어서 개별적으로 활용할 수 있지만, 전체를 통합해 일관된 지식 기반을 형성할 수도 있도록 만들어 졌습니다.

이런 구조는 독자가 필요할 때마다 원하는 부분을 빠르게 참고할 수 있게 해줘서 매우 편리하게 구성되어 있습니다. 마치 사전처럼 말이죠

또한, 이 책은 최신 타입스크립트 버전을 기준으로 설명하고 있어서, 변화하는 환경 속에서도 학습 내용이 관련성을 유지하도록 해줍니다.

저자는 자바스크립트와 타입스크립트 간의 복잡한 관계를 이해하는 것이 중요하다고 강조하고 있는데, 이 책은 다양한 예제와 심층적인 설명을 통해 독자가 타입스크립트를 효율적으로 사용하고, 그 이면에 숨겨진 사고 과정을 이해할 수 있도록 돕습니다.

형식 어서션, 제네릭, 리액트와 같은 인기 있는 라이브러리 및 프레임워크와 타입스크립트를 통합하는 방법에 대해서도 친절하게 안내합니다.

특히, 타입스크립트의 빠른 진화에 대응하는 방법을 잘 설명하고 있어, 독자가 최신 기능을 따라가는 데 어려움이 없도록 도울려고 노력하는 흔적이 엿보이기도 합니다.

‘실무로 통하는 타입스크립트’는 단순히 기술적인 내용을 나열하는 것이 아니라, 실제 프로젝트에서 적용할 수 있는 실용적인 해결책을 제시합니다.

저자의 친절한 설명과 풍부한 예제 덕분에 독자는 타입스크립트를 이용한 개발의 효율성을 높이고, 견고하고 확장 가능한 애플리케이션을 구축하는 방법을 자연스럽게 익힐 수 있습니다.

이 책을 통해 독자는 타입스크립트의 기본부터 고급 개념까지 폭넓은 내용을 학습할 수 있습니다.

저자의 열정과 노력이 담긴 이 책은 타입스크립트를 배우고자 하는 모든 개발자에게 필수적인 리소스입니다.

이제 타입스크립트의 흥미진진한 세계로의 여정을 시작해보세요!

Backpropagation

2024-06-23T12:26:28+00:00

이번 Post에서는 Backpropagation에 관해서 알아보도록 하겠습니다.

0. Introduction

Backpropagation은 Deep Learning 학습의 핵심 메커니즘입니다.

Deep Learning의 학습은 학습하려는 Train Data를 Network에 넣어서 값을 출력하는 순서를 거치게 됩니다.

이 과정을 Feedforward라고 합니다. 물론 이 과정에서 출력되는 값은 Network이 학습이 진행되기 전이기 때문에 실제 Target 값과 많이 차이가 나게 됩니다.

Deep Learning은 Target 값과 실제 정답과의 차이를 이용하여 Network을 구성하는 Parameter(Weight , Bias)를 적절하게 Update 합니다.

이 과정을 Backpropagation이라고 하며, 이번 Post에서는 Backpropagation 과정이 실제로 어떻게 동작하는지 알아보겠습니다.

1. Feedforward

먼저, Train Data로 Network이 Target 값을 계산하는지 알아보겠습니다.

다음과 같은 Network이 있다고 해보겠습니다. 매우 Simple한 구조지만, 모든 Network은 이 구조의 확장이기 때문에 설명하는데 충분하다고 생각합니다.

Activation Function은 Sigmoid라고 가정하겠습니다. 아시다시피 Sigmoid의 수식은 아래와 같습니다.

Loss Function은 MSE(Mean Squared Error)라고 가정하겠습니다. MSE를 구하는 수식은 아래와 같습니다.

먼저, 첫번째 Activation Function을 통과한 $ℎ_1=𝜎(𝑥_1𝑤_1+𝑥_2 𝑤_2+𝑏_1)$이고, $ℎ_2=𝜎(𝑥_1𝑤_3+𝑥_2𝑤_4+𝑏_2)$가 됩니다.

그리고, 두번째 Activation Function을 통과한 $𝑦_1=𝜎(ℎ_1𝑤_5+ℎ_2𝑤_7+𝑏_3)$이고, $𝑦_2=𝜎(ℎ_1𝑤_6+ℎ_2𝑤_8+𝑏_4)$가 됩니다.

2. Backpropagation

입력값 $x_1,x_2$ 가 신경망을 거쳐서 출력값 $\hat{𝑦_1}, \hat{𝑦_2}$가 계산되어 나왔습니다.

이 $\hat{𝑦_1}, \hat{𝑦_2}$가 실제 Target Value인 $𝑦_1, 𝑦_2$와 얼마나 차이가 나느냐 계산해서 이 차이만큼 신경망의 parameter(w,b)들을 update 시켜야 합니다.

이 동작의 반복을 ‘학습’이라고 합니다.

2.1. Loss Function

다양한 Loss Function이 존재하고 상황에 맞는 Loss Function을 선택해야 합니다.

이 Post에서는 가장 심플하다고 할 수 있는 MSE를 선택하기로 했습니다.

MSE는 신경망 출력값과 실제 Target 값의 차이를 구해서 제곱한 후 평균을 구하는 방식을 취합니다.

2.2. 편미분

Loss Function을 통해 실제값과 신경망이 구한 값의 차이, 즉, 에러 신호를 구했으면 이 에러신호가 신경망의 어떤 Parameter에 의해서 얼마나 영향을 받는지를 확인해서 신경망의 Parameter를 Update해 주어야 합니다.

구체적으로, 에러 신호를 Feedforward의 반대 방향으로 넘어가면서(Backpropagation) 편미분을 통해서 특정 Parameter가 에러 신호에 어느 정도 영향을 주는지 계산(미분)해서 개별적으로 Parameter를 에러 신호가 줄어드는 방향으로 Update해 나가는 동작을 반복하게 됩니다.

3. Example of Backpropagation

실제 편미분을 이용해 Parameter를 Update하는 방법을 알아보겠습니다.

먼저 Backpropagation은 Feedforward를 구성하는 각 Function들의 미분을 해야 하기 때문에,

Activation Function와 Loss Function의 도함수부터 먼저 알아보도록 하겠습니다.

3.1. Activation Function의 도함수

앞서 살펴봤듯이, Sigmoid의 형태는 아래와 같습니다.

Sigmoid의 도함수는 다음과 같습니다.

3.2. Loss Function의 도함수

우리는 Loss Function으로 MSE를 사용하기로 했으며, 수식은 아래와 같습니다.

MSE의 도함수의 형태는 아래와 같습니다.

도함수를 구하는 구체적인 순서는 생략하기로 하겠습니다.

3.3. Overall Process

Backpropagation의 전체적인 순서는 Feedforward에서 구한 Loss를 뒤로 넘기면서 각 Parameters(w,b)를 Loss가 줄어드는 방향으로 Update해 나가는 것입니다.

이제부터는 각 단계별로 Backpropagation이 실제로 적용되어 계산되는 방식을 알아보도록 하겠습니다.

3.4. Loss Function 단계

Loss Function은 MSE 방식을 사용했으니, MSE의 도함수를 이용해서 L을 Backpropagation합니다.

앞에서 알아본 MSE의 도함수를 이용해서 결과를 구하면

가 됩니다.

3.5. Activation Function 단계

Activation Function은 Sigmoid로 선택하였고, 앞서 Sigmoid의 도함수의 형태는

라는 것도 알아보았습니다.

여기서 $x=a_{\hat{𝑦_i}}$가 되고, $𝜎(a_{\hat{𝑦_i}})$는 곧 $\hat{y_i}$ 가 됩니다.

정리하면,

가 됩니다.

여기까지 결과를 Chain-Rule로 정리하면, 두번째 Hidden Layer의 출력값이 Loss에 미치는 영향을 에러 신호 $𝛿_{\hat{𝑦_i}}$ 라고 정의하면,

가 됩니다.

3.6. Parameter Update

에러 신호 $𝛿_{\hat{𝑦_i}}$를 구했으니, 이 값을 바탕으로 w,b를 Update합니다.

실제 w,b 계산 방법은 아래와 같습니다.

여기서 “η”는 Learning Rate값을 나타냅니다.

이 단계에서 Optimizer가 적용이 되는데, 선택한 Optimizer의 알고리즘에 따라서 “η”(Learning Rate)값에 따라서 Weight/Bias 값을 조절하게 됩니다.

$𝑤_6,𝑤_8, 𝑏_4$도 에러 신호 $𝛿_{\hat{𝑦_i}}$를 이용해서 동일한 방식으로 구할 수 있습니다.

3.7. Hidden Layer의 에러 신호

이 부분부터는 이전의 계산하는 방식과는 다른 방법을 이용해서 진행합니다.

앞의 단계에서는 전체 신경망의 최종결과 값인 Loss를 알고 있기때문에 오차, 즉 에러 신호를 계산할 수 있었습니다.

하지만, Hidden Layer에서는 실제 값을 모르고 알 수 있는 것은 단지 Backpropagation으로 전달된 에러 신호 $𝛿_{\hat{𝑦_i}}$뿐입니다.

우리는 첫번째 Hidden Layer의 출력 $ℎ_𝑖$의 에러 신호 $𝛿_{h_i}$ 를 구하려고 합니다.

에러 신호 $𝜹_{𝒉_𝒊}$는 생각해 보면 신경망을 거쳐 결국 $𝛿_{𝑦_𝑖}$에 영향을 끼치기 때문입니다.

그래서, $𝛿_{𝑦_𝑖}$를 Target으로 생각하고 이전과 유사하게 계산하면 됩니다.

동일한 방식으로 $𝛿_{ℎ_2}$도 구할 수 있습니다.

이제 에러 신호를 구했으니, 이 값을 바탕으로 $𝑤_1$ ~ $𝑤_4$ , $𝑏_1$ ~ $𝑏_2$도 Update할 수 있습니다.

4. Summary

앞서 살펴본 Feedforward & Backpropagation 과정을 전체 Dataset에 대해서 반복해서 적용하면서 Loss가 작아지는 방향으로 Parameters(W,B)를 Update하는 과정을 ‘학습(Training)’이라고 합니다.

Backpropagation은 Loss값을 뒤로 넘기면서 개별 Parameters(W,B)가 Loss에 얼마나 많은 영향을 미치는가를 편미분을 통해서 파악하고, 이 값을 Loss가 작아지는 방향으로 Update하는 과정입니다.

Deep Learning 학습에 Backpropagation이 사용된다고 알고는 있지만 실제 어떻게 동작하는지 정리해 볼 필요가 있을 것 같아서 나름대로 정리를 해 보았으니, 도움이 되셨다면 좋겠습니다.

머신러닝 리스크 관리 with 파이썬

2024-06-08T12:26:28+00:00

한빛미디어 ‘나는 리뷰어다’ 활동을 위해서 책을 제공받아 작성된 서평입니다.

이 책은 이런 책이에요

요즘은 산업/사회 전반적으로 Machine Learning / Deep Learning이 사용되지 않는 곳을 찾기가 어려워졌습니다.

다양한 분야에서 인간의 결정에 조금씩 도움을 줍니다.

물론 그 결정이 그리 큰 위험이 없는 분야일 수도 있지만, 어떤 경우에는 그 결정이 큰 영향을 끼치는 고위험인 경우도 있습니다.

Machine Learning Model이 이와 같은 고위험 결정을 하고 있기 때문에 최근들어서 Model 그 자체의 위험성도 서서히 드러나고 있는 실정입니다.

Machine Learning Model이 중요한 결정을 하는 일이 늘어나다 보니, 의도하지 않은 오용 혹은 의도적인 남용으로 인한 사고 사례가 속출하고 있습니다.

이러한 분위기 속에서 Machine Learning의 진정한 이점을 활용하려면 실무자의 조치가 필수적이 되었습니다만, 널리 인정받는 전문 자격증이나 모범 사례가 많이 부족한 상황입니다.

이 책은 이러한 전반적인 분위기 속에서 Model을 배포할 때 좋든 나쁘든 결과에 대한 책임에 대한 실무적인 가이드를 제공하기 위해서 기획되었습니다.

Model의 위험 관리 절차를 제대로 이해하고, 일반적인 도구를 사용해 설명가능한 Model을 제시하고, 안정성/안전성/편향관리/보안/프라이버시 등과 같은 일반적인 보안 이슈를 디버깅하고 개선하는 다양한 방법을 제시해 줍니다.

이런 분들에게 추천드려요

Machine Learning Model 배포 혹은 Machine Learning 위험 관리를 다루어야 하는 Machine Learning 엔지니어 및 Data Scientist에게 유용할 것입니다.

또한, Python Code Example을 통해서 모델 거버넌스의 기본 사항을 배우고, Workflow를 개선하여 기본적인 위험 통제 방법을 소개하기 때문에 이와 관련된 업무를 담당하고 있는 분들에게도 유용한 책입니다.

특히, Machine Learning의 자동화된 의사결정에서 발생할 수 있는 의도하지 않는 결과에 대한 우려를 가지고 있는 사람들에게도 도움이 되고, 법률이나 규정을 준수 및 관리해야 하는 규제 기관이나 정책 전문가들에게도 큰 도움이 될 것입니다.

이렇게 구성되어 있어요

이 책은 전체적으로 Machine Learning Workflow와 전통적인 모델 위험 관리나 사고 대응, 버그 바운티, 레드 팀과 같은 기존 컴퓨터 보안 모범 사례를 Machine Learning Model에 결합하여 실전 검증된 위험 통제를 적용하는 전반적인 방법을 설명합니다.

설명 가능한 여러 모델을 더 투명하게 확인하는 방법과, 모델의 안전성과 신뢰성을 테스트하고, 편향 관리를 위한 모델 구조화 방법도 제시하고, 마지막으로 Machine Learning Pipeline과 API 보안 설정을 설명하는 구성으로 되어 있습니다.

이런 점이 아쉬워요

용어의 번역이 조금 낯설고 이질적으로 느껴졌습니다. 물론 Machine Learning 리스크 관리라는 분야가 생소하다 보니 관련 용어도 조금 어려울 수도 있지만, 가끔씩 억지로 번역하지 말고 원래 단어를 그대로 적어주는 것이 더 이해하기 쉽지 않았을까 하는 부분들도 있었습니다.

그리고, 이론적으로 추상적인 개념들이 많아서 이해에 어려움이 좀 있을 수 있습니다. 예제 코드가 같이 제공된다고는 하지만 여전히 쉽게 다가가기 힘든 부분이 있습니다. 앞서 말했듯이, 이런 분야가 많이 알려진 분야가 아니다 보니 그럴 수도 있을 것입니다.

마지막으로, 요즘 소위 핫한 기법들(강화학습, Generative AI, LLM)은 다루고 있지 않고, 전통적인 Machine Learning 기법들을 다루고 있습니다.

실무로 통하는 ML 문제 해결 with 파이썬

2024-05-10T12:26:28+00:00

한빛미디어 ‘나는 리뷰어다’ 활동을 위해서 책을 제공받아 작성된 서평입니다.

‘간단하게 Machine Learning Model을 돌려보고 싶은데, 어떻게 하면 되지?’

“실무로 통하는 ML 문제 해결 with 파이썬”은 2019년에 발표된 “파이썬을 활용한 머신러닝 쿡북”의 2판입니다.

기본적인 프로그래밍 지식을 가진 독자들이 파이썬을 이용하여 머신 러닝 모델을 쉽고 빠르게 구현할 수 있도록 도와주는 실용적인 안내서입니다.

200개 이상의 다양하고 실용적인 코드 예제를 제공하며, 간단한 행렬 생성부터 Pre-Trained Model을 이용한 분류 작업까지 폭넓은 주제를 다룹니다.

이런 점이 좋아요

책의 가장 큰 장점 중 하나는 다양한 파이썬 라이브러리와 프레임워크를 다룬다는 점입니다.

Scikit-Learn, Numpy, Pandas는 물론이고, 최근 더욱 각광받는 PyTorch와 TensorFlow까지 포괄적으로 다루어, 독자들이 필요한 도구를 선택하여 사용할 수 있는 유연성을 제공합니다.

특히 2판에 추가된 PyTorch에 대한 내용은 1판에 비해서 가장 중요한 변경 사항이라고 생각합니다.

각 작업 단위별로 정리된 예제 코드를 제공하여서, 독자들이 필요할 때 즉시 코드를 Copy / Paste해서 사용할 수 있도록 하고 있습니다.

이는 학습 과정을 훨씬 더 신속하고 효율적으로 만들어 줍니다.

기본적인 머신 러닝 기법들에 대한 설명과 함께, 선형 회귀, 의사결정트리, KNN, 로지스틱 회귀, SVM, 나이브 베이즈, 군집화 등을 포함한 다양한 머신 러닝 알고리즘의 사용법을 안내합니다.

또한, 하이퍼파라미터 튜닝 기법과 다양한 프레임워크에서 모델을 서빙하는 방법 등도 다루어, 실제 머신 러닝 프로젝트를 진행하는 데 있어 필요한 지식을 제공합니다.

이런 점이 아쉬워요

이 책은 최신 딥러닝 기술에 대한 설명이 부족합니다.

LLM이나 생성 모델과 같은 고급 딥러닝 주제는 다루고 있지 않으므로, 이러한 최신 기술을 배우길 원하는 독자들에게는 다소 아쉬울 수 있습니다.

하지만, 이 책의 목적 자체가 실무에서 많이 사용되고 활용도가 높은 머신 러닝 기법들을 빠르고 쉽게 사용할 수 있도록 해주는 것이 목적이므로 최신 딥러닝 주제를 다루는 것은 이 책의 목적과는 맞지 않을수도 있겠다는 생각도 듭니다.

이런 분들에게 추천드려요

“실무로 통하는 ML 문제 해결 with 파이썬”은 빠르게 실무에 머신 러닝 알고리즘을 적용해 보고자 하는 독자들이 옆에 두고 사전처럼 찾아보면서 응용해서 사용할 수 있는 유용한 책이라고 생각합니다.

실질적인 머신 러닝 기술을 빠르게 배우고 싶은 독자들에게 강력히 추천할 만한 책입니다.

U-Net : Convolutional Networks for Biomedical Image Segmentation

2024-05-05T12:26:28+00:00

이번 Post에서는 U-Net에 관해서 알아보도록 하겠습니다.

0. Introduction

U-Net은 2015년 Olaf Ronneberger, Philipp Fischer, Thomas Brox의 “U-Net_Convolutional Networks for Biomedical Image Segmentation”이라는 Paper에 처음 소개되었으며,

효율적인 구조와 성능은 특히 적은 양의 Train Data로도 우수한 분할 결과를 얻을 수 있게 하며,

Paper 제목에서도 유추할 수 있듯이, Data가 부족하거나 비싼 의료 분야에서 특히 두각을 나타냈습니다.

1. 사용 예

U-Net의 강점은 배경과 객체를 분리하는데 특화된 모델이고 또한 특히 적은 양의 Train Data로도 우수한 분할 결과를 얻을 수 있다는 강점으로 인해 다음과 같은 영역에서 많이 사용됩니다.

1.0. 의료 이미지 분석

U-Net은 특히 MRI, CT 스캔 등의 의료 이미지에서 조직 유형이나 병변을 정밀하게 분할하는 데 사용됩니다. 이를 통해 의사들은 질병 진단, 수술 계획, 치료 효과 평가 등에 중요한 정보를 얻을 수 있습니다.

1.1. 위성 이미지 처리

위성 이미지에서 도로, 건물, 물체, 자연 풍경 등을 정확하게 분할하여 지도 제작, 환경 모니터링, 도시 계획 등에 사용됩니다.

1.2. 자동차 운전 보조

자동차의 카메라로부터 얻은 이미지를 분석하여 도로, 보행자, 다른 차량 등을 분할함으로 써 자동차가 환경을 인식하고 안전하게 주행하도록 돕습니다.

2. Structure

U-Net은 기본적으로 컨볼루션 신경망(Convolutional Neural Network, CNN)을 주로 활용한 Network 구조입니다.

전체적인 구조는 아래와 같이 ‘U’자 모양을 하고 있기 때문에 이름이 U-Net입니다.

2.0. 수축 경로 (Contracting Path)

위 그림에서 왼쪽 빨간색 영역을 말하며, 이 부분은 전형적인 Convolutional Neural Network 구조를 따릅니다.

여러 개의 Convolutional Layer와 Max Pooling Layer가 포함되어 있어 입력 이미지의 특징을 추출합니다.

각 Convolutional 연산 후에는 ReLU Activation Function이 적용됩니다.

Max Pooling을 통해 Feature Map의 크기가 줄어들며, 이 과정에서 이미지의 공간적 차원이 축소됩니다.

2.1. 확장 경로 (Expanding Path)

위 그림에서 오른쪽 파란색 영역을 말하며, 확장 경로에서는 Transposed Convolution Layer를 사용하여 Feature Map의 크기를 점차 확대합니다.

수축 경로에서 추출된 Feature Map의 각 레벨은 확장 경로에서 적절한 Transposed Convolution Layer를 통해 점차적으로 원래 크기로 복원됩니다.

확장 경로의 각 단계에서는 해당 단계의 Convolution 출력과 수축 경로에서의 대응되는 Feature Map을 연결(concatenate) 합니다.

이를 통해 네트워크는 위치 정보를 보존하고, 더 정확한 분할을 가능하게 합니다.

2.2. Skip Connection

위 그림에서 왼쪽에서 오른쪽으로 연결되는 회색 화살표를 보실 수 있으실 겁니다.

이것은 Skip Connection을 의미하며, Skip Connection을 통해서 수축 경로의 Feature Map을 확장 경로의 적절한 Layer와 직접 연결함으로써, 네트워크가 깊어져도 세밀한 위치 정보를 유지할 수 있습니다.

3. Operations

U-Net의 입력부터 최종 출력인 Output Segmentation Map’을 얻기까지의 각 단계마다 어떤 연산을 거치는 알아보도록 하겠습니다.

3.0. Operation Symbols

구체적인 연산을 알아보기 전에, 그림에서 사용하는 색깔별 화살표가 의미하는 것을 알아야 쉽게 따라갈 수 있을 것 같습니다.

1) 파란색 오른쪽 화살표

일반적인 Convolutional Layer를 나타내며, Kernel Size는 3x3, Stride 1, Padding은 0이 적용되었습니다.

2) 회색 오른쪽 화살표

Skip Connection을 나타냅니다. Crop & Copy 순서로 적용되는데, 왼쪽의 값 Dimension과 오른쪽에 붙여 넣을 Dimension의 크기가 달라서 왼쪽 중간 부분을 잘라서(Crop) 오른쪽에 붙여 넣습니다.(Copy) 왼쪽 부분에 잘 안 보이지만, 파란색으로 점선이 그려져 있는데, 이 부분을 Crop 한다는 의미입니다.

3) 갈색 아래쪽 화살표

2x2 크기의 Max Pooling을 수행한다는 의미입니다. 2x2 Max Pooling이기 때문에 Dimension이 반으로 줄어듭니다.

4) 위쪽 초록색 화살표

Transposed Convolution 연산입니다.

5) 오른쪽 청록색 화살표

1x1 Convolution 연산을 나타냅니다.

3.1. Input & Convolution Layer

Input Image부터 살펴보도록 하겠습니다. Paper에 나온 수치 그대로 사용해서 살펴보도록 하겠습니다.

Input Image Size는 572x572입니다. 이 Image를 64개의 3x3 Kernel의 Convolutional Layer를 2번 거쳐서 568x568 Size의 Feature Map 64개를 만듭니다.

Padding이 없기 때문에 아래 위로 1 Pixel만큼 크기가 줄어드는 것을 알 수 있습니다.

오른쪽 64개의 Feature Map에서 중간 영역에 표시된 파란색 점선 부분은 이후에 적용될 Skip Connection에서 Crop & Copy에 사용될 영역입니다.

이후에 설명하도록 하겠습니다.

3.2. Max Pooling

568x568 Size의 Feature Map 64개를 2x2 Max Pooling을 합니다. ( 아래 방향 빨간색 화살표는 2x2 Max Pooling을 의미합니다. )

2x2이기 때문에 크기가 반으로 줄어들어서 284x284가 되는 것을 확인할 수 있습니다.

여기에 이전과 마찬가지로 128개의 3x3 Kernel의 Convolutional Layer를 2번 거쳐서 280x280 Size의 Feature Map 128개를 만듭니다.

3.3. Repeat

위와 같은 3x3 Kernel의 Convolutional Layer & Max Pooling 과정을 Feature Map Size가 28x28x1024가 될 때까지 반복합니다.

3.4. Transposed Convolution & Skip Connection

여기서부터는 확장 경로 (Expanding Path)에 속합니다.

확장 경로 (Expanding Path)에서는 Transposed Convolution 연산과 Skip Connection으로 Feature Map에서 원래 크기의 Image로 복원하는 과정을 담고 있습니다.

위 그림에서 초록색 점선 부분은 수축 경로에서 최종적으로 생성된 28x28x1024 크기의 Feature Map입니다.

여기에 Transposed Convolution을 적용하면 56x56x512 크기의 새로운 Feature Map이 만들어집니다.

추가로, 검은색 점선 부분은 수축 경로에서 64x64x512 부분의 중간 부분을 Crop 해서 56x56x512 크기만큼 잘라낸 부분을 Skip Connection으로

Transposed Convolution 연산의 결과와 Concatenate 합니다.

그럼, 결과적으로 56x56x1024 크기의 Feature Map이 만들어집니다.

3.5. Repeat

이제부터는 3x3 Kernel Convolutional Layer 2번 반복, Transposed Convolution & Skip Connection을 반복합니다.

3.6. Output Segmentation Map

Transposed Convolution을 적용한 결과가 392x392가 되면 이제는 3x3 Kernel Convolutional Layer를 2번 거친 후에

최종적으로 Output Segmentation Map을 생성합니다.

Output Segmentation Map을 생성하는 방법은 그림에서 보는 바와 같이 388x388x64 크기의 Feature Map에 1x1 Convolution 연산을 적용하여

원하는 만큼의 Channel Depth를 만들어 내면 됩니다.

Paper에서는 Channel Depth를 2로 만든 예제를 보여주고 있습니다만, 이 값은 1x1 Convolution 연산의 Paramter를 어떻게 하느냐에 따라서 원하는 만큼 만들 수 있습니다.

3.7. Channel Depth of Output Segmentation Map

Channel Depth의 수는 이 U-Net이 분류하고자 하는 객체의 수를 나타낸다고 보시면 됩니다.

예를 들어, 이 U-Net이 사과, 배, 딸기 그리고 배경을 구분하도록 Train 되었다면,

4가지 객체를 분류할 수 있어야 하므로, Channel Depth는 4가 되어야 합니다.

Paper에서 최종 Output Segmentation Map는 388x388x2의 크기를 가지며, Paper에서 예로 든 U-Net Model은 입력 Image에서 2가지를 구분하도록 Train 되었다고 생각할 수 있습니다.

388x388 크기의 Image에서 같은 위치의 Pixel은 Channel Depth의 수만큼 값을 가진다고 생각할 수 있습니다.

이 값들을 Softmax 취하면 확률을 구할 수 있고, 해당 Pixel이 어떤 객체에 포함되는지를 확률 값으로 구할 수 있습니다.

이런 식으로 모든 Pixel 값들의 확률 값을 구하면 입력 Image에서 어떤 객체가 어디에 있는지 구분하는 Model을 만들 수 있는 것입니다.

4. U-Net Train

앞서 U-Net이 어떤 구조로 되어 있고, 어떻게 최종 결과인 Output Segmentation Map을 생성하는지와 이 Output Segmentation Map을 어떻게 해석하는지에 대해서 알아보았습니다.

그렇다면, 만약 우리가 실제로 U-Net을 Train 시키고 싶다면 어떤 준비를 해야 할까요?

앞에서 예로 설명한 사과, 배, 딸기 그리고 배경을 구분하는 U-Net Model을 만들고 싶다고 가정해 봅시다.

우선 Train에 사용할 Image Dataset을 구해야 합니다. 하나의 사진에 사과, 배, 딸기가 있는 많은 사진들이 필요하겠죠.

그리고, 각각의 Image의 각 Pixel에 해당 Pixel이 어떤 객체에 해당하는지 Labeling을 해야 합니다.(…)

U-Net의 출력은 각 Pixel이 어떤 객체인지에 대한 확률값을 가지고 있으므로, 이를 Backpropagation으로 학습을 하기 위해서는

이러한 Dataset 준비를 해야 하는 것입니다.

제 생각에는 U-Net의 구조와 구현 자체는 상당히 심플하고 쉬우나, Train을 위한 Dataset 준비가 가장 귀찮을 것 같다는 생각이 드네요.

5. vs YOLO

	U-Net	YOLO
목적	의료 이미징과 같은 분야에서 픽셀 수준의 이미지 세그멘테이션을 수행하기 위해 설계되었습니다.각 픽셀에 대해 정확한 클래스 레이블을 할당하며, 매우 세밀한 세그멘테이션 결과를 제공합니다.	실시간 객체 감지를 목표로 개발된 모델로, 이미지 내 객체의 위치와 클래스를 신속하게 탐지할 수 있습니다.각 이미지를 한 번만 보고(You Only Look Once) 여러 객체를 감지하며, 그 결과를 바운딩 박스로 표시합니다.
장점	스킵 연결과 대칭 구조 덕분에 세부적인 텍스처와 경계를 잘 포착하고, 적은 양의 데이터로도 효과적으로 학습할 수 있습니다.	매우 빠른 속도로 동작하며, 비디오 스트림과 같은 실시간 처리에 적합합니다. 다수의 객체를 효과적으로 감지할 수 있습니다.
적용 분야	주로 의료 영상 분석, 위성 이미지 세그멘테이션, 과학 연구 등에서 사용됩니다.	보안 감시, 자율 주행 차량, 산업 자동화 등에서 널리 사용됩니다.

성능 비교

세그멘테이션 vs. 객체 감지: U-Net은 픽셀 수준의 세그멘테이션에 최적화되어 있어 정밀한 영역 분할에 뛰 어난 반면, YOLO는 객체의 위치와 클래스를 빠르게 감지하는 데 초점을 맞춥니다.

정확성과 속도

U-Net은 세밀한 정보가 중요한 분야에서 높은 정확성을 제공하는 반면, YOLO는 처리 속도가 매우 빠르며, 실시간 반응이 요구되는 환경에서 유용합니다.

따라서, 두 모델 중 어느 것이 “더 좋다”고 말하기보다는, 각기 다른 작업과 요구 사항에 맞게 적절히 선택하는 것이 중요합니다. 픽셀 수준의 세밀한 분석이 필요하면 U-Net을, 빠른 객체 감지가 중요하면 YOLO를 선택하는 것이 적합합니다.

6. Summary

이상으로 U-Net에 대한 소개, 구조, 설명, 비교, 장단점 등을 알아보았습니다.

구조는 심플한 편이지만, Train 시키기에는 조금 번거로움이 있는 Architecture인 것 같네요.

도움이 되셨다면 좋겠네요.

그럼, 다음에 또 만나요~!

1x1 Convolution

2024-05-02T12:26:28+00:00

이번 Post에서는 1x1 Convolution 연산에 대해서 알아보도록 하겠습니다.

0. Introduction

저는 처음 1x1 Convolution이라는 이름을 봤을 때, ‘1x1이면 1개의 Pixel인데, 크기 1짜리 Kernel 연산이 의미가 있을까’라는 의문이 들더군요

1x1 Convolution 연산은 일반적인 Convolution 연산과 몇 가지 중요한 차이점이 있습니다.

가장 중요한 차이는 일반적인 Convolution 연산이 공간적 정보를 처리하는 데 중점을 두는 반면, 1x1 Convolution은 Channel 간의 정보를 조합하고 차원을 조절하는 데 주로 사용됩니다.

말로 설명하니 약간 이해가 되지 않는데요, 추가 설명과 연산 방법에 살펴보면 이해가 될 것 같습니다.

0.0. 차이점

0.0.0. Kernel 크기

일반적인 Convolution에서는 보통 3x3, 5x5, 7x7 등의 Kernel 크기를 사용하여 Kernel 내의 여러 픽셀 간의 공간적 관계를 학습하고 이 값들을 바탕으로 새로운 Feature를 생성하는 것을 반복하는 과정을 거치게 됩니다.

반면 1x1 Convolution에서는 Kernel 크기가 1x1이며 단 하나의 Pixel에서만 연산을 수행하며, 공간적인 정보는 전혀 고려하지 않고 오직 Channel 차원에서의 정보만을 조작한다는 의미입니다.

0.0.1. 목적

일반적인 Convolution의 목적은 Image의 텍스처, 가장자리, 형태 등 공간적인 패턴을 인식하고 이를 기반으로 특징을 추출하는 데 가장 큰 목적이 있습니다.

반면에, 1x1 Convolution은 주로 Neural Network의 깊이를 변경하는 데 사용되며 이는 Channel 수를 늘리거나 줄이는 역할, 각 Channel의 정보를 조합하여 새로운 Feature을 생성하는데도 사용됩니다.

0.0.2. 연산 효율성

일반적인 Convolution은 더 넓은 영역의 정보를 계산에 포함하기 때문에 비교적 많은 계산량이 요구되지만, 1x1 Convolution은 계산량이 상대적으로 적으며, 매우 효율적인 차원 변환 도구로 사용됩니다.

Neural Network의 복잡성을 조절하거나, Convolution Layer 사이에서 병목 현상을 줄이는 데 유용합니다.

1x1 Convolution은 이러한 특성 덕분에 매우 다양하게 활용되며, 특히 복잡한 아키텍처에서 중간 차원의 축소나 증가, Channel 정보의 재조합 등에 사용되어 Neural Network의 성능을 최적화하는 데 큰 역할을 합니다.

1. 연산 방법

실제 1x1 Convolution 연산을 하는 방법을 소개해 드리도록 하겠습니다.

Input Feature Map의 Size가 56x56x512라고 하고, 우리는 이 Feature Map의 Channel을 2배인, 1024개로 늘리고자 합니다.

Step 01

먼저 Input Feature Map의 Channel 수(=512)와 동일한 수의 Weight를 최종 목표 Channel 수와 동일한 1024개 준비합니다.

Step 02

Input Feature Map에서 하나의 Pixel의 위치를 선택합니다. 아래의 그림에서는 (0,0) 위치의 Pixel을 선택했다고 가정합니다.

Input Feature Map의 Channel 수가 512개이기 때문에, (0,0) 위치의 Pixel은 모두 512개가 있습니다.

이 (0,0) 위치의 Pixel 512개를 첫 번째 Kernel Filter와 Element-wise 곱셈을 수행합니다.

곱셈을 수행하면 512개의 결과가 나올 것이고, 이 값들 모두 더하면 하나의 결괏값이 나옵니다.

이 과정을 1024개 Kernel Filter에 반복하면 Pixel 하나에 1024개의 값이 생깁니다.

Step 03

이번에는 Input Feature Map의 (0,1) 위치의 Pixel을 선택하고, Step 02와 같이 Kernel Filter 1024개와 각각 모두 곱하고 더해서 하나의 값을 계산한 후 Concatenate 합니다.

Step 04

이와 같은 연산을 Pixel 수만큼 반복합니다.

그러면 총 56x56개의 1024개 값이 나옵니다.

결과적으로 최초 Input Feature Map의 Size인 56x56x512에서 56x56x1024의 Feature Map이 생겨나면서

Channel 수가 2배 증가하는 효과를 가져옵니다.

이번 Post에서는 1x1 Convolution의 설명과 실제 연산하는 방법에 대해서 살펴보았습니다.

앞으로 다룰 내용의 중요한 일부분이어서 미리 내용 정리해 보았습니다.

도움이 되셨기를 바라며, 다음에 또 뵙겠습니다.