본문 바로가기
ChatGPT 탐구 및 원리

ChatGPT (챗GPT) GPT-4 넌 이미지 인식을 어떻게 하니? 탐구(5)

by 후니호호 2023. 3. 25.
반응형
 

ChatGPT (챗GPT) GPT-4 버전 공개, 이미지 입력까지 가능

안녕하세요 후니호호 입니다. ChatGPT(챗GPT) 설치? 넌 누구니? 탐구 (1) ChatGPT (챗 GPT) 설치? 넌 누구니? 첫 만남. 2022년 겨울 터덜터덜 꼭꼭 아침밥을 먹으며 핸드폰을 보다가 뉴스에 신기한걸 보게되

hunihoho.tistory.com

안녕하세요 후니호호 입니다.

 

지난 시간에 GPT-4버전이 공개되면서 3.5버전과 4버전의 차이점들을 말씀드렸습니다.ㅎㅎ

저는 많은 변화가 있었지만 "이미지 입력" 이게 가장 큰 변화가 아닐까 생각합니다.

이번 탐구 시간에는 이미지 입력에 대해 알아볼까 합니다! 같이 가보시죠^^


이미지 입력

이미지 입력이란?

이미지 입력은 분석 및 예측을 위해 이미지 또는 이미지 세트를 머신 러닝 모델에 공급하는 프로세스를 말합니다. 

 

이 과정에서 먼저 이미지를 전처리하여 관련 특징을 추출한 다음 숫자 배열과 같이 머신 러닝 모델이 이해할 수 있는 형식으로 변환합니다.

 

이미지 입력은 물체 감지, 얼굴 인식, 의료 영상, 자율 주행 차량 등 다양한 애플리케이션에서 사용됩니다. 

 

대표적으로 많이 사용되던 이미지 입력은 OCR (Optical Character Recognition) 입니다. 


OCR

OCR (Optical Character Recognition) 란?

 

OCR (Optical Character Recognition)이미지 내의 문자를 자동으로 인식하여 텍스트로 변환하는 기술입니다. 일반적으로 인쇄된 문서나 문서 이미지에서 텍스트를 추출하는 데 사용됩니다.

 

예를 들어, 스캐너로 스캔한 이미지 파일이나 디지털 카메라로 찍은 사진을 OCR 소프트웨어에 입력하면, 소프트웨어는 이미지 내의 문자를 인식하여 해당 문자들을 텍스트 형태로 변환합니다.

 

OCR 기술은 여러 가지 방법으로 구현될 수 있습니다.

 

가장 일반적인 방법은 이미지 내의 픽셀들을 분석하여 문자와 문자열의 경계를 인식하고, 각 문자를 인식하여 해당 문자의 유니코드 문자 코드 값을 결정하는 것입니다. 이를 위해 OCR 소프트웨어는 이미지 처리 기술, 문자 인식 기술, 언어 모델링 등 다양한 기술들을 사용합니다.

 

OCR 기술은 종종 비즈니스 문서 처리, 전자 거래, 출판, 정부 문서 처리 등 다양한 분야에서 사용됩니다. 예를 들어, 회사에서는 스캔한 인쇄물을 텍스트 형식으로 변환하여 전자 문서로 관리하거나, 은행에서는 수표를 스캔하여 금액을 자동으로 인식하여 처리하는 등의 용도로 사용됩니다.


GPT에서 사용되는 이미지 캡셔닝이란?

 

이미지 캡셔닝(Image Captioning)은 이미지를 입력으로 받아 해당 이미지를 설명하는 문장을 생성하는 기술입니다.

 

이미지 캡셔닝 기술은 대개 컨볼루션 신경망(Convolutional Neural Network, CNN)과 장단기기억망(Long Short-Term Memory, LSTM)을 결합하여 사용됩니다. CNN은 이미지로부터 특징(feature)을 추출하는 데 사용되며, LSTM은 추출된 특징을 바탕으로 문장을 생성하는 데 사용됩니다.

 

예를 들어, 고양이가 책상 위에서 놀고 있는 이미지가 있다면, 이미지 캡셔닝 모델은 해당 이미지를 입력으로 받아 "책상 위에 놀고 있는 고양이" 라는 문장을 생성할 수 있습니다.

 

이미지 캡셔닝 기술은 다양한 분야에서 사용될 수 있습니다.

 

예를 들어, 컴퓨터 비전 기술과 결합하여 어떤 제품이나 사물의 이미지를 입력으로 받아 해당 제품이나 사물의 정보를 제공하는 서비스를 제공할 수 있습니다. 또한, 자율주행 자동차나 드론 등에서는 주변 환경을 인식하기 위해 이미지 캡셔닝 기술을 사용할 수 있습니다. 또한, 시각 장애인들이 인터넷 상에서 이미지를 이해하는 데 도움을 받기 위해 이미지에 대한 설명을 제공하는 데도 사용될 수 있습니다.


CNN은 뭐야?

 

CNN(Convolutional Neural Network)은 이미지 인식과 같은 컴퓨터 비전 분야에서 사용되는 인공신경망의 한 종류입니다.

CNN은 이미지에서 특징을 추출하기 위해 컨볼루션(convolution) 연산을 사용합니다. 

 

컨볼루션 연산은 이미지와 필터(filter)를 합성곱하는 연산입니다. 필터는 일종의 작은 윈도우(window)와 같은 역할을 하며, 이미지를 지나가면서 특정 패턴이나 특징을 추출합니다. 이러한 필터는 학습 과정에서 자동으로 결정됩니다.

CNN은 또한 맥스 풀링(max pooling)이라는 연산을 사용하여 이미지의 크기를 줄이고, 드롭아웃(dropout)이라는 기법을 사용하여 과적합(overfitting)을 방지합니다. 이를 통해 CNN은 더욱 정확한 이미지 인식을 가능케 합니다.

예를 들어, 고양이와 개를 구분하는 문제가 있다면, CNN은 입력으로 고양이와 개의 이미지를 받아들여 각 이미지에서 특징을 추출합니다. 이러한 특징 추출 후, 추출된 특징을 사용하여 입력 이미지가 고양이인지 개인지를 분류합니다.

CNN은 컴퓨터 비전 분야에서 많이 사용되며, 이미지 인식, 객체 검출, 얼굴 인식 등 다양한 분야에서 사용됩니다. 예를 들어, 자율주행 자동차에서는 CNN을 사용하여 주변 환경을 인식하여 주행에 필요한 정보를 추출합니다. 또한, 의료 분야에서는 CNN을 사용하여 X-ray나 MRI 이미지에서 질병을 진단하는 데 사용됩니다.


LSTM은 뭐야?

LSTM(Long Short-Term Memory)은 순환 신경망(Recurrent Neural Network, RNN)의 한 종류로, 시퀀스 데이터(Sequence Data)를 다루는 데 특화되어 있습니다.

LSTM은 RNN이 가진 문제 중 하나인 기울기 소실(Vanishing Gradient) 문제를 해결하기 위해 고안되었습니다. 

 

RNN에 대해서는 지난 시간에 배웠었쬬!!^^V

 

ChatGPT(챗GPT) 설치? 넌 누구니? 탐구 (1)

지난 시간에 ChatGPT의 가입방법에 대해 알아보고 광활한 사막 한가운데 놓여있는 나를 보았는데요..또한 설치 할 필요가 없는 방식이라는걸 알아봤습니다. ChatGPT (챗 GPT) 설치? 넌 누구니? 첫 만남

hunihoho.tistory.com

 

RNN은 시퀀스 데이터를 처리할 때 이전 시점의 정보를 다음 시점으로 전달하는 반면, 이전 시점으로부터 일정 시간이 지나면 정보가 소실되는 문제가 있습니다. 이를 해결하기 위해 LSTM은 시퀀스 데이터의 장기 의존성(Long-Term Dependency)을 처리할 수 있도록 설계되었습니다.

LSTM은 기존 RNN과 달리, 현재 시점의 입력, 이전 시점의 은닉 상태(hidden state), 이전 시점에서 현재 시점으로 전달되는 기억 상태(memory state)를 모두 고려하여 다음 시점의 출력을 계산합니다. 이전 시점에서 현재 시점으로 전달되는 기억 상태는 시퀀스 데이터에서 중요한 정보가 계속 유지되도록 하는 역할을 합니다.

예를 들어, LSTM을 사용하여 문장 생성을 수행하는 경우, LSTM은 이전 단어의 정보와 현재 입력 단어의 정보를 기반으로 다음 단어를 예측합니다. LSTM은 기억 상태를 통해 이전 단어의 정보를 유지하고, 현재 입력 단어의 정보와 함께 이전 단어의 정보를 결합하여 다음 단어를 생성합니다.

LSTM은 자연어 처리 분야에서 많이 사용되며, 기계 번역, 감성 분석, 음성 인식 등에서 사용됩니다. LSTM은 또한 음악 생성, 게임 AI 등 다양한 분야에서도 사용됩니다.


헥헥 오늘 탐구 시간은 좀 어려웠네요 그래도 이미지 입력이라는게 단순 텍스트 영역의 GPT를 2차원의 영상을 인식하고 대답할 수 있게 발전하고 있습니다.

 

특히 로봇에 GPT가 탑재 된다면 2차원에만 머물지 않고 3차원 세계에서 로봇이 활동 할 수 있는 환경이 조성되겠네요!!

 

후니호호 였습니다.

 

 

반응형

댓글