본문 바로가기
IT 지식 쌓기

무서운 속도로 진화중인 Chat GPT: 인간처럼 보고 듣고 말하는 AI, GPT-4o

by 삶은 재미나 2024. 5. 16.

지난 몇 년간 다양한 AI 기술의 발전으로 인간과 컴퓨터 간의 상호작용이 더욱 자연스러워지고 있으며, AI 시장에서 가장 두각을 나타내고 있는 것 중의 하나가 바로 Open AI의 Chat GPT입니다. 

 

현지시각 5월 13일 발표된 GPT-4o는 이전 모델과는 다른 차원의 혁신을 선보였는데 이를 보고 여러모로 감탄+소름 끼치는 부분이 있었는데요, GPT-4o는 대체 뭐가 달라졌는지 알아보고자 합니다. 

 

멀티모달

먼저 GPT-4o의 이름에 대해서 살펴보면, GPT-4o의 o는 "모든 곳, 모든 것"를 의미하는 단어 "omni"의 앞글자를 따 만들어졌는데요, GPT-4o가 글(Text) 뿐만 아니라, 음성(Audio) 그리고 시각적(Vision)데이터에 이르기까지 다양한 모달리티(Modality: 생성형 인공지능이 다룰 수 있는 데이터 형식)를 통해 인간과 상호작용 할 수 있게 되었지 때문에 이러한 이름을 붙인 것 같습니다. 

 

Meaning of omni- in English by cambridge dictionary

출처: https://dictionary.cambridge.org/dictionary/english/omni

 

더 빨라진 응답속도

멀티모달 기능을 통해 GPT-4o는 보다 자연스럽게 인간과 상호작용 하기 위한 한 걸음을 내딛은 GPT-4o는 GPT-4 Turbo과 동일한 영어 및 코드 텍스트의 성능을 지니고 있으며, 비영어권 텍스트의 경우에는 GPT-4 Turbo 보다 훨씬 빠르고 API는 50% 저렴하다고 합니다.

 

특히 음성(Audio) 및 시각적(Vision) 이해 측면에서 우수한 성능을 보인다고 하는데, 음성 반응속도가 최소 232밀리초에서 평균 320 밀리초의 속도로 인간의 응답 시간과 유사한 속도라고 밝혔습니다. 

 

이러한 멀티모달 기능과 반응속도 덕분에 데모 영상을 보면, 기계와 대화중이라는 것을 잊을 정도로 음성, 영상, 텍스트 정보로 챗GPT와 막힘없이 대화하는 장면이 인상적이었는데 Real-time translation(https://vimeo.com/945587808 영상에서는 영어 사용자와 스페인어 사용자의 대화를 실시간으로 동시통역해주는 부분이 정말 인상적이었습니다. (이제 외국어 공부 하지 말까 싶기도 했던..😅)

 

스페인어 사용자와 영어 사용자의 동시통역을 하는 챗 GPT (Real-time translation, https://vimeo.com/945587808)

 

하나의 신경망에서 모든 데이터를 처리

또한 이전에는 음성모드(Voice Mode)를 사용할 때 두 번의 모델을 거쳐야 했지만, GPT-4o에서는 텍스트, 시각(이미지 및 영상), 음성을 모두 하나의 모델에서 처리하게 되었습니다. 

 

이전에는 음성모드를 사용하여 챗GPT와 대화할 때 평균 2.8초(GPT-3.5) 및 5.4초(GPT-4)의 대기 시간이 필요했으며, 3개의 개별적인 모델의 파이프 라인(음성을 텍스트로 변환하기, 이 텍스트를  GPT-3.5 또는 GPT-4로 받아 텍스트로 출력하기, 출력된 텍스트를 음성으로 변환하기)으로 처리되었기 때문에 원래의 음성데이터로부터 말투, 여러명의 말소리, 주변 소음 등을 직접 캐치할 수 없었고, 그 때문에 챗GPT는 웃거나 감탄하거나 노래를 부르는 등의 감정표현을 할 수 없었습니다. 

 

그러나 GPT-4o는 텍스트, 음성, 시각 데이터가 같은 신경망에서 처리합니다. 이것을 잘 보여주는 예가 Happy Birthday(https://vimeo.com/945587911) 영상에서 잘 표현되었는데요, Bowen이 카메라를 통해 Chat GPT에게 지금 우리가 뭘 하고 있는지 맞춰보라고 하자, Chat GPT는 초를 꽂은 케이크를 보고 누군가의 생일인 것 같다며 특별한 날을 축하하고 있는건지 아니면 케이크를 먹을 핑계거리를 찾고 있는거냐며 농담을 던지는데요, Bowen이 오늘은 친구 Jordan의 생일이라고 말하면서 Jordan이 Chat GPT에게 생일 축하 노래를 불러 줄 수 있냐고 하자 장난끼 가득한 목소리로 생일축하 노래를 불러주는 장면이 웃기기도 하면서 한편으로 소름돋는건 왜죠? 챗GPT가 저보다 커뮤니케이션 스킬도 좋고 사회생활도 잘하는 것 같아서? 😂

 

카메라로 보이는 상황을 보고 생일 축하 노래를 불러주는 챗GPT (Happy Birthday, https://vimeo.com/945587911)

 

 

이 날 공개된 GPT-4o는 단순히 여러가지 데이터를 이용하여 인공지능과 대화하는 것을 넘어 다양한 가능성들을 보여줬는데요, GPT-4o with Andy, from BeMyEyes in London(https://vimeo.com/945587840)에서 보여준 것과 같이 주변을 설명하고 택시를 잡아주면서 시각장애인의 생활을 도와주기도 하고, Math with Sal and Imran Khan(https://vimeo.com/945587328)에서 처럼 수학문제의 답이 아닌 풀이 과정을 도와주는 과외선생님과 같은 모습을 보이기도 합니다. 

뿐만아니라 스토리를 들려주면 삽화를 만들어내거나, 3D 오브젝트를 생성하고 디자인을 해내는 등 놀라운 발전속도와 결과를 보여주고 있습니다. 

Visual narrative - Sally the mailwoman
3D object synthesis
Chat GPT로 생성한 3D 오브젝트의 예

 

 

이렇듯 인공지능 기술의 발전으로 우리의 삶은 급진적인 변화를 경험하고 있습니다. 특히 GPT-4o와 같은 혁신적인 기술은 우리의 일상을 향상시킬 수 있는 많은 가능성을 제시합니다. 그러나 이러한 기술이 우리의 삶에 긍정적인 영향을 미치기 위해서는 우리가 윤리적인 고려와 안전성을 최우선으로 고려해야 합니다.

이에 Open AI는 GPT-4o에서 새롭게 추가된 기능으로 인해 증폭될 수 있는 위험을 식별하기 위해 사회 심리학, 편견 및 공정성, 잘못된 정보 등의 영역에서 70명 이상의 외부 전문가를 통한 광범위한 평가를 진행하였으며, GPT-4o와의 상호 작용에서 안전성을 향상시키기 위해 지속적으로 새로운 위험에 대응해 나갈 것이라고 강조했습니다.

마지막으로, 우리는 항상 열린 자세로 새로운 기술을 학습하고 적응하여, 이를 최대한 효과적으로 활용하여 더 나은 사회를 구축할 수 있을 것입니다. 이는 기술의 발전에 대한 우리의 책임이며, 함께 노력하여 사회적으로 긍정적인 변화를 이끌어내야 합니다.

 

출처: https://openai.com/index/hello-gpt-4o/