AI 최신 동향 분석: GPT-45, Gemini 2.5, 그리고 새로운 오픈소스 모델들
목차
1. GPT-45 이미지 생성 기능 업그레이드
1.1 멀티모델 이미지 생성
오픈AI에서 GPT-45의 이미지 생성 기능을 대폭 업그레이드하여, 기존 달리(DALL-E) 모델의 단순 이미지 생성 기능을 넘어 멀티모델 이미지 생성이 가능해졌습니다. 이를 통해 더욱 복잡하고 다양한 이미지 생성이 가능해졌습니다.
1.2 다양한 응용 사례
상세한 프롬프트를 반영하여 이미지를 생성할 수 있으며, 예를 들어 "베이브릿지가 내다 보이는 방에서 유리 화이트보드를 휴대전화로 찍은 넓은 이미지"와 같은 디테일한 설명으로도 정교한 이미지를 생성할 수 있습니다. 글씨 표현, 유리 화이트보드의 질감, 휴대전화에 비치는 사람까지 세밀하게 표현됩니다.
멀티턴 기능을 통해 이미지에 추가 변형이 가능하며, "사진 작가가 하이파이브를 하려고 돌아서는 순간에 셀카 사진"과 같은 프롬프트를 통해 기존 이미지에 이어서 새로운 이미지를 생성할 수 있습니다. 냉장고 자석, 네 컷 만화, 뉴턴의 프리즘 실험 인포그래픽, 레스토랑 메뉴 등 다양한 분야에서 활용 가능하며, 캐릭터 일관성 유지에도 뛰어납니다.
고양이 사진을 기반으로 탐정 모자와 단안경을 추가하거나, 비디오 게임 UI를 추가하는 등 다양한 변형이 가능하며, 흰색 배경의 16개 개체를 각각 다르게 표현하는 것도 가능합니다. 이미지 코드를 기반으로 이미지를 생성하거나, 칵테일 레시피 다이어그램을 만드는 등 세계 지식에 대한 이해를 바탕으로 다양한 멀티모델 생성이 가능합니다.
1.3 안전 및 검열 정책
샘 알트만은 "검열을 최대한 줄이고 자유를 많이 열어주겠다"고 밝혔으나, 유명인이나 인종적 이미지 생성에 대한 안전 문제가 제기될 수 있습니다. 섹시한 남성 이미지는 생성 가능하지만, 섹시한 여성 이미지는 생성되지 않는 버그가 있었으나, 이는 수정될 예정입니다.
1.4 지브리 스타일의 유행
스튜디오 지브리 스타일로 이미지를 변환하는 것이 유행하고 있으며, 많은 사용자들이 유명한 밈(meme) 사진을 지브리 스타일로 변환하고 있습니다. 또한, 위키피디아 스크린샷이나 해부도, 복셀 아트 스타일로 이미지를 변환하는 것도 가능합니다. 특정 객체만 추출하거나, 샘 알트만 얼굴과 그림을 결합하는 등 다양한 스타일 변환이 가능합니다.
네 컷 웹툰을 한 번에 생성하거나, 심슨 스타일로 변환하는 것도 가능하며, 비디오 생성 AI와 결합하여 애니메이션을 제작하는 사례도 있습니다. 지브리 스타일의 반지의 제왕 리메이크 영상이 제작되기도 했습니다.
2. 새로운 AI 모델 및 기술 동향
2.1 Midjourney V7 및 iGram 3.0
Midjourney V7이 출시 예정이며, iGram 3.0도 이미지 및 텍스트 생성 기능이 강화되었습니다. 하지만 iGram은 한글이 깨지는 문제가 있습니다.
2.2 새로운 이미지 생성 도구 Reve
Reve는 아티피셜 아날리시스에서 1위를 차지한 이미지 생성 도구이지만, GPT-45의 등장으로 인해 주목받지 못했습니다. Reve 역시 한글이 깨지는 문제가 있습니다.
2.3 OpenAI의 MCP 채택
OpenAI는 AI 에이전트 통신 표준으로 엔트로픽의 MCP(Message Communication Protocol)를 채택했습니다. MCP는 AI와 다른 서비스를 연결하는 표준 프로토콜로, 제피어(Zapier)와 같은 업무 자동화 도구와 연동하여 사용할 수 있습니다. 슬랙(Slack) 메시지를 AI 코딩 도구에서 직접 보낼 수 있게 되었습니다.
2.4 Anthropic의 500K 컨텍스트 윈도우
Anthropic은 500K 컨텍스트 윈도우를 지원하는 새로운 버전을 출시 준비 중입니다. 이를 통해 더 많은 양의 코드를 처리할 수 있게 되었습니다.
3. Google Gemini 2.5
3.1 벤치마크 결과
Google에서 Gemini 2.5를 출시했으며, 휴니티라스트 ex(Humanity Last Test EX) 벤치마크에서 최고 점수를 기록했습니다. 수학 AIM에서도 최고 점수를 기록했으며, 멀티모델 점수도 높습니다. 100만 컨텍스트 윈도우를 지원하며, 곧 200만까지 지원할 예정입니다.
3.2 코딩 성능
Gemini 2.5는 코딩 성능이 매우 뛰어나며, 에이전트 코딩 스코어에서 소타(SOTA) 점수를 기록했습니다. 단일 프롬프트로 마인크래프트 클론, TV 뉴스, 플라이트 시뮬레이터 등을 만들 수 있습니다. 또한, IQ 테스트에서도 높은 점수를 기록했습니다.
3.3 무료 사용 가능
Gemini 2.5는 현재 구글 AI 스튜디오에서 무료로 사용할 수 있습니다.
4. 오픈소스 AI 모델
4.1 DeepSeek V3
DeepSeek V3는 오픈 소스로 공개되었으며, 벤치마크 점수가 매우 높습니다. 비추론 모델 중에서는 1위를 차지하고 있으며, 512GB M3 울트라에서 4비트 퀀타이제이션 모델을 돌릴 수 있습니다.
4.2 Kon 2.5 Omni
Kon 2.5 Omni는 보고, 듣고, 말하고, 쓰고, 다 할 수 있는 모델로, 오픈 소스로 공개되었습니다. 7 빌리언 파라미터로 크기가 작지만, 성능이 상당히 괜찮습니다. 스피치 제너레이션은 인간과 비슷한 수준입니다.
4.3 ACC 비디오
ACC 비디오는 오픈 소스 비디오 생성 모델로, 후얀 비디오보다 8.5배 빠르게 영상을 만들 수 있습니다. 퀄리티도 괜찮으며, 다른 영상 생성 모델에 붙여서 사용할 수 있습니다.
4.4 Chat Anyone
Chat Anyone은 실시간으로 사람과 대화할 수 있는 모델로, 4090 GPU만 있으면 30프레임으로 실시간 생성이 가능합니다. AI 인플루언서 제작에 활용할 수 있을 것으로 보입니다.
5. 바이트 댄스의 Infinity ইউ
바이트 댄스에서 사진 기반의 Infinity ইউ라는 이미지 생성 도구를 출시했습니다. 내 사진을 기반으로 다른 이미지를 만들어주는 기술로, 로라(LoRA)나 IP 어댑터 없이도 간단하게 사용할 수 있습니다. 특정 인물의 얼굴을 반영하면서 올드맨이나 틴보이로 변환할 수 있습니다.
6. ElevenLabs의 액터 모드
ElevenLabs에 액터 모드(Actor Mode)가 생겼습니다. 기존에는 톤 조절이 어려웠지만, 액터 모드를 통해 연기 톤, 억양, 타이밍 등을 AI에 입힐 수 있습니다. 자신의 목소리를 사용하지 않고도 연기 스타일만 반영할 수 있습니다.
7. MS CEO의 한국 방문
MS CEO 사티아 나델라가 한국을 방문하여 업스테이지, 리튼 등 한국 스타트업들을 만났습니다. 갤럭시 코퍼레이션 사장과 망자 스튜디오를 계획하고 있으며, 라이너(Liner) 서비스를 제공하는 김진우 대표도 만났습니다.
8. Figure AI의 로봇 기술
Figure AI에서 새로운 로봇 영상을 공개했습니다. 자연스러운 걷기 동작이 가능하며, 이전 버전보다 걸음걸이가 개선되었습니다. 시뮬레이션 훈련을 통해 더욱 안정적인 보행이 가능해졌습니다.
9. Waymo 자율주행차 사고율
자율주행차 웨이모(Waymo)의 사고율이 인간 운전자보다 낮다고 합니다. 5천만 마일 기준 인간 운전자보다 충돌 사고가 훨씬 적으며, AI 기술 발전으로 인해 더욱 안전해질 것으로 예상됩니다.
10. AGI 벤치마크
에포크 AI(Epoch AI)에서 발표한 자료에 따르면, AI는 다양한 벤치마크에서 휴먼 레벨 퍼포먼스를 뛰어넘고 있습니다. 새로운 AGI 벤치마크인 AGI2가 등장했으며, GPT 4.5, 클로드 3.5 소넷, 제미나이 2.0 플래시 등이 1%의 점수를 얻었습니다. 인간은 60%를 맞췄으며, 60% 이상을 넘으면 AGI에 가깝다고 할 수 있을 것입니다.