구글 Gemini 3 Pro가 또 한 번 AI 시장을 뒤흔들었다
솔직히 요즘 AI 뉴스가 하도 많아서 뭐가 뭔지 헷갈리는데요. 그래도 이번 구글 Gemini 3 Pro 발표는 정말 무시할 수 없더라구요. 2025년 11월 18일에 공개된 이 모델, 출시하자마자 OpenAI의 GPT-5.1을 거의 모든 테스트에서 이겨버렸어요.
MIT Technology Review나 CNBC 같은 곳에서도 난리가 났는데, “OpenAI와의 전쟁이 본격화됐다”는 식으로 보도하더라구요. 저도 궁금해서 관련 자료들을 좀 찾아봤는데, 생각보다 진짜 대단한 것 같아서 정리해봤습니다.
Gemini 3 Pro, 뭐가 그렇게 대단한데?
멀티모달이 진짜 제대로 된다
요즘 AI들 보면 다들 “멀티모달”이라고 하잖아요? 텍스트도 되고 이미지도 되고 뭐 그런거. 근데 Gemini 3는 이게 진짜 제대로 되는 것 같아요. 특히 영상 이해 능력이 장난 아닌데, Video-MMMU라는 테스트에서 87.6%를 찍었대요. GPT-5.1이 80.4%니까 꽤 차이 나죠.
구글 공식 블로그에서는 “깊이와 뉘앙스를 파악하는 능력이 세계 최고”라고 자화자찬(?)하던데, 벤치마크 점수 보면 뻥은 아닌 것 같습니다.
생성형 UI – 알아서 만들어준다고?
이게 진짜 신기한데요. 생성형 UI라는게 있어요. 그냥 질문하면 AI가 “아, 이건 텍스트보다 표로 보여주는게 낫겠다” 이런식으로 알아서 판단해서 레이아웃을 만들어준대요.
9to5Google 기사 보니까 잡지 스타일로 사진도 넣고 슬라이더나 체크박스 같은것도 자동으로 만들어준다고 하더라구요. ChatGPT 쓸 때 “표로 정리해줘” 이런거 안해도 되는거죠. 이거 은근 편할 것 같아요.
Gemini Agent – 비서 하나 생긴 기분?
사실 이게 제일 기대되는 기능인데요. Gemini Agent라고 복잡한 일을 알아서 처리해주는 기능이에요. 예를 들면:
- Gmail 정리 – 중요한 메일 자동으로 분류
- 여행 계획 – 항공권이랑 호텔 알아서 찾아서 예약까지
- 캘린더 관리 – 일정 자동으로 조율
- 리마인더 설정 – 딱 필요할때 알림
아직 미국 유료 구독자만 쓸 수 있다는게 좀 아쉽긴 한데, 곧 한국에도 오겠죠?
Deep Think 모드 – 진짜 생각하는 AI
TechCrunch 기사에서 봤는데 “Deep Think”라는 모드가 따로 있어요. 이게 뭐냐면 좀 더 깊게 생각해서 답을 주는건데, 특히 어려운 수학이나 과학 문제 풀때 진가를 발휘한대요.
실제로 벤치마크 점수 보면:
- 일반 모드: 37.5%
- Deep Think: 41.0%
이렇게 차이가 나요. 급하지 않을땐 이 모드 쓰는게 좋을 것 같네요.
벤치마크 점수가 말해주는 것들
AI 추론 능력 비교
독립적인 벤치마킹 기관인 Artificial Analysis에서 Gemini 3 Pro한테 73점 줬어요. 이게 현재 최고 점수래요. 근데 숫자만 보면 감이 안오니까 실제 테스트 결과를 볼게요.
ARC-AGI-2 테스트 (추상적 추론 능력)
- Gemini 3 Pro: 31.1%
- GPT-5.1: 17.6%
- Gemini 2.5 Pro: 4.9%
GPT-5.1보다 거의 두배 가까이 높네요. 이전 버전인 2.5랑 비교하면 완전 다른 수준이고요.
수학 실력은?
Tom’s Guide에서 테스트한거 보면, AIME 2025라는 고등학생 수학 경시대회 문제를 100% 맞췄대요. 물론 코드 실행 도움받아서 그렇긴 한데, 그래도 대단하죠.
근데 진짜 충격적인건 MathArena Apex라는 초고난이도 수학 테스트:
- Gemini 3 Pro: 23.4%
- GPT-5.1: 1.0%
- Claude: 1.6%
다른 AI들이 1%대인데 혼자 23%… 거의 20배 이상 차이네요. 수학 문제 풀어야 할 일 있으면 이 모델 써야겠어요.
코딩도 잘해?
개발자분들한테 중요한 부분이죠. LiveCodeBench라는 실제 코딩 능력 테스트에서 Elo Rating 2,439점 나왔어요. GPT-5.1이 2,243점이니까 이것도 앞서네요.
실제 프로젝트 버그 수정하는 SWE-Bench에서도 76.2% 성공률 보였고요. Claude가 77.2%로 살짝 높긴 한데 거의 비슷한 수준이에요.
에이전트 능력 – 실전에서는?
Vending-Bench 2라는 복잡한 의사결정 테스트가 있는데요. 여기서 Gemini 3 Pro가 평균 $5,478 벌었대요. GPT-5.1은 $2,000 정도? 거의 3배 차이네요.
이게 뭘 의미하냐면, 복잡한 작업 계획 세우고 실행하는 능력이 훨씬 낫다는거죠.
구글이 개발자들한테 준 선물
Google Antigravity라는 새로운 코딩 도구도 같이 나왔어요. Android Authority 기사 보니까 이게 꽤 괜찮아 보이더라구요.
ChatGPT처럼 대화하면서 코딩할 수 있는건데, 터미널이랑 브라우저랑 다 통합되어있어요. 그러니까 “이런 기능 만들어줘” 하면 AI가 알아서 코드 짜주고 테스트까지 해주는거죠.
코딩 잘 모르는 사람도 간단한 프로그램은 만들 수 있을 것 같아요.
실제로 어디에 쓸 수 있을까?
블로거나 유튜버라면
저같은 블로거들한테 딱이에요. 글만 쓰면 레이아웃이랑 이미지 배치 같은거 알아서 해주니까요. 유튜브 썸네일 아이디어 받을때도 좋을 것 같고요.
데이터 다루는 사람들
엑셀 데이터 던져주면 알아서 분석하고 차트로 만들어줘요. 보고서 만들때 진짜 편할듯.
개발자
버그 찾아서 고쳐주고, 코드 정리도 해주고. 특히 LiveCodeBench 점수 보면 실제 코딩 작업에도 충분히 쓸만한 것 같아요.
직장인
메일 정리, 일정 관리, 회의록 작성… 이런 잡무들 자동화할 수 있어요. Agent 기능이 한국에도 빨리 왔으면 좋겠네요.
GPT-5.1이랑 비교하면?
The Algorithmic Bridge라는 AI 전문 블로그에서 “Gemini 3가 역대 최고 모델”이라고 했대요. 구글이 20개 테스트 중에 19개에서 1등 했거든요.
GPT-5.1 vs Gemini 3
- 멀티모달: Gemini 승 (81% vs 76%)
- 추론: Gemini 압승 (76% 차이)
- 수학: Gemini 대승 (특히 어려운 문제)
- 에이전트: Gemini 압승 (3배 차이)
- 코딩: Gemini 근소 우세
Claude랑은?
- 코딩: Claude가 살짝 앞섬 (77.2% vs 76.2%)
- 영상 이해: Gemini가 훨씬 나음
- 수학: Gemini 압도적
종합하면 Gemini 3가 전반적으로 가장 우수한 것 같네요.
어떻게 써볼 수 있어?
생각보다 접근하기 쉬워요:
- Gemini 앱 – 웹이나 모바일에서 바로 사용 가능
- Google AI Studio – 개발자들이 API 쓸 수 있는 곳
- Vertex AI – 회사에서 쓰는 기업용
기본 기능은 무료로도 쓸 수 있고, 고급 기능 쓰려면 유료 구독하면 돼요. Agent 기능은 아직 미국만 되는게 좀 아쉽긴 하네요.
앞으로는 어떻게 될까?
DEV Community에서 2025년 AI 모델들 비교했는데 Gemini 3가 종합 1등 했대요. 이제 진짜 AI 시대가 왔다는 느낌?
개인적으로 기대되는건:
- 멀티모달 AI가 더 발전할 것 같아요. 이제 텍스트만으로는 부족한 시대
- Agent 기능이 진짜 비서처럼 될 수 있을지
- 생성형 UI가 웹/앱 디자인을 어떻게 바꿀지
마무리하며
솔직히 AI 발전 속도가 너무 빨라서 따라가기 힘든데요. 그래도 Gemini 3는 확실히 주목할만한 것 같아요. 거의 모든 테스트에서 1등 했다는게 우연은 아닐테니까요.
Simon Willison이라는 개발자 블로거가 실제로 써보고 “인상적이었다”고 했던데, 벤치마크 점수만 좋은게 아니라 실사용에서도 괜찮은가봐요.
저도 시간 나면 한번 제대로 써봐야겠어요. 특히 블로그 글 쓸때 생성형 UI 기능이 어떤지 궁금하네요. 여러분도 관심있으시면 한번 써보세요!
📌 공식 자료 & 더 알아보기
구글 공식 발표:
신뢰할 수 있는 언론 보도:
- MIT Technology Review – Gemini 3 분석
- TechCrunch – Gemini 3 출시 소식
- CNBC – Google vs OpenAI 경쟁 분석
- 9to5Google – Gemini 3 상세 리뷰
벤치마크 & 기술 분석:
관련 글:
※ 이 글은 2025년 11월 공식 발표자료와 주요 IT 매체의 보도를 참고하여 작성되었습니다.