오픈AI 신모델 o3-mini

초존도초 · 2025.02.01 23:30:02

2025년 1월 31일

OpenAI o3-mini

비용 효율적인 추론의 한계를 넓히다.

OpenAI는 오늘 ChatGPT와 API에서 모두 사용 가능한 추론 시리즈의 최신 모델이자 가장 비용 효율적인 모델인 OpenAI o3-mini를 출시합니다. 2024년 12월에 미리 공개되었던 이 강력하고 빠른 모델은 소형 모델이 달성할 수 있는 범위를 확장하여, OpenAI o1-mini의 저렴한 비용과 낮은 지연 시간을 유지하면서도 탁월한 STEM(과학, 기술, 공학, 수학) 역량을 제공합니다. 특히 과학, 수학, 코딩 분야에서 뛰어난 강점을 보입니다.

OpenAI o3-mini는 함수 호출, 구조화된 출력, 개발자 메시지와 같이 개발자들이 가장 많이 요청했던 기능들을 최초로 지원하는 소형 추론 모델로, 출시와 동시에 바로 프로덕션 환경에 투입할 수 있습니다. OpenAI o1-mini 및 OpenAI o1-preview와 마찬가지로 o3-mini는 스트리밍을 지원합니다. 또한 개발자는 사용 사례에 맞춰 최적화할 수 있도록 낮음, 중간, 높음의 세 가지 추론 노력 옵션 중에서 선택할 수 있습니다. 이러한 유연성을 통해 o3-mini는 복잡한 문제에 도전할 때는 "더욱 심층적인 사고"를 할 수 있고, 지연 시간이 중요한 경우에는 속도를 우선시할 수 있습니다. o3-mini는 시각 기능을 지원하지 않으므로, 시각적 추론 작업에는 OpenAI o1을 계속 사용해야 합니다. o3-mini는 오늘부터 Chat Completions API, Assistants API, Batch API를 통해 API 사용량 티어 3-5에 해당하는 일부 개발자들에게 순차적으로 제공됩니다.

ChatGPT Plus, Team, Pro 사용자들은 오늘부터 OpenAI o3-mini를 이용할 수 있으며, Enterprise 액세스는 1주일 후에 제공될 예정입니다. o3-mini는 모델 선택기에서 OpenAI o1-mini를 대체하여 더 높은 속도 제한과 더 낮은 지연 시간을 제공하므로, 코딩, STEM, 논리적 문제 해결 작업에 매력적인 선택이 될 것입니다. 이번 업그레이드의 일환으로 Plus 및 Team 사용자의 속도 제한을 o1-mini 사용 시 하루 50 메시지에서 o3-mini 사용 시 하루 150 메시지로 세 배 늘립니다. 또한 o3-mini는 이제 검색 기능을 통해 관련 웹 소스 링크와 함께 최신 답변을 찾을 수 있습니다. 이는 모든 추론 모델에 검색 기능을 통합하기 위한 초기 프로토타입입니다.

오늘부터 무료 플랜 사용자도 메시지 작성기에서 '추론'을 선택하거나 응답을 다시 생성하여 OpenAI o3-mini를 사용해 볼 수 있습니다. 이는 ChatGPT 무료 사용자에게 추론 모델이 제공되는 최초의 사례입니다.

OpenAI o1이 여전히 더 폭넓은 일반 지식 추론 모델로 남아 있는 반면, OpenAI o3-mini는 정밀성과 속도를 요구하는 기술 분야를 위한 특화된 대안을 제공합니다. ChatGPT에서 o3-mini는 중간 수준의 추론 노력을 사용하여 속도와 정확성 사이의 균형 잡힌 절충점을 제공합니다. 모든 유료 사용자는 모델 선택기에서 o3-mini-high를 선택하여 응답 생성에 시간이 조금 더 걸리지만 더 높은 지능을 가진 버전을 사용할 수도 있습니다. Pro 사용자는 o3-mini와 o3-mini-high 모두 무제한으로 액세스할 수 있습니다.

빠르고 강력하며 STEM 추론에 최적화

OpenAI o3-mini는 이전 모델인 OpenAI o1과 유사하게 STEM 추론에 최적화되었습니다. 중간 수준의 추론 노력을 사용하는 o3-mini는 수학, 코딩, 과학 분야에서 o1과 동등한 성능을 제공하면서도 더 빠른 응답 속도를 자랑합니다. 전문가 테스터들의 평가에 따르면 o3-mini는 OpenAI o1-mini보다 더 정확하고 명확한 답변을 생성하며, 더 강력한 추론 능력을 보여줍니다. 테스터들은 o1-mini보다 o3-mini의 응답을 56% 더 선호했으며, 어려운 실제 문제에서 심각한 오류가 39% 감소하는 것을 확인했습니다. 중간 수준의 추론 노력을 통해 o3-mini는 AIME 및 GPQA를 포함한 가장 까다로운 추론 및 지능 평가에서 o1과 동등한 성능을 보입니다.

경시대회 수학 (AIME 2024)

1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a254d454e467937d484b9fcef5d6e9ca84684ccbf37bf0b0b77

수학: 낮은 추론 노력을 사용하는 OpenAI o3-mini는 OpenAI o1-mini와 비슷한 성능을 보이며, 중간 수준의 노력을 사용하면 o3-mini는 o1과 비슷한 성능을 보입니다. 한편, 높은 추론 노력을 사용하면 o3-mini는 OpenAI o1-mini와 OpenAI o1 모두를 능가합니다.

박사 수준 과학 문제 (GPQA Diamond)

1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a254d444fe273a30b309a44d90f837b2b7c22b5ce6e7eefda9e

FrontierMath

1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a254d47449ec679433528dd4955017f1297fb3b3f877a6c4a

연구 수준 수학: 높은 추론 노력을 사용하는 OpenAI o3-mini는 FrontierMath에서 이전 모델보다 더 나은 성능을 보입니다. FrontierMath에서 Python 도구를 사용하도록 요청받았을 때, 높은 추론 노력을 사용하는 o3-mini는 어려운 (T3) 문제의 28% 이상을 포함하여 문제의 32% 이상을 첫 번째 시도에 해결합니다.

경시대회 코딩 (Codeforces)

1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a244d44452f03d8676e549ded73e52c83e9a6023d0aee79cfd4

경시대회 코딩: OpenAI o3-mini는 추론 노력이 증가함에 따라 점진적으로 더 높은 Elo 점수를 달성하며, 모두 o1-mini를 능가합니다. 중간 수준의 추론 노력을 사용하면 o1과 동등한 성능을 보입니다.

소프트웨어 엔지니어링 (SWE-bench Verified)

1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a244d47452cb71ddf65936209b37726315f40fc760e0015998c

소프트웨어 엔지니어링: o3-mini는 SWE-bench Verified에서 가장 뛰어난 성능을 보이는 모델입니다. 오픈 소스 Agentless 스캐폴드(39%) 및 내부 도구 스캐폴드(61%)를 포함하여 높은 추론 노력을 사용한 SWE-bench Verified 결과에 대한 추가 데이터 포인트는 시스템 카드에서 확인할 수 있습니다.

LiveBench 코딩

1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a274d454d6d64561936c3883d6943f64e407413d4b85ab68a

인간 선호도 평가

1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a274d464a406ee04c4208dbe05471fd7808a327bfe850c7c6

1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a274d414879ea34a4bda428aa9c78a6a46913775fb255115ae3

인간 선호도 평가: 외부 전문가 테스터들의 평가에서도 OpenAI o3-mini가 OpenAI o1-mini보다 특히 STEM 분야에서 더 정확하고 명확한 답변을 생성하며, 더 강력한 추론 능력을 보여주는 것으로 나타났습니다. 테스터들은 o1-mini보다 o3-mini의 응답을 56% 더 선호했으며, 어려운 실제 문제에서 심각한 오류가 39% 감소하는 것을 확인했습니다.

모델 속도 및 성능

OpenAI o1과 비슷한 지능을 가진 OpenAI o3-mini는 더 빠른 성능과 향상된 효율성을 제공합니다. 위에 강조된 STEM 평가 외에도 o3-mini는 중간 수준의 추론 노력을 통해 추가적인 수학 및 사실성 평가에서 뛰어난 결과를 보여줍니다. A/B 테스트에서 o3-mini는 o1-mini보다 24% 더 빠른 응답 속도를 보였으며, 평균 응답 시간은 10.16초에 비해 7.7초였습니다.

o1-mini와 o3-mini (중간) 간의 지연 시간 비교

7cf3c028e2f206a26d81f6ec44817565

7ff3c028e2f206a26d81f6e04086756f

안전성

OpenAI o3-mini가 안전하게 응답하도록 가르치는 데 사용된 주요 기술 중 하나는 심사숙고 정렬(deliberative alignment)입니다. 이는 모델이 사용자 프롬프트에 답변하기 전에 인간이 작성한 안전 사양에 대해 추론하도록 훈련시키는 것입니다. OpenAI o1과 마찬가지로 o3-mini는 까다로운 안전 및 탈옥 평가에서 GPT-4o를 훨씬 능가하는 것으로 나타났습니다. 배포 전에 o3-mini의 안전 위험을 o1과 동일한 준비성, 외부 레드팀 운영, 안전성 평가 접근 방식을 사용하여 신중하게 평가했습니다. 초기 액세스에서 o3-mini를 테스트하기 위해 지원해주신 안전 테스터들에게 감사드립니다. 잠재적 위험 및 완화 효과에 대한 포괄적인 설명과 함께 아래 평가에 대한 자세한 내용은 o3-mini 시스템 카드에서 확인할 수 있습니다.

금지된 콘텐츠 평가

1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a264d404afb11d2290ebf98783dc6b1f9551e22a6c48f9e1d

탈옥 평가

1ebec223e0dc2bae61ab96e746837170bd0503a3316c1f024a5c662a294d474f1a1977e2a201b33f9f99680e083705da94caa4a2

향후 계획

OpenAI o3-mini의 출시는 비용 효율적인 지능의 한계를 넓히려는 OpenAI의 미션에 또 다른 발걸음을 내딛는 것입니다. STEM 분야에 대한 추론을 최적화하면서 비용을 낮게 유지함으로써, 우리는 고품질 AI를 더욱 접근하기 쉽게 만들고 있습니다. 이 모델은 GPT-4 출시 이후 토큰당 가격을 95% 절감하면서도 최상위 수준의 추론 능력을 유지하는 등 지능 비용을 지속적으로 낮추는 우리의 행보를 이어갑니다. AI 도입이 확대됨에 따라, 우리는 지능, 효율성, 안전성 간의 균형을 맞춘 모델을 대규모로 구축하여 최전선에서 선도하기 위해 끊임없이 노력할 것입니다.

https://openai.com/index/openai-o3-mini/

Just a moment...

Just a moment...

openai.com

출처: 특이점이 온다 갤러리 [원본 보기]

번호	제목	글쓴이	작성일	조회	추천
설문	가수에서 배우로 전향 했지만 기대에 못 미치는 스타는?	운영자	25/02/24	-	-
공지	실시간베스트 갤러리 이용 안내 [2801/2]	운영자	21.11.18	10638870	515
309506	[오갤] <미키 17> 웰컴 팩 리뷰 [138]	458	01:56	10963	43
309503	[봇갤] 3달정도 늦은 에노시마 여행기! 1편 [19]	호무망	01:45	7168	28
309501	[싱갤] 락스락스 세상에서 가장 로맨틱한 발명품 [68]	하강ing	01:35	22066	106
309499	[잡갤] 유기된 동물들, 갈비사자 옆에있던 백호 등을 케어해주는 동물들의 요양원 [48]	감돌	01:25	9389	29
309497	[카연] 메이드봇이 되어버린 형제.manhwa(엄마의 사랑편) [24]	디스이즈스파게티	01:15	8719	51
309496	[오갤] 티비 출연까지 불사하는, 군용 보급품에 진심인 아재의 컬렉션 [91]	샤오바이	01:06	14539	77
309493	[디갤] 마포로 찍은...시골 겨울비와 첫 수확 [18]	설치는설치류	00:55	7363	15
309492	[주갤] 외국 페미들이 벌이고 있는 짓 [222]	ㅇㅇ(211.234)	00:46	22182	217
309489	[싱갤] 싱글벙글 스타벅스 카공족 [112]	전국민면허몰수	00:35	33999	82
309487	[카연] 헬테이커 팬 만화 31화 [34]	쫄깃한해파리	00:25	9145	79
309483	[기갤] 자바칩 프라푸치노, 메뉴 없는 '미국 스타벅스'?.jpg [71]	ㅇㅇ	00:05	13473	15
309481	[이갤] 오랜기간 배우자 기도를 열심히 한 송지은 [133]	배그린	02.28	15262	96
309479	[백갤] 홍콩반점vs보배반점 프랜차이즈 비교 [289]	백갤러(206.189)	02.28	22186	232
309477	[싱갤] 싱글벙글 알바비 떼먹으려는 사장 역관광하는 manwha [141]	ㅇㅇ(59.15)	02.28	17195	56
309475	[블갤] ... _ _ _ ... ! 세이아의 고무줄 권총을 만들어보자 [39]	DBshotgun	02.28	9894	70
309474	[멍갤] 매매로 집샀는데 못들어감.jpg [336]	ㅇㅇ(211.234)	02.28	23288	27
309471	[의갤] 스압) 의사협회가 필수과를 죽이고 있다. [373]	의갤러(203.251)	02.28	15834	277
309469	[U갤] 게스트가 추성훈 로우킥 보고싶다고해서 반강제 로우킥 맞는 이창호 [127]	ㅇㅇ(37.120)	02.28	14974	20
309467	[싱갤] 싱글벙글 포브스 선정 2025년 전세계 강대국 TOP 10 [333]	ㅇㅇ	02.28	17397	58
309465	[대갤] 日교사, 학교에 거짓말 치고 10일간 하와이 여행... 징계처분 [92]	난징대파티	02.28	15409	121
309461	[카연] 폐급이 이세계 간 manhwa 13화 [37]	BIGDAN	02.28	8459	40
309459	[기갤] 어느순간부터 싸우기만하면 가출하는 남편 [204]	ㅇㅇ(211.234)	02.28	18041	14
309457	[백갤] 백종원 제자 이장우 카레집 ㅋㅋㅋ [591]	백갤러(206.189)	02.28	33425	719
309455	[싱갤] 싱글벙글 북한에서 운전면허 따는법 [112]	갱얼쥐	02.28	26517	116
309453	[주갤] '2030 젊을수록 일본에 대한 호감도 높아'기사를 본 더쿠 노괴들 반응 [786]	갓럭키	02.28	26773	299
309451	[유갤] 현재 재밌어서 난리난 게임.jpg [259]	ㅇㅇ(84.17)	02.28	36212	40
309449	[일갤] 오사카 쇼쿠도 아카리(食堂燈) [29]	웅그림아이언피스트	02.28	6871	19
309447	[야갤] 돼지 밥 주세요. 하루에 600만명 몰린 이벤트.jpg [147]	ㅇㅇ(211.234)	02.28	23596	98
309445	[싱갤] 싱글벙글 간호사 어머니 썰 [184]	직무매미	02.28	22505	110
309441	[잡갤] 세기의 라이벌 레오나르도 다빈치 VS 미켈란젤로 부오나로티 [94]	감돌	02.28	12005	19
309439	[야갤] '웃어?'…16만원어치 회 주문하고 '노쇼'하면서 웃는 손님 [235]	ㅇㅇ(211.234)	02.28	22550	78
309437	[카연] 지금까지의 자기 확신은 다 가짜였다. [144]	손경석(182.172)	02.28	15227	17
309436	[특갤] gpt-4.5 종합적 요약 [121]	MoonS	02.28	24791	85
309433	[컴갤] 요즘 컴덕들 사이에 화재인 '듀얼오리' [353]	ㅇㅇ(211.234)	02.28	27843	143
309431	[기갤] 썰전) 유승민, 이철희가 말하는 '김문수와 극우'.jpg [242]	ㅇㅇ	02.28	12334	46
309429	[일갤] 군붕이의 도쿠시마 없는 시코쿠 일주-7일차 (마쓰야마성, 도고온천) [14]	samchi	02.28	8132	14
309427	[백갤] 백종원, 건축법 위반 등 혐의로 피고발 [296]	ㅇㅇ(106.172)	02.28	20229	281
309425	[싱갤] 싱글벙글 미국인이 정말 사랑한다고 하는 감자전.jpg [175]	수인갤러리	02.28	30627	144
309421	[잡갤] 추워도 얇고 예쁘게 입는 미미가 현역 아이돌임을 실감하는 유재석 [189]	감돌	02.28	25806	10
309419	[디갤] 시대 흐름에 맞게 설정 바꾼 백설공주 실사화 [347]	ㅇㅇ(175.119)	02.28	17277	20
309417	[군갤] 북괴가 전략순항미사일 발사 훈련 했다고 함 [93]	378476	02.28	13797	46
309415	[닌갤] 지금 포켓몬 그래픽 지랄난 이유.jpg [232]	ㅇㅇ(125.135)	02.28	41299	138
309413	[싱갤] 압구정동 • 잠실 한강변 인공 해변 ㄷㄷ [359]	ㅇㅇ	02.28	23481	50
309411	[중갤] 명태균 카톡내용 공개됨 ㄷㄷ [431]	ㅇㅇ	02.28	25082	205
309407	[이갤] 유퀴즈 출연해서 본인의 가정사를 밝힌 한가인.jpg [205]	ㅇㅇ(146.70)	02.28	21852	60
309406	[야갤] 북한산에서 핸드폰 떨굼 ㄷㄷ [194]	ㅇㅇ(211.234)	02.28	26012	82
309403	[미갤] 단군이 생각하는 "별들에게 물어봐"가 망한이유 [226]	ㅇㅇ(169.150)	02.28	18035	160
309401	[중갤] 싱글벙글 다음주 목요일에 출시예정인 고티 후보게임 [60]	언성을높이지마라	02.28	15788	13
309400	[싱갤] 꺼억꺼억 트위터 페미렉카 길티아카 근황 [227]	ㅇㅇ	02.28	30674	326
뉴스	‘빙상여제’ 이상화, 심각한 건강 상태 고백…강남, ‘2세 계획’ 미룬 속사정 눈물 고백	디시트렌드	02.28

갤러리 검색

최근 방문

즐겨찾기

즐겨찾기 갤러리

실시간 베스트 갤러리

머리말∙꼬리말

머리말∙꼬리말

색상 설정

갤러리 정보

스포일러 경고 설정

제목에서 경고

본문에서 경고

갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

차단하기

[실시간 베스트 갤러리]

갤러리 본문 영역

오픈AI 신모델 o3-mini

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

파워링크 광고

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

실시간 베스트

뉴스

디시미디어

디시이슈

개념글[스테이지 파이터]

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘

지갑 연결