갤러리 이슈박스, 최근방문 갤러리
개념글 리스트
1/3
- 프랑스 행사에 등장한 1940년 프랑스군 차량들 투하체프
- "달걀 깼더니 달걀이 또 있어"…괴산서 나온 괴이한 달걀 ㅇㅇ
- 싱글벙글 미국 실제 형량 Whi-Rin
- 휠 복원과 돌핀팬츠 푸른K3
- 韓정명훈, 아시아 최초 伊라 스칼라 감독 선임... 247년 역사상 처음 난징대파티
(사카나AI) 연속 사고 기계(CTM) 소개
연속 사고 기계(Continuous Thought Machines) 소개
2025년 5월 12일
Sakana AI에서는 인지의 핵심에 있는 중요한 특징, 바로 시간에 대해 재고하기로 했습니다. 연속 사고 기계는 뉴런 역동성 간의 동기화를 사용하여 작업을 해결하는 새로운 종류의 인공 신경망입니다.
요약
Sakana AI는 생물학적 신경망에서 영감을 받아 뉴런 활동의 동기화를 핵심 추론 메커니즘으로 독특하게 활용하는 AI 모델인 연속 사고 기계(CTM)를 자랑스럽게 발표합니다. 기존의 인공 신경망과 달리, CTM은 뉴런 수준에서 타이밍 정보를 사용하여 더 복잡한 신경 행동과 의사결정 프로세스를 가능하게 합니다. 이러한 혁신으로 모델이 문제를 단계별로 "사고"할 수 있으며, 추론 과정을 해석 가능하고 인간과 유사하게 만듭니다. 우리의 연구는 다양한 작업에서 문제 해결 능력과 효율성이 모두 향상됨을 보여줍니다. CTM은 인공 신경망과 생물학적 신경망 간의 간극을 메우는 의미 있는 진전을 나타내며, AI 능력의 새로운 지평을 열 수 있습니다.
자세한 내용은 대화형 보고서, 기술 논문 및 공개 코드를 참조하시기 바랍니다.
CTM이 미로를 해결하고 실제 사진에 대해 사고하는 시각화 (사진 제공: Alon Cassidy). 놀랍게도, 명시적으로 설계되지 않았음에도 불구하고, 미로에서 학습한 해결책은 매우 해석 가능하고 인간과 유사하여 해결책을 '사고'하면서 미로를 통과하는 경로를 추적하는 것을 볼 수 있습니다. 실제 이미지의 경우, 명시적인 인센티브가 없음에도 직관적인 방식으로 주변을 둘러봅니다.
소개
우리의 뇌는 가장 정교한 현대 AI조차도 어려워하는 영역에서 종종 훨씬 더 효율적으로 뛰어난 성능을 발휘합니다. Sakana AI에서는 AI의 발전을 위해 자연에서 영감을 찾곤 합니다. 예를 들어 진화를 사용한 모델 병합, 더 효율적인 언어 모델용 메모리 진화, 또는 인공 생명의 공간 탐색 등이 있습니다. 인공 신경망은 최근 몇 년간 AI가 놀라운 성과를 달성할 수 있게 했지만, 여전히 생물학적 대응물의 단순화된 표현에 머물러 있습니다. 생물학적 뇌에서 발견되는 특징들을 통합함으로써 AI의 새로운 수준의 능력과 효율성을 달성할 수 있을까요?
우리는 인지의 핵심에 있는 중요한 특징인 시간에 대해 재고하기로 했습니다. 2012년 딥러닝의 등장으로 AI 능력이 크게 도약했음에도 불구하고, AI 모델에 사용되는 인공 뉴런의 기본 모델은 1980년대 이후 크게 변하지 않았습니다. 연구자들은 여전히 뉴런이 얼마나 활성화되는지를 나타내는 단일 출력을 주로 사용하지만, 다른 뉴런과 비교하여 뉴런이 언제 활성화되는지의 정확한 타이밍은 무시합니다. 그러나 강력한 증거는 이러한 타이밍 정보가 생물학적 뇌에서 매우 중요하며, 예를 들어 스파이크 타이밍 의존 가소성에서 생물학적 뇌 기능의 기초가 됨을 시사합니다.
우리가 새로운 모델에서 이 정보를 표현하기 위해 사용한 방법은 단순히 뉴런이 자신의 행동 이력에 접근할 수 있게 하고, 단지 현재 상태만 아는 것이 아니라 이 정보를 사용하여 다음 출력을 계산하는 방법을 학습하는 것입니다. 이를 통해 과거의 다른 시점의 정보를 기반으로 행동을 변경할 수 있습니다. 또한, 새로운 모델의 주요 행동은 이러한 뉴런 간의 동기화에 기반하며, 이는 작업을 해결하기 위해 함께 조정하기 위해 이 타이밍 정보를 활용하는 방법을 학습해야 함을 의미합니다. 우리는 이것이 현대 모델에서 관찰되는 것보다 훨씬 더 풍부한 역동성의 공간과 다른 작업 해결 행동을 만들어낸다고 주장합니다.
이 타이밍 정보를 추가한 후, 우리는 여러 작업에서 광범위한 비자명한 행동을 관찰했습니다. 아래에 몇 가지 결과를 강조합니다. 우리는 매우 해석 가능한 행동을 봅니다: 이미지를 관찰할 때, CTM은 장면 주위를 주의 깊게 시선을 이동시키며, 존재하는 가장 두드러진 특징에 집중하기로 선택하고 일부 작업에서 성능이 향상됩니다. 우리는 특히 뉴런 활동의 역동성에서 보여지는 행동의 다양성에 놀랐습니다.
CTM에서 관찰된 뉴런 역동성 샘플로, 다른 입력에 따라 어떻게 변화하는지 보여줍니다. CTM은 명확하게 매우 다양한 뉴런 행동 세트를 학습합니다. 각 뉴런(임의의 색상)이 다른 뉴런과 함께 활성화되는 방식을 우리는 동기화라고 부릅니다. 우리는 이를 측정하고 CTM의 표현으로 사용합니다.
새로운 모델의 행동은 새로운 종류의 표현에 기반합니다: 시간에 따른 뉴런 간의 동기화입니다. 우리는 이것이 엄격한 에뮬레이션은 아니지만 생물학적 뇌를 훨씬 더 연상시킨다고 믿습니다. 우리는 결과적인 AI 모델을 연속 사고 기계(CTM)라고 부르며, 이는 이 새로운 시간 차원, 풍부한 뉴런 역동성 및 동기화 정보를 사용하여 작업에 대해 '사고'하고 답을 제공하기 전에 계획을 세울 수 있는 모델입니다. 우리는 이름에 '연속'이라는 용어를 사용하는데, 이는 CTM이 추론할 때 전적으로 내부 '사고 차원'에서 작동하기 때문입니다. 소비하는 데이터에 대해 비동기적입니다: 정적 데이터(예: 이미지) 또는 순차적 데이터에 대해 동일한 방식으로 추론할 수 있습니다. 우리는 이 새로운 모델을 광범위한 작업에서 테스트했으며 다양한 문제를 해결할 수 있고 종종 매우 해석 가능한 방식으로 해결할 수 있음을 발견했습니다.
우리가 관찰한 뉴런 역동성은 훨씬 덜 다양한 행동을 보이는 더 전통적인 인공 신경망과 달리 실제 뇌에서 측정된 역동성을 다소 더 연상시킵니다. 아래에서 클래식 AI 모델인 LSTM과의 비교를 참조하세요. CTM은 다른 주파수와 진폭으로 진동하는 뉴런을 보여줍니다. 때로는 단일 뉴런에서 다른 주파수를 볼 수 있고 다른 뉴런은 작업을 해결할 때만 활동을 보입니다. 이러한 모든 행동은 완전히 창발적이며, 모델에 설계되지 않았고, 타이밍 정보를 추가하고 다른 작업을 해결하는 방법을 학습하는 부작용으로 나타난다는 점을 강조할 가치가 있습니다.
CTM의 신경 역동성과 현재 인기 있는 인공 신경망에서 관찰된 역동성의 비교.
새로운 CTM 모델 아키텍처 테스트
새로운 시간 차원이 있기 때문에 CTM의 주요 장점 중 하나는 시간이 지남에 따라 문제를 해결하는 방법을 관찰하고 시각화할 수 있다는 것입니다. 신경망을 통한 단일 패스로 이미지를 분류할 수 있는 기존 AI 시스템과 달리, CTM은 작업을 해결하는 방법에 대해 '사고'하기 위해 여러 단계를 수행할 수 있습니다. CTM의 능력과 해석 가능성을 보여주기 위해 아래에서 두 가지 작업을 소개합니다: 미로 해결과 사진 속 객체 분류. 더 많은 작업에 대한 데모는 대화형 보고서와 학술 논문에서 확인할 수 있습니다.
미로 해결
이 작업에서 CTM은 2D 탑다운 미로를 제시받고 이를 해결하는 데 필요한 단계를 출력하도록 요청받습니다. 이 형식은 모델이 단순히 경로의 시각적 표현을 출력하는 것이 아니라 미로 구조에 대한 이해를 구축하고 해결책을 계획해야 하므로 특히 어렵습니다. CTM의 내부 연속 '사고 단계'를 통해 계획을 개발할 수 있으며, 각 사고 단계 동안 미로의 어느 부분에 집중하는지 시각화할 수 있습니다. 놀랍게도, CTM은 미로를 해결하는 매우 인간적인 접근 방식을 학습합니다—실제로 주의 패턴에서 미로를 통과하는 경로를 따라가는 것을 볼 수 있습니다.
CTM은 관찰(주의 사용)하고 단계(예: 왼쪽으로 이동, 오른쪽으로 이동 등)를 직접 생성하여 미로를 해결합니다. 이는 직접적으로 신경 역동성의 동기화(즉, 동기화 자체에서 선형 프로브 사용)를 사용하여 수행됩니다. 주의 패턴이 미로를 통과하는 경로를 따라가는 것에 주목하세요: 매우 해석 가능한 접근 방식입니다. 대화형 보고서에서 미로 해결 시각화의 대화형 버전을 탐색해 보세요.
이 행동에서 특히 인상적인 점은 모델의 아키텍처에서 자연스럽게 나타난다는 것입니다. 우리는 CTM이 미로를 통과하는 경로를 추적하도록 명시적으로 설계하지 않았습니다—학습을 통해 이 접근 방식을 스스로 개발합니다. 또한, 더 많은 사고 단계가 허용될 때 CTM이 훈련된 지점을 넘어서도 계속해서 경로를 따라가며, 실제로 이 문제에 대한 일반적인 해결책을 학습했음을 보여준다는 것을 발견했습니다.
이미지 인식
ImageNet은 2012년 딥러닝 혁명을 촉발시킨 클래식 이미지 분류 벤치마크입니다. 기존 이미지 인식 시스템은 단일 단계로 분류 결정을 내리지만, CTM은 결정을 내리기 전에 이미지의 다른 부분을 검토하는 여러 단계를 수행합니다. 이러한 단계별 접근 방식은 AI의 행동을 더 해석 가능하게 만들 뿐만 아니라 정확도도 향상시킵니다: 더 오래 "사고"할수록 답변이 더 정확해집니다. 또한 이를 통해 CTM이 더 간단한 이미지에서는 더 적은 시간을 사고하도록 결정할 수 있어 에너지를 절약할 수 있음을 발견했습니다. 예를 들어, 고릴라를 식별할 때 CTM의 주의는 눈에서 코, 입으로 이동하며 인간의 시각적 주의와 현저하게 유사한 패턴을 보입니다.
여기서 우리는 이미지를 분류할 때 CTM의 행동 예를 봅니다 (사진 제공: Alon Cassidy). 히트맵은 이미지를 처리할 때 CTM이 주의를 집중하는 위치를 보여주며, 화살표는 주의의 중심을 나타냅니다. 대화형 보고서에서 더 많은 예시를 볼 수 있습니다.
이러한 주의 패턴은 모델의 추론 과정에 대한 창을 제공하여 분류에 가장 관련성이 있다고 판단하는 특징을 보여줍니다. 이러한 해석 가능성은 모델의 결정을 이해하는 데 가치가 있을 뿐만 아니라 잠재적으로 편향이나 실패 모드를 식별하고 해결하는 데도 유용합니다.
결론
현대 AI가 '인공 신경망'으로서 뇌에 기반을 두고 있음에도 불구하고, AI 연구와 신경과학 간의 겹침은 오늘날에도 놀랍도록 얇습니다. AI 연구자들은 단순성, 효율적인 훈련 및 AI 발전을 이끄는 지속적인 성공으로 인해 80년대에 개발된 매우 단순한 모델을 고수하기로 선택합니다. 반면 신경과학은 지능의 우수한 모델을 만들려고 시도하기보다는 주로 뇌를 이해하는 목적으로 뇌의 훨씬 더 정확한 모델을 만들 것입니다(물론 하나가 다른 하나로 이어질 수 있지만). 이러한 신경과학 모델은 복잡성이 추가되었음에도 불구하고 일반적으로 여전히 현재의 최첨단 AI 모델보다 성능이 떨어지므로 AI 응용 분야를 위해 더 조사할 만큼 특히 매력적이지 않을 수 있습니다.
그럼에도 불구하고, 현대 AI를 어떤 측면에서 뇌의 작동 방식에 더 가깝게 만들지 않는 것은 놓친 기회라고 믿으며, 이런 방식으로 훨씬 더 능력 있고 효율적인 모델을 찾을 수 있을 것입니다. 2012년 능력의 대규모 도약, 이른바 "딥러닝 혁명"은 뇌에서 영감을 받은 모델인 신경망 때문에 발생했습니다. 이러한 진전을 계속하기 위해 계속해서 뇌에서 영감을 받아야 하지 않을까요? CTM은 여전히 중요한 문제를 해결하기 위한 실용적인 AI 모델이면서도 뇌와 더 유사한 행동의 초기 힌트를 보여주는 방식으로 이 두 분야 간의 격차를 좁히려는 우리의 첫 번째 시도입니다.
우리는 이러한 자연에서 영감을 받은 방향으로 모델을 계속 발전시키고 어떤 새로운 능력이 나타날 수 있는지 탐색하게 되어 매우 기쁩니다. 다른 작업에서 CTM의 행동에 대한 더 자세한 예는 대화형 보고서를 방문하시기 바랍니다. CTM의 아키텍처 및 구현에 대한 전체 세부 사항은 기술 논문 및 코드에서 찾을 수 있습니다.
우리가 앞으로 나아가면서, AI 및 신경과학 커뮤니티가 생물학과 계산의 이 유망한 교차점을 탐색하는 데 함께 참여하기를 초대합니다. 함께 인공 신경망의 실용적인 이점을 유지하면서 생물학적 지능의 놀라운 능력을 더 잘 포착하는 AI 시스템을 개발할 수 있습니다.
Sakana AI
함께하는 것에 관심이 있으신가요?
자세한 내용은 채용 기회를 참조하시기 바랍니다.
© Sakana AI 株式会社
원본 출처: https://sakana.ai/ctm/
번역: 특이점이온다 갤러리의 초존도초
작성자 : 초존도초고정닉
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.