[AI 에이전트가 이미 인류 문명을 시뮬레이션하고 있다] 스탠포드 대학 연구자들이 실시한 최근 연구에 따르면 올바른 설계를 통해 대형 언어 모델(LLM)을 활용하여 역동적이고 설득력 있게 현실적인 방식으로 인간 행동을 시뮬레이션할 수 있음이 입증되었다.

OpenAI의 히트작인 GPT-3, 3.5, 4와 같은 인공지능(AI) 대형 언어 모델(LLM)은 우리가 생활하고, 소통하고, 살아가는 방식에 대한 풍부한 정보를 인코딩하며 행동하고 연구자들은 이 지식을 활용하는 새로운 방법을 끊임없이 찾고 있다. "생성 에이전트: 인간 행동의 대화형 시뮬라크르"라는 제목의 연구는 상호 작용을 기억하고, 수신한 정보를 반영하며, 끊임없이 확장되는 메모리 스트림을 기반으로 장기 및 단기 목표를 계획하는 AI 에이전트 아키텍처를 만드는 데 있어 생성 모델의 잠재력을 탐구한다. 이러한 AI 에이전트는 일상적인 작업부터 복잡한 의사 결정 프로세스에 이르기까지 일상 생활에서 인간의 행동을 시뮬레이션할 수 있다.더욱이 이러한 에이전트가 결합되면 대규모 인구의 상호 작용에서 나타나는 보다 복잡한 사회적 행동을 모방할 수 있다. 이 작업은 특히 인구 역학 시뮬레이션에서 많은 가능성을 열어 사회적 행동과 상호 작용에 대한 귀중한 통찰력을 제공한다. 생성 에이전트를 위한 가상 환경이번 연구에서 연구진은 뷔페, 학교, 바 등 다양한 객체로 구성된 샌드박스 게임 환경인 스몰빌(SmallVille)에서 생성 에이전트를 시뮬레이션했다.환경에는 LLM으로 구동되는 25개의 생성 에이전트가 거주한다. LLM은 에이전트의 행동, 직업, 선호도, 기억 및 다른 에이전트와의 관계에 대한 자세한 설명이 포함된 프롬프트로 시작된다. LLM의 출력은 상담원의 행동이다.에이전트는 작업을 통해 환경과 상호 작용합니다. 처음에 그들은 “이사벨라는 커피를 마시고 있어요."와 같은 자연어로 작업 명령문을 생성한다. 이 진술은 스몰빌 내의 구체적인 움직임으로 해석된다. 또한 에이전트는 자연어 대화를 통해 서로 통신한다. 그들의 대화는 이전 기억과 과거 상호 작용의 영향을 받는다.인간 사용자는 내레이터의 음성을 통해 에이전트와 대화하거나 환경 상태를 변경하거나 에이전트를 직접 제어하여 에이전트와 상호 작용할 수도 있다. 인터랙티브 디자인은 다양한 가능성을 지닌 역동적인 환경을 조성하기 위한 것이다. 기억하고 반성하기스몰빌(SmallVille) 환경의 각 에이전트에는 에이전트의 경험을 자연어로 기록하는 포괄적인 데이터베이스인 메모리 스트림이 장착되어 있다. 이 메모리 스트림은 에이전트의 행동에 중요한 역할을 한다.각 작업에 대해 에이전트는 계획을 돕기 위해 관련 메모리 기록을 검색한다. 예를 들어 에이전트가 다른 에이전트를 두 번째로 만나면 해당 에이전트와의 과거 상호 작용 기록을 검색한다. 이를 통해 상담원은 이전 대화를 이어받거나 함께 완료해야 하는 작업에 대한 후속 조치를 취할 수 있다. 그러나 메모리 검색은 상당한 어려움을 안겨준다. 시뮬레이션 길이가 길어질수록 에이전트의 메모리 스트림도 길어진다. 전체 메모리 스트림을 LLM의 컨텍스트에 맞추면 모델의 집중력이 흐트러질 수 있다. 그리고 메모리 스트림이 너무 길어지면 LLM의 컨텍스트 창에 맞지 않다. 따라서 LLM과의 각 상호 작용에 대해 에이전트는 메모리 스트림에서 가장 관련성이 높은 비트를 검색하고 이를 모델에 컨텍스트로 제공해야 한다.이 문제를 해결하기 위해 연구원들은 에이전트 메모리의 각 부분과 현재 상황의 관련성을 평가하는 검색 기능을 설계했다. 각 메모리의 관련성은 해당 메모리의 임베딩을 현재 상황의 임베딩과 비교하여 측정된다(임베딩은 텍스트의 서로 다른 의미를 나타내는 숫자 값으로 유사성 검색에 사용된다). 기억의 최신성도 중요하다. 즉, 최근 기억에 더 높은 관련성이 부여된다는 의미이다. 이 외에도 연구원들은 메모리 흐름의 일부를 "반사"라고 하는 더 높은 수준의 추상적 사고로 주기적으로 요약하는 기능을 설계했다. 이러한 반사는 서로 겹쳐서 레이어를 형성하여 에이전트의 성격과 선호도에 대한 보다 미묘한 그림을 제공하고 향후 작업에 대한 메모리 검색 품질을 향상시킨다.메모리와 반사를 통해 AI 시스템은 LLM에 대한 풍부한 프롬프트를 생성한 다음 이를 사용하여 각 에이전트의 작업을 계획한다. 에이전트 실행계획은 프로젝트의 또 다른 흥미로운 측면이다. 연구자들은 에이전트가 직접적인 행동을 수행하는 동시에 장기적인 계획을 세울 수 있는 시스템을 고안해야 했다. 이를 달성하기 위해 그들은 계획에 대한 계층적 접근 방식을 채택했다.모델은 먼저 상담원 상태 요약을 수신하고 장기 목표에 대한 높은 수준의 계획을 생성하라는 메시지를 받는다. 그런 다음 각 단계를 반복적으로 수행하고 처음에는 시간별 일정으로, 그 다음에는 5~15분 작업으로 더 자세한 작업을 생성한다. 또한 에이전트는 환경 변화에 따라 계획을 업데이트하고 새로운 상황을 관찰하거나 다른 에이전트와 상호 작용한다. 계획에 대한 이러한 동적 접근 방식은 에이전트가 환경에 적응하고 현실적이고 믿을 수 있는 방식으로 환경과 상호 작용할 수 있도록 보장한다. 시뮬레이션이 실행되면 어떻게 되나? 각 에이전트는 몇 가지 기본 지식, 일상 업무, 달성 목표부터 시작한다. 그들은 그 목표를 계획하고 실행하며 서로 상호 작용한다. 이러한 상호 작용을 통해 에이전트는 서로에게 정보를 전달할 수 있다. 새로운 정보가 인구 전체에 확산됨에 따라 지역 사회의 행동이 변화한다. 에이전트는 다른 에이전트의 행동을 인식하면서 자신의 계획과 목표를 변경하거나 조정하여 반응한다.연구자들의 실험에 따르면 생성 에이전트는 명시적인 지시 없이도 서로 조정하는 방법을 학습한다. 예를 들어, 에이전트 중 한 명이 발렌타인 데이 파티를 열겠다는 목표로 시작했다. 이 정보는 결국 다른 요원에게 전달되었고 몇몇 요원은 결국 파티에 참석하게 되었다. (데모가 온라인에 공개되었다.) 연구의 인상적인 결과에도 불구하고 기술의 한계를 인정하는 것이 중요하다. 생성 에이전트는 인간 행동을 시뮬레이션하는 데 있어 다른 LLM 기반 방법을 능가하지만 메모리 검색에서는 때때로 불안정하다. 관련 기억을 간과하거나, 반대로 존재하지 않는 세부 사항을 기억에 추가하여 "환각"을 일으킬 수도 있다. 이로 인해 행동과 상호 작용에 불일치가 발생할 수 있다.더욱이 연구원들은 에이전트의 행동에서 예상치 못한 특이한 점을 지적했다. 에이전트는 지나치게 정중하고 협조적이었다. 이러한 특성은 AI 보조자에게 바람직할 수 있지만 갈등과 불일치를 포함하는 인간 행동의 전체 스펙트럼을 정확하게 반영하지는 않는다. 인간 행동의 시뮬라크르이 연구는 연구 커뮤니티 내에서 관심을 불러일으켰다. 스탠포드 연구원들은 최근 가상 환경과 생성 에이전트에 대한 소스 코드를 공개했다.이를 통해 다른 연구자들이 자신의 작업을 기반으로 유명한 벤처 캐피탈 회사인 Andreessen Horowitz(a16z)와 같은 유명 기업이 자신만의 환경 버전을 만들 수 있게 되었다.스몰빌의 가상 에이전트는 재미있지만 연구원들은 그들의 작업이 광범위하고 실용적인 응용 프로그램을 가지고 있다고 믿는다. 그러한 응용 프로그램 중 하나는 소셜 네트워크와 같은 대량 사용자 제품의 역학을 프로토타입화하는 것이다. 연구원들은 이러한 생성 모델이 잘못된 정보의 확산이나 트롤링과 같은 부정적인 결과를 예측하고 완화하는 데 도움이 될 수 있기를 바라고 있다. 연구자들은 다양한 에이전트 집단을 생성하고 제품의 맥락 내에서 그들의 상호 작용을 관찰함으로써 긍정적이고 부정적인 새로운 행동을 연구할 수 있다. 또한 에이전트를 사용하여 반사실적을 실험하고 다양한 정책과 행동 수정이 결과를 어떻게 바꿀 수 있는지 시뮬레이션할 수 있다. 이 개념은 사회적 시뮬라크르의 기초를 형성한다. 그러나 생성 인자의 잠재력에는 위험이 따른다. 실제 인간을 설득력 있게 모방하는 봇을 만드는 데 사용될 수 있으며, 잠재적으로 잘못된 정보를 대규모로 퍼뜨리는 등의 악의적인 활동을 증폭시킬 수 있다. 이에 대응하기 위해 연구원들은 에이전트의 행동에 대한 감사 로그를 유지하여 일정 수준의 투명성과 책임성을 제공할 것을 제안한다.연구원들은 “앞으로 우리는 생성 에이전트가 디자인 도구부터 소셜 컴퓨팅 시스템, 몰입형 환경에 이르기까지 다양한 대화형 애플리케이션에서 역할을 수행할 수 있다고 제안한다.”라고 썼다.

[AI 에이전트가 이미 인류 문명을 시뮬레이션하고 있다] 스탠포드 대학 연구자들이 실시한 최근 연구에 따르면 올바른 설계를 통해 대형 언어 모델(LLM)을 활용하여 역동적이고 설득력 있게 현실적인 방식으로 인간 행동을 시뮬레이션할 수 있음이 입증되었다.

OpenAI의 히트작인 GPT-3, 3.5, 4와 같은 인공지능(AI) 대형 언어 모델(LLM)은 우리가 생활하고, 소통하고, 살아가는 방식에 대한 풍부한 정보를 인코딩하며 행동하고 연구자들은 이 지식을 활용하는 새로운 방법을 끊임없이 찾고 있다.

 

"생성 에이전트: 인간 행동의 대화형 시뮬라크르"라는 제목의 연구는 상호 작용을 기억하고, 수신한 정보를 반영하며, 끊임없이 확장되는 메모리 스트림을 기반으로 장기 및 단기 목표를 계획하는 AI 에이전트 아키텍처를 만드는 데 있어 생성 모델의 잠재력을 탐구한다. 이러한 AI 에이전트는 일상적인 작업부터 복잡한 의사 결정 프로세스에 이르기까지 일상 생활에서 인간의 행동을 시뮬레이션할 수 있다.

더욱이 이러한 에이전트가 결합되면 대규모 인구의 상호 작용에서 나타나는 보다 복잡한 사회적 행동을 모방할 수 있다. 이 작업은 특히 인구 역학 시뮬레이션에서 많은 가능성을 열어 사회적 행동과 상호 작용에 대한 귀중한 통찰력을 제공한다.

 

생성 에이전트를 위한 가상 환경

이번 연구에서 연구진은 뷔페, 학교, 바 등 다양한 객체로 구성된 샌드박스 게임 환경인 스몰빌(SmallVille)에서 생성 에이전트를 시뮬레이션했다.

환경에는 LLM으로 구동되는 25개의 생성 에이전트가 거주한다. LLM은 에이전트의 행동, 직업, 선호도, 기억 및 다른 에이전트와의 관계에 대한 자세한 설명이 포함된 프롬프트로 시작된다. LLM의 출력은 상담원의 행동이다.

에이전트는 작업을 통해 환경과 상호 작용합니다. 처음에 그들은 이사벨라는 커피를 마시고 있어요."와 같은 자연어로 작업 명령문을 생성한다. 이 진술은 스몰빌 내의 구체적인 움직임으로 해석된다.

 

또한 에이전트는 자연어 대화를 통해 서로 통신한다. 그들의 대화는 이전 기억과 과거 상호 작용의 영향을 받는다.

인간 사용자는 내레이터의 음성을 통해 에이전트와 대화하거나 환경 상태를 변경하거나 에이전트를 직접 제어하여 에이전트와 상호 작용할 수도 있다. 인터랙티브 디자인은 다양한 가능성을 지닌 역동적인 환경을 조성하기 위한 것이다.

 

기억하고 반성하기

스몰빌(SmallVille) 환경의 각 에이전트에는 에이전트의 경험을 자연어로 기록하는 포괄적인 데이터베이스인 메모리 스트림이 장착되어 있다. 이 메모리 스트림은 에이전트의 행동에 중요한 역할을 한다.

각 작업에 대해 에이전트는 계획을 돕기 위해 관련 메모리 기록을 검색한다. 예를 들어 에이전트가 다른 에이전트를 두 번째로 만나면 해당 에이전트와의 과거 상호 작용 기록을 검색한다. 이를 통해 상담원은 이전 대화를 이어받거나 함께 완료해야 하는 작업에 대한 후속 조치를 취할 수 있다.

 

그러나 메모리 검색은 상당한 어려움을 안겨준다. 시뮬레이션 길이가 길어질수록 에이전트의 메모리 스트림도 길어진다. 전체 메모리 스트림을 LLM의 컨텍스트에 맞추면 모델의 집중력이 흐트러질 수 있다. 그리고 메모리 스트림이 너무 길어지면 LLM의 컨텍스트 창에 맞지 않다. 따라서 LLM과의 각 상호 작용에 대해 에이전트는 메모리 스트림에서 가장 관련성이 높은 비트를 검색하고 이를 모델에 컨텍스트로 제공해야 한다.

이 문제를 해결하기 위해 연구원들은 에이전트 메모리의 각 부분과 현재 상황의 관련성을 평가하는 검색 기능을 설계했다. 각 메모리의 관련성은 해당 메모리의 임베딩을 현재 상황의 임베딩과 비교하여 측정된다(임베딩은 텍스트의 서로 다른 의미를 나타내는 숫자 값으로 유사성 검색에 사용된다). 기억의 최신성도 중요하다. , 최근 기억에 더 높은 관련성이 부여된다는 의미이다.

 

이 외에도 연구원들은 메모리 흐름의 일부를 "반사"라고 하는 더 높은 수준의 추상적 사고로 주기적으로 요약하는 기능을 설계했다. 이러한 반사는 서로 겹쳐서 레이어를 형성하여 에이전트의 성격과 선호도에 대한 보다 미묘한 그림을 제공하고 향후 작업에 대한 메모리 검색 품질을 향상시킨다.

메모리와 반사를 통해 AI 시스템은 LLM에 대한 풍부한 프롬프트를 생성한 다음 이를 사용하여 각 에이전트의 작업을 계획한다.

 

에이전트 실행

계획은 프로젝트의 또 다른 흥미로운 측면이다. 연구자들은 에이전트가 직접적인 행동을 수행하는 동시에 장기적인 계획을 세울 수 있는 시스템을 고안해야 했다. 이를 달성하기 위해 그들은 계획에 대한 계층적 접근 방식을 채택했다.

모델은 먼저 상담원 상태 요약을 수신하고 장기 목표에 대한 높은 수준의 계획을 생성하라는 메시지를 받는다. 그런 다음 각 단계를 반복적으로 수행하고 처음에는 시간별 일정으로, 그 다음에는 5~15분 작업으로 더 자세한 작업을 생성한다. 또한 에이전트는 환경 변화에 따라 계획을 업데이트하고 새로운 상황을 관찰하거나 다른 에이전트와 상호 작용한다. 계획에 대한 이러한 동적 접근 방식은 에이전트가 환경에 적응하고 현실적이고 믿을 수 있는 방식으로 환경과 상호 작용할 수 있도록 보장한다.

 

시뮬레이션이 실행되면 어떻게 되나? 각 에이전트는 몇 가지 기본 지식, 일상 업무, 달성 목표부터 시작한다. 그들은 그 목표를 계획하고 실행하며 서로 상호 작용한다. 이러한 상호 작용을 통해 에이전트는 서로에게 정보를 전달할 수 있다. 새로운 정보가 인구 전체에 확산됨에 따라 지역 사회의 행동이 변화한다. 에이전트는 다른 에이전트의 행동을 인식하면서 자신의 계획과 목표를 변경하거나 조정하여 반응한다.

연구자들의 실험에 따르면 생성 에이전트는 명시적인 지시 없이도 서로 조정하는 방법을 학습한다. 예를 들어, 에이전트 중 한 명이 발렌타인 데이 파티를 열겠다는 목표로 시작했다. 이 정보는 결국 다른 요원에게 전달되었고 몇몇 요원은 결국 파티에 참석하게 되었다. (데모가 온라인에 공개되었다.)

 

연구의 인상적인 결과에도 불구하고 기술의 한계를 인정하는 것이 중요하다. 생성 에이전트는 인간 행동을 시뮬레이션하는 데 있어 다른 LLM 기반 방법을 능가하지만 메모리 검색에서는 때때로 불안정하다. 관련 기억을 간과하거나, 반대로 존재하지 않는 세부 사항을 기억에 추가하여 "환각"을 일으킬 수도 있다. 이로 인해 행동과 상호 작용에 불일치가 발생할 수 있다.

더욱이 연구원들은 에이전트의 행동에서 예상치 못한 특이한 점을 지적했다. 에이전트는 지나치게 정중하고 협조적이었다. 이러한 특성은 AI 보조자에게 바람직할 수 있지만 갈등과 불일치를 포함하는 인간 행동의 전체 스펙트럼을 정확하게 반영하지는 않는다.

 

인간 행동의 시뮬라크르

이 연구는 연구 커뮤니티 내에서 관심을 불러일으켰다. 스탠포드 연구원들은 최근 가상 환경과 생성 에이전트에 대한 소스 코드를 공개했다.

이를 통해 다른 연구자들이 자신의 작업을 기반으로 유명한 벤처 캐피탈 회사인 Andreessen Horowitz(a16z)와 같은 유명 기업이 자신만의 환경 버전을 만들 수 있게 되었다.

스몰빌의 가상 에이전트는 재미있지만 연구원들은 그들의 작업이 광범위하고 실용적인 응용 프로그램을 가지고 있다고 믿는다.

 

그러한 응용 프로그램 중 하나는 소셜 네트워크와 같은 대량 사용자 제품의 역학을 프로토타입화하는 것이다. 연구원들은 이러한 생성 모델이 잘못된 정보의 확산이나 트롤링과 같은 부정적인 결과를 예측하고 완화하는 데 도움이 될 수 있기를 바라고 있다. 연구자들은 다양한 에이전트 집단을 생성하고 제품의 맥락 내에서 그들의 상호 작용을 관찰함으로써 긍정적이고 부정적인 새로운 행동을 연구할 수 있다. 또한 에이전트를 사용하여 반사실적을 실험하고 다양한 정책과 행동 수정이 결과를 어떻게 바꿀 수 있는지 시뮬레이션할 수 있다. 이 개념은 사회적 시뮬라크르의 기초를 형성한다.

 

그러나 생성 인자의 잠재력에는 위험이 따른다. 실제 인간을 설득력 있게 모방하는 봇을 만드는 데 사용될 수 있으며, 잠재적으로 잘못된 정보를 대규모로 퍼뜨리는 등의 악의적인 활동을 증폭시킬 수 있다. 이에 대응하기 위해 연구원들은 에이전트의 행동에 대한 감사 로그를 유지하여 일정 수준의 투명성과 책임성을 제공할 것을 제안한다.

연구원들은앞으로 우리는 생성 에이전트가 디자인 도구부터 소셜 컴퓨팅 시스템, 몰입형 환경에 이르기까지 다양한 대화형 애플리케이션에서 역할을 수행할 수 있다고 제안한다.”라고 썼다.