안드레이 카르파티는 누구인가?#

안드레이 카르파티는 10년 이상 딥러닝 혁명의 중심에 있었던 컴퓨터 과학자입니다. 그의 경력은 현대 AI 역사상 가장 중요한 세 기관인 스탠포드 대학교, 테슬라, 그리고 OpenAI에 걸쳐 있습니다.

  • 교육 및 초기 연구 (스탠포드 대학교): 카르파티는 스탠포드 대학교에서 박사 학위를 받았으며, ImageNet 데이터셋의 창시자 중 한 명인 페이페이 리(Fei-Fei Li) 교수의 지도를 받았습니다. 그의 연구는 자연어 처리(NLP)와 컴퓨터 비전의 교차점에 초점을 맞췄습니다. 박사 과정 동안 그는 이미지의 내용을 자연어 문장으로 설명할 수 있는 획기적인 모델을 개발했습니다. 이미지 캡셔닝에 대한 이 연구는 기초가 되었으며, 복잡한 다중 모드 작업을 해결하기 위해 다양한 신경망 아키텍처(비전을 위한 합성곱 신경망과 언어를 위한 순환 신경망 등)를 결합하는 힘을 보여주었습니다. 그는 또한 스탠포드 최초의 딥러닝 강좌인 CS231n: “시각적 인식을 위한 합성곱 신경망"의 주 강사였으며, 이 강좌는 전 세계 학생들에게 중요한 자료가 되었습니다.

  • OpenAI (창립 멤버): 2015년, 카르파티는 OpenAI의 창립 멤버가 되어 연구 과학자로 합류했습니다. 그곳에서의 첫 재직 기간 동안 그는 생성 모델과 강화 학습에 대해 연구했으며, 이는 결국 GPT와 같은 모델의 길을 닦는 초기 연구에 기여했습니다.

  • 테슬라 (AI 디렉터): 2017년, 카르파티는 OpenAI를 떠나 중요한 현실 세계의 도전에 직면했습니다. 바로 테슬라의 오토파일럿을 위한 컴퓨터 비전 팀을 이끄는 것이었습니다. AI 디렉터로서 그는 테슬라의 자율 주행 기능을 구동하는 “소프트웨어 2.0” 스택을 구축하는 책임을 맡았습니다. 이것은 AI를 연구실에서 안전이 중요한 대중 시장 제품으로 옮기는 기념비적인 과제였습니다. 그의 팀의 작업은 테슬라 차량으로부터 방대한 양의 비디오 데이터를 수집하고, 환경을 해석하기 위한 거대한 신경망(자동차, 차선, 보행자, 신호등 감지)을 구축하고, 이러한 모델을 전례 없는 규모로 훈련하고 배포하기 위한 인프라를 만드는 것을 포함했습니다. 테슬라에서의 그의 경험은 AI의 실제적인 엔지니어링 과제와 잠재력에 대한 그의 견해를 깊이 형성했습니다.

  • OpenAI로의 복귀 및 최근 퇴사: 2023년 초, 카르파티는 대규모 언어 모델(LLM)의 폭발적인 발전에 이끌려 OpenAI에 다시 합류했습니다. 그는 GPT-4와 같은 모델의 개발 및 훈련과 관련된 프로젝트와 교육 자료 제작에 참여했습니다. 그러나 2024년 2월, 그는 개인 프로젝트를 추구하기 위해 퇴사를 발표하며, 자신의 관심사가 AI 에이전트 구축으로 옮겨가고 있다고 밝혔습니다. 이 움직임은 다음 개척지가 모델 훈련을 넘어 LLM을 자율 시스템으로 적용하는 데 있다는 그의 믿음의 신호로 널리 해석되었습니다.


소프트웨어의 진화: 1.0에서 3.0까지 (카르파티의 비전)#

이것은 아마도 카르파티가 이 분야에 기여한 가장 유명한 개념적 공헌일 것입니다. 이는 AI에 의해 주도되는 패러다임 전환을 이해하기 위한 프레임워크를 제공합니다.

소프트웨어 1.0: 클래식 스택#

이것은 지난 50년 이상 세상을 움직여온 소프트웨어입니다.

  • 정의: 소프트웨어 1.0은 인간 프로그래머가 명시적으로 작성한 코드입니다. 이는 파이썬, C++, 자바 등과 같은 언어로 작성된 논리적 지침, 알고리즘 및 규칙으로 구성됩니다.
  • 특징: 결정론적입니다. 동일한 입력을 주면 항상 동일한 출력을 생성합니다. 그 논리는 투명하며 한 줄 한 줄 검사할 수 있습니다.
  • 예시: 웹 서버, 텍스트 편집기 또는 전통적인 은행 애플리케이션. 모든 규칙은 개발자가 직접 코딩합니다.
  • 한계: 사진에서 고양이를 인식하거나 언어 간 번역과 같이 인간에게는 인지하기 쉽지만 명시적인 규칙으로 정의하기 어려운 문제에 어려움을 겪습니다. 고양이의 모든 가능한 변형을 다루기 위해 if-then-else 문을 작성할 수는 없습니다.

소프트웨어 2.0: 신경망 스택#

카르파티는 2017년의 유명한 블로그 게시물에서 새로운 프로그래밍 패러다임을 설명하기 위해 이 용어를 만들었습니다.

  • 정의: 소프트웨어 2.0에서 “코드"는 인간이 작성하는 것이 아니라 최적화됩니다. 프로그램은 수백만 또는 수십억 개의 매개변수(가중치)로 구성된 신경망입니다. “프로그래밍"은 방대한 예제 데이터셋의 안내를 받아 작업을 해결하는 가중치 집합을 찾기 위해 방대한 가능한 가중치 공간을 검색하는 최적화기(예: 확률적 경사 하강법)를 사용하는 프로세스입니다.
  • “코드"는 가중치입니다: 프로그램의 동작은 큰 행렬 $\theta$로 표시되는 가중치의 특정 숫자 값에 의해 결정됩니다. “소스 코드"는 입출력 쌍의 데이터셋입니다.
  • “프로그래머"는 ML 엔지니어입니다: 인간의 역할은 명시적인 논리를 작성하는 것에서 데이터셋을 선별하고, 신경망 아키텍처를 설계하고, 훈련 과정을 관리하는 것으로 바뀝니다.
  • 예시: 테슬라 오토파일럿. 모든 가능한 운전 시나리오에 대한 규칙을 작성하는 것은 불가능합니다. 대신, 테슬라는 수백만 마일의 주행 데이터에 대해 신경망을 훈련시킵니다. 네트워크는 데이터로부터 운전 규칙을 암묵적으로 학습합니다.
  • 특징: 확률적이고, 데이터 기반이며, 종종 “블랙박스"여서 특정 결정을 내린 이유를 해석하기 어렵습니다.

소프트웨어 3.0: 운영 체제로서의 LLM#

이것은 “GPT의 현황(State of GPT)“과 같은 강연과 그의 최근 저술에서 분명히 나타난 그의 비전의 최신 확장판입니다. 이는 LLM이 또 다른 소프트웨어 2.0 애플리케이션이 아니라 근본적으로 새로운 유형의 계산 플랫폼이라고 가정합니다.

  • 정의: 소프트웨어 3.0은 강력하고 사전 훈련된 LLM이 새로운 종류의 컴퓨터의 중앙 처리 장치(CPU) 또는 커널 역할을 하는 시스템입니다. 이 “LLM OS"는 단순히 작업을 실행하는 것이 아니라, 목표를 달성하기 위해 다른 도구(소프트웨어 1.0 및 2.0 모두)를 추론하고, 계획하고, 조율합니다.
  • “명령어 집합"은 자연어입니다: 영어(또는 다른 언어)로 지침을 주어 이 컴퓨터를 “프로그래밍"합니다. 프롬프트는 새로운 명령줄입니다.
  • 주요 기능:
    1. 추론 및 계획: “2000달러 예산으로 파리 5일 여행을 계획하고 항공편을 예약해 줘"와 같은 복잡한 요청을 일련의 하위 작업으로 분해할 수 있습니다.
    2. 도구 사용: LLM이 모든 것을 스스로 할 필요는 없습니다. 웹을 검색하고, 계산을 수행하기 위해 인터프리터에서 코드를 실행하고, 데이터베이스에 액세스하거나, 다른 소프트웨어를 제어하기 위해 API를 호출할 수 있습니다.
    3. 자가 수정: 도구의 출력을 분석하고, 실수했다는 것을 깨닫고(예: 항공편이 너무 비쌌음), 다른 접근 방식을 시도할 수 있습니다.
  • 예시: AI 에이전트. 높은 수준의 목표를 주면 웹 브라우저, 코드 인터프리터 및 기타 API를 자율적으로 사용하여 장기간에 걸쳐 이를 달성합니다. LLM은 이러한 행동을 조정하는 “두뇌"입니다.

AI와 LLM에 대한 카르파티의 핵심 견해#

그의 최근 연설, 인터뷰 및 소셜 미디어 활동에서 추출한 그의 견해는 실용적이고, 엔지니어링 중심적이며, 낙관적입니다.

  1. LLM은 범용의 확장 가능한 “CPU"입니다: 그는 GPT-4와 같은 모델의 핵심 혁신이 그 일반성에 있다고 굳게 믿습니다. 그것들은 단지 챗봇을 위한 것이 아닙니다. 그것들은 엄청나게 광범위한 지적 작업에 적용될 수 있는 새로운 종류의 프로세서입니다. 그것들을 확장하면(더 많은 데이터, 더 많은 컴퓨팅) 놀라운 새로운 “창발적” 기능이 계속해서 나타납니다.

  2. 미래는 에이전트와 “LLM OS"입니다: 이것이 오늘날 그의 중심 논지입니다. 그는 AI의 가장 중요한 영향이 “LLM OS” 개념 위에 구축된 자율 에이전트에서 비롯될 것이라고 예측합니다. 이러한 에이전트는 개인 비서, 연구 보조원, 소프트웨어 개발자 등으로 활동하여 우리가 컴퓨터 및 정보와 상호 작용하는 방식을 근본적으로 바꿀 것입니다. 이 분야에 집중하기 위해 OpenAI를 떠난 그의 결정은 이러한 확신을 강조합니다.

  3. 데이터 품질의 엄청난 중요성: 테슬라에서의 경험을 바탕으로 그는 모든 소프트웨어 2.0/3.0 시스템의 성능이 훈련 데이터의 품질과 규모에 결정적으로 의존한다고 종종 강조합니다. 그는 데이터셋을 선별, 정리 및 증강하는 과정을 기념비적이고 종종 과소평가되는 엔지니어링 노력이라고 말합니다. 고품질 데이터는 이러한 시스템의 “연료"입니다.

  4. 민주화와 교육: 카르파티는 열정적인 교육자입니다. 그가 파이썬으로 처음부터 생성형 사전 훈련 트랜스포머를 코딩하는 그의 유튜브 시리즈 “GPT를 만들어 봅시다(Let’s build GPT)“는 AI를 대중화하려는 그의 열망의 증거입니다. 그는 더 많은 사람들이 혁신하고 구축할 수 있도록 핵심 개념을 접근 가능하게 만드는 것을 믿습니다. 그는 또한 오픈 소스 모델의 지지자로서, 혁신을 촉진하고 소수의 대규모 연구소에 권력이 집중되는 것을 방지하는 데 중요하다고 봅니다.

  5. 엔지니어링이 병목 현상입니다: 기초 연구도 중요하지만, 카르파티는 종종 엄청난 엔지니어링 과제를 강조합니다. 여기에는 모델 추론을 저렴하고 빠르게 실행하도록 최적화하는 것(“생각당 1센트” 문제)부터 신뢰할 수 있는 평가 지표를 개발하는 것, 궤도를 벗어나지 않는 견고한 에이전트 시스템을 구축하는 것까지 모든 것이 포함됩니다.


AI 기술의 미래에 대한 예측#

그의 “소프트웨어 3.0” 프레임워크와 최근 논평을 바탕으로 한 카르파티의 주요 예측은 다음과 같습니다.

  • “개인 OS"의 부상: 그는 모든 개인이 자신의 데이터에서 실행되는 개인화된 AI 에이전트를 갖게 될 미래를 구상합니다. 이 “삶을 위한 코파일럿"은 당신의 파일, 이메일, 캘린더 및 선호도를 알고 전문적인 작업과 개인적인 작업 모두에서 능동적으로 당신을 도울 수 있습니다.

  • 다중 모드는 원활해질 것입니다: 텍스트, 이미지, 오디오 및 비디오 모델 간의 구분이 사라질 것입니다. 이 모든 영역에 걸쳐 유동적으로 추론할 수 있는 단일의 강력한 다중 모드 모델이 있을 것입니다. 고장난 가전제품의 비디오를 보여주면 음성 지침과 다이어그램으로 수리 과정을 안내해 줄 수 있습니다.

  • “프롬프트"는 “프로그래밍"으로 진화할 것입니다: 단순한 프롬프트는 AI 에이전트가 복잡한 다단계 작업을 안정적으로 완료하도록 안내하기 위해 프롬프트, 도구 및 피드백 루프의 복잡한 시스템을 설계하는 “AI 오케스트레이션"이라는 더 정교한 분야로 진화할 것입니다.

  • 자기 개선 플라이휠: 가장 강력한 AI 에이전트는 스스로를 개선할 수 있을 것입니다. 예를 들어, 코드를 작성하는 AI 에이전트는 자신의 코드에 있는 버그를 분석하고, 이러한 실패를 기반으로 새로운 훈련 데이터를 생성한 다음, 이 데이터에 대해 미세 조정되어 더 나은 프로그래머가 될 수 있습니다. 이것은 강력한 피드백 루프 또는 플라이휠을 만들어 역량의 기하급수적인 증가로 이어질 수 있습니다.

  • 하드웨어 및 소프트웨어 스택이 재구축될 것입니다: 칩(하드웨어)에서 운영 체제(소프트웨어)에 이르기까지 전체 컴퓨팅 스택이 LLM을 중심으로 재구성될 것입니다. LLM을 효율적으로 실행하기 위한 특수 하드웨어와 AI 에이전트 및 도구와 데이터에 대한 액세스를 안전하게 관리하도록 설계된 새로운 운영 체제를 보게 될 것입니다.

요약하자면, 안드레이 카르파티는 AI를 구축할 뿐만 아니라 그 궤적을 이해하기 위한 개념적 프레임워크를 제공하는 중심 인물입니다. “소프트웨어 2.0” 전도사에서 “소프트웨어 3.0” 비전가로의 그의 진화는 인식 작업에서 추론 및 자율 행동으로 이동하는 전체 분야의 과정을 보여줍니다. AI 에이전트에 대한 그의 현재 초점은 업계에서 가장 뛰어난 인재 중 한 명이 미래가 어디로 향하고 있다고 믿는지 보여줍니다.


참고자료 (References)#