대AI시대에 대한 견해
AI 모델은 기본적으로 데이터 간의 관계를 통해 확률을 학습하는 형태입니다. 즉 모든 것에 대해 결정론적으로 정답을 만들지는 못한다는 것입니다. "인식"라는 것도 어떻게 보면 확률입니다. 강아지를 보고 이를 인식한다는 것은 내가 보고 있는 것이 강아지로 보일 확률이 매우 높기에 강아지로 인식하게 되는 것이죠. 강아지도 종류는 매우 많고 우리는 강아지의 공통된 특성 "이데아"를 알 수는 없으니까요.
결국 표본집단의 개별 데이터 간의 관계, 분포 등을 연산하여 높은 확률로 계산하는 것이 가장 중요합니다. 다만 우리는 모든 데이터, 즉 모집단의 정보를 알 수는 없습니다. 다만 우리가 구한, 실제로는 경험한, 데이터를 바탕으로 표본집단에서 모집단의 분포를 추정하는 방식이죠. 모집단에 비해 매우 작은 규모의 데이터를 통해 좋은 성능을 내기 위해서는 데이터의 특징을 기반으로 "일반화"가 필수입니다.
실제로 인간은 이런 표본집단에 대해 과도하게 정답을 매기면 통해 성급한 일반화의 오류를 범하고는 합니다. AI도 마찬가지입니다. 데이터에 대한 분포를 제대로 학습하지 못한다면 일반화의 오류는 발생할 수 밖에 없죠. 흔히 모델링에서는 과적합(overfitting)이라고 이야기합니다.
그렇기에 모델의 일반화를 적정한 수준에서 하면서 서로 다른 분포에 있는 데이터 간의 관계, 연결성에 대해 학습하는 게 상당히 중요합니다. 우리는 이것을 Inductive Bias(이하 IB)라고 합니다. 근데 아이러니하게 모든 데이터의 연결성을 강하게 준다면 오히려 과적합이 없을 수 있죠.
GPT의 근간인 Transformer가 나오기 이전에 모델들은 일반화 수준을 높게 달성하고 데이터 효율적으로 쓰기 위해 노력했습니다. 모든 데이터 간의 관계를 학습하는 것은 이론적으로도, 컴퓨팅 파워의 한계, 시간적인 소모도 문제였으니까요. 심지어 모든 데이터 간의 관계를 학습하고도 좋은 모델이 나오려면 데이터도 많이 필요하죠.
그래서 Transformer의 논문, Attention is All you need가 발표된 이후에 업계의 발전 속도는 급격하게 성장합니다. Transformer의 발전과 하드웨어적인 발전, 그리고 대규모 자본의 진입과 함께 특이점을 넘어버립니다. 하드웨어와 데이터만 충분하다면 데이터의 관계를 더 범용적으로 학습하며 이제는 거의 모든 것을 알고 있는 것만 같은 LLM으로 불리는 모델들을 만들 수 있게 된 것이죠. 그리고 이제는 더 나아가 이미지, 음성, 비디오 등의 멀티모달(multi-modal) 데이터 까지 학습을 할 수 있게 되었습니다.
물론 연구를 해보고 논문을 살펴보면 여러가지 디테일은 아직 연구할 게 많습니다. 트랜스포머 구조부터, 들어가는 토큰 구조나 효과적인 트랜스포머 배치나 등등... 다만 여기서 주목할 것은 이것에 대한 "비용"입니다.
일반적으로 AI모델은 실제 학습을 돌리기 전까지는 결과에 대해 확신을 가지기는 어렵습니다. 특히 모델의 특정 부분을 수정하고 이를 확인하기 위해서는 또 오랜 시간이 필요하죠. 그렇기에 과거부터 구글 등 기업은 "Back of Tricks" 등 본인들이 GPU를 몇 백개를 몇 백시간 돌린 결과물에 대해 벤치마크를 만들고 공유하기도 했습니다. 이게 과연 일반적인 스타트업에서 가능할까요? 일단 컴퓨터 비용도 장난 없는데 리서치 및 개발을 포함하여 QC, 배포, 프로덕트 매니징 등 수 많은 역할을 해야하다보니 결국에는 자체 대규모 모델을 시도하는 프로젝트 레벨에서 이 모든 것을 하기에는 비용적으로 어렵습니다. 그러다보니 자체적인 모델에 대해 고민을 하긴 하겠지만 API 사업에 비해 비용적으로 뒤쳐질 수 밖에 없다보니 모든 AI 스타트업이 API기업으로 보여질 수 밖에 없는 것도 사실입니다.
아직 넘어야할 산은 정말 많습니다. vector db, on-device나 ai칩 등 경량화나 하드웨어 측면에서는 여전히 리서치가 많이 필요한 상황입니다.
그리고 궁극적으로 AI가 실제 인간을 대체하고 더 장기적인 발전을 위해서는 로보틱스와 바이오 분야와의 결합이 더 필요한 상황입니다. 그리고 AI를 통한 자기 발전적인 AI학습까지 결합되는 순간부터는 초특이점이 오지 않을까 생각이 듭니다.
그럼에도 여전히 AI기업에는 기회가 많습니다. 결국 본질은 귀찮고, 처리가 어려운 일들이거든요. 장기적으로는 어렵겠지만 SI회사들이 살아남을 수 있고, 아이디어 싸움은 언제나 열려있습니다. 그리고 종종 도메인에 따라 GPT3.5 정도만으로도 성능이 충분할 수 있기에 결국은 아이디어 경쟁인거죠.
저는 결국에 특정 순간에서부터는 트롤리 딜레마 등 "어떤 결정이 옳은가", "AI에 주입되어 있는 사상은 어떤 기본적인 논리를 바탕으로 설계되어야 하는가" 등의 인문학적 소양이 가장 중요한 세상이 되지 않을까 생각합니다. 대AI시대에서 모두 함께 잘 살아남아봅시다 :)