가장 정확한 AI는 누구일까요? 워싱턴포스트의 AI 테스트 결과를 중심으로 본 인공지능 검색 도구 대전
인공지능(AI)은 이제 단순한 기술 트렌드를 넘어 우리의 일상과 업무 곳곳에 깊숙이 자리 잡고 있어요. 문서를 작성할 때, 정보를 검색할 때, 그리고 비즈니스 전략을 구상할 때조차 AI의 도움을 받는 경우가 많아졌는데요. 이를 반영하듯 최근 워싱턴포스트(Washington Post)가 흥미로운 테스트 결과를 발표했습니다. 구글에서 제공하는 'AI 모드'가 다양한 AI 검색 도구 중에서 가장 정확한 답변을 제공했다는 소식인데요. 그럼 이 테스트가 어떤 방식으로 이뤄졌고, 왜 구글 AI 모드가 가장 높은 평가를 받았는지, 그리고 이 결과가 앞으로 우리의 검색 행태에 어떤 영향을 줄지를 함께 살펴보도록 할게요.
AI 검색 도구는 어떻게 테스트되었을까?
우선 이번 테스트는 워싱턴포스트가 서점 사서들과 협업해서 구성한 매우 체계적인 평가였어요. 하루아침에 뚝딱 만들어진 비교 분석이 아니라 공공도서관과 대학 도서관에서 일하는 사서들과 함께 AI 검색 도구들의 성능을 직접 비교했다는 점이 매우 흥미롭습니다. 전통적인 도서관 정보학적 기준을 바탕으로, 퀴즈형 질문부터 전문 자료 검색, 최근 이슈, 편향성 여부, 이미지 인식 등 총 5가지 유형의 질문이 총 30개 선정되었고, 이에 따른 AI의 답변을 분석한 점도 눈여겨볼 만해요.
시험에 나선 9개의 AI 검색 도구는 다음과 같았어요. 구글의 AI 모드(Google AI Mode), AI 오버뷰, 챗GPT의 GPT-5와 GPT-4 터보, 클로드(Claude, Anthropic), 메타 AI(Meta AI), 그록(Grok, xAI), 퍼플렉시티(Perplexity), 그리고 마이크로소프트의 빙 코파일럿(Bing Copilot)이 포함되었죠. 참고로 그록의 최신 모델인 그록4는 무료 버전이 존재하지 않아 테스트에 포함되지 못했다고 해요.
각 AI 도구는 질문당 30개의 답변, 총 900개의 결과물을 제출했고, 이 답변들을 전문가가 하나하나 채점하여 100점 만점 기준으로 정밀하게 점수를 매겼습니다.
최고 점수를 받은 구글 AI 모드의 비결은?
이번 테스트에서 구글이 자체 개발한 'AI 모드'는 60.2점을 획득하면서 당당히 1위를 차지했어요. 2위는 GPT-5 기반의 챗GPT로 55.1점, 3위는 퍼플렉시티로 51.3점을 받았어요.
구글의 AI 모드가 왜 이토록 높은 점수를 받은 걸까요? 제 생각에는 몇 가지 이유가 있어요.
첫째, 구글 AI 모드는 검색의 강자답게 웹을 깊이 있게 스캔해서 다양한 출처의 정보를 수집하고 이를 종합하여 답변을 제공해줍니다. 단순히 하나의 정답을 던져주는 것이 아니라, 다양한 시각과 정보를 융합해서 제공한다는 부분에서 사용자의 정보 이해도를 높여주는 방식이죠.
둘째, 구글은 AI 오버뷰와 AI 모드를 병행 운영하고 있는데, AI 모드의 경우 특히 사실 기반 검색에 더 최적화되어 있어요. 단순히 요약하거나 표면적인 정보만 제공하는 대신, 실제 데이터나 국내외 웹의 신뢰 가능한 정보들을 바탕으로 정답을 생성하기 때문에 정확도 면에서 뛰어난 평가를 받을 수 있었던 거에요.
셋째, 구글은 방대한 검색 인덱스와 고도화된 검색 알고리즘을 기반으로 하고 있는 만큼, 다른 AI 툴들과는 차별화된 데이터 활용 방식이 존재하는 것으로 보여요. 이는 단순한 LLM(Large Language Model)을 넘어서는 검색 품질을 만들어낸 핵심 요인이 아닐까요?
AI 검색 도구 간 성능 차이, 그 원인은?
GPT-5 기반의 챗GPT가 두 번째로 높은 점수를 받은 것은 충분히 예측 가능한 결과였어요. 오픈AI는 챗봇 분야에서 확고한 위치를 점하고 있으니까요. 하지만 1위를 차지하지 못했다는 점에서 시사하는 바도 큽니다. 이전까지 AI 기반 검색 능력에서는 챗GPT가 가장 잘 나가는 줄 알았던 분들도 많았을 거에요.
하지만 이번 테스트는 단순한 자연어 처리 능력이 아니라, 실제로 정보 검색 정확성과 균형성, 편향성 여부 등을 엄격하게 평가한 테스트이기 때문에, 단순히 말을 잘하는 챗봇과 정보 제공자로서의 AI를 구분해서 볼 필요가 있다는 것이죠.
퍼플렉시티는 상대적으로 덜 알려진 신생 서비스지만 3위를 차지하면서 놀라움을 안겼어요. 빠른 검색 속도와 최신 정보를 잘 반영한다는 점에서 평가를 받은 것으로 보입니다. 개인적으로는 퍼플렉시티가 최근 인기를 끌고 있는 이유가 ‘신속성’과 ‘간결한 요약 능력’에 있다고 생각해요. 특히 트렌디한 정보를 빠르게 파악하고자 하는 Z세대와 밀레니얼 세대에게 맞는 방식이라는 점에서 주목할 만합니다.
반면, 메타 AI와 그록은 상대적으로 낮은 점수를 받았는데요. 메타 AI는 소셜 미디어 플랫폼 중심의 데이터를 기반으로 답변이 이루어지다 보니 정보의 신뢰성이나 전문성에서 한계를 드러낸 것으로 보여요. 그리고 그록3는 8위로, 아직은 검색 정확도에 있어 비교적 미흡하다는 평가를 받고 있어요.
AI 검색 도구, 어떻게 활용해야 할까?
이쯤에서 우리가 고민해봐야 할 점은, 다양한 AI 검색 도구들이 있는데 어떤 걸 어떻게 활용하는 것이 좋을까 하는 부분입니다. 제가 직접 다뤄본 경험으로는요, 각각의 AI 도구들은 분명한 장단점이 있어요.
-
정확하고 신뢰성 있는 정보 기반으로 자료를 찾고 싶을 땐 구글 AI 모드가 좋았어요. 특히 학술적인 내용이나 실제 출처가 필요한 정보일수록요.
-
창의적인 아이디어 브레인스토밍이나, 복잡한 개념 설명이 필요할 땐 챗GPT가 여전히 유리했어요. GPT-5 모델은 맥락 파악이 뛰어나 설명이 자연스러웠거든요.
-
최신 뉴스나 빠르게 변하는 트렌드 정보 검색은 퍼플렉시티가 굉장히 유용했어요. 간결하고 핵심을 잘 전달해주더라고요.
결국 어떤 도구도 ‘모든 상황에서 최적’은 아니에요. 우리가 원하는 목표나 문맥에 따라 적절한 AI 검색 도구를 선택하는 것이 중요합니다. AI는 도구이지, 정답 그 자체는 아니라는 사실을 늘 기억할 필요가 있는 거에요.
앞으로의 전망, 그리고 우리가 준비해야 할 것
이번 워싱턴포스트의 테스트 결과는 단순한 순위 경쟁이 아니에요. 앞으로 AI 검색 도구가 검색 엔진을 점차 대체하는 시대가 올 수 있다는 거죠. 과거엔 ‘구글링’이 정보 탐색의 핵심이었지만, 머지않아 ‘AI에게 먼저 물어보는 시대’가 시작될지도 몰라요.
이렇게 되면, 검색 엔진 최적화(SEO) 전략도 기존과는 완전히 달라질 수밖에 없어요. 키워드 조합이나 링크 구축보다, AI가 신뢰할 수 있는 콘텐츠를 제공하느냐가 중요해지겠죠. 저처럼 콘텐츠 크리에이터나 마케터 분들이라면, AI 친화적인 정보 구성, 신뢰도 높은 글쓰기 전략을 연구해야 할 시점입니다.
또한, AI 자체가 계속 진화하고 있기 때문에 최신 버전에 대한 정보도 꾸준히 업데이트할 필요가 있어요. 예를 들어 오늘 그록3가 낮은 점수를 받았지만, 그록4가 무료로 공개되면 어떻게 바뀔지는 누구도 장담할 수 없잖아요. 새로운 기능과 성능 향상이 이어질 가능성은 항상 열려 있습니다.
맺음말
인공지능은 빠르게 진화하고 있지만, 우리는 그 속도를 쫓기보다는 제대로 활용하고 익숙해지는 것이 중요하다고 생각해요. 이번 워싱턴포스트의 AI 검색 도구 테스트는 단순한 결과 발표 이상의 의미를 갖고 있어요. AI의 현재 수준, 각 도구의 강점과 한계, 그리고 앞으로의 검색 환경 변화까지 통찰할 수 있는 계기였어요.
앞으로도 다양한 AI 검색 도구들을 꾸준히 활용해보면서, 그리고 변화에 적응해 나가면서, 우리는 AI 시대의 더 나은 정보 소비자이자 생산자가 될 수 있을 거에요.
지금 이 순간에도 AI는 계속 학습하고 있어요. 우리가 어떤 질문을 던지는지, 어떤 정보를 원하는지를 더욱 정밀하게 파악하고 있는 중이에요. 그러니, 올바른 질문과 목적의식을 가지고 다양한 AI 검색 도구를 활용해보는 것이 가장 좋은 사용법이 아닐까요? 여러분도 한번 직접 실험해보세요. 생각보다 더 흥미로운 답을 얻게 되실지도 몰라요.


