AI 에이전트, 구글 제미나이, 프롬프트 엔지니어링, Human-in-the-loop, AI 활용법, 자동화, 생산성
"AI가 알아서 다 해준다"는 말, 저도 처음엔 솔깃했습니다. PDF 50페이지를 1분 안에 요약하고, 여행 예약까지 끝낸다는 시연 영상을 보면 모든 게 해결될 것 같은 기분이 들죠. 그런데 막상 실제로 써보면 얘기가 달라집니다. 편리함과 위험성이 예상보다 훨씬 가까이 붙어 있다는 걸, 직접 경험하고 나서야 알게 됐습니다.
프롬프트 설계, 배울 만한 가치가 있는가
구글 제미나이(Google Gemini)를 활용한 문서 요약 방법론 중에 SSOT 분석이라는 개념이 나옵니다. 여기서 SSOT란 Single Source of Truth의 약자로, 하나의 문서를 유일한 정보 원천으로 삼아 모든 분석의 기준점을 잡는 방식을 의미합니다. 단순히 내용을 요약하는 것과 달리, 문서 안의 데이터 간 관계와 맥락을 구조적으로 파악하는 데 초점을 맞춥니다.
이 과정에서 핵심이 되는 것이 프롬프트 엔지니어링(Prompt Engineering)입니다. 프롬프트 엔지니어링이란 AI에게 원하는 결과를 끌어내기 위해 질문이나 명령문을 정교하게 설계하는 기술입니다. 일반적으로 "AI는 알아서 이해한다"고 생각하는 분들도 있는데, 제 경험상 이건 좀 다릅니다. 역할, 목표, 대상 독자, 출력 형식을 명확하게 지정해 주지 않으면 결과물의 품질이 크게 떨어집니다. 같은 PDF를 올려도 "요약해줘"와 "바쁜 임원에게 보고할 수 있도록 글머리 기호 형태로 5개 이내로 핵심만 정리해줘"는 결과가 완전히 다릅니다.
제가 직접 써봤는데, 출력 형식까지 구체적으로 지정했을 때 각 내용의 출처 페이지까지 명시해주는 기능이 특히 유용했습니다. 팩트 체크가 쉬워지고, 회의에서 근거를 즉시 확인할 수 있다는 점이 실질적인 장점이었습니다. 그런데 동시에 이런 기술을 익히는 데 시간과 노력을 쏟는 것이 장기적으로 얼마나 의미 있는지에 대한 의문도 생겼습니다.
AI 에이전트의 시대가 본격화되면 프롬프트를 정교하게 짜는 능력 자체가 필요 없어질 수 있습니다. 목표만 던지면 AI가 실행 경로를 스스로 설계한다는 방향으로 기술이 움직이고 있기 때문입니다. 배우는 도중에 그 기술이 쓸모없어지는 상황, 저는 이게 마냥 웃어넘길 수 없는 아이러니라고 생각합니다.
신뢰외주화가 만드는 보이지 않는 리스크
여러 문서를 동시에 업로드하고 공통점, 차이점, 후속 조치까지 뽑아내는 비교 분석 기능은 분명히 강력합니다. AI 윤리 보고서 두 개를 비교했을 때 상반된 주장을 자동으로 정리해준 사례는, 기존에 사람이 수 시간을 투자해야 했던 작업을 수분 내로 처리한다는 점에서 생산성 향상 효과가 분명합니다.
그런데 솔직히 이건 예상 밖이었습니다. AI가 보고서의 요지를 요약하는 수준을 넘어, 두 문서 간의 논리적 긴장 관계까지 짚어내는 모습을 보면서 기대보다 놀라움이 먼저 왔습니다. 하지만 바로 그 순간 불편한 질문이 따라왔습니다. 이 결과물을 검증하지 않고 그대로 의사결정에 반영한다면 어떻게 될까?
여기서 핵심 문제가 드러납니다. AI 에이전트가 단순 분석을 넘어 실제 행동, 즉 결제, 예약, 메일 발송까지 실행하는 단계로 넘어가면 이야기가 달라집니다. 이것이 바로 신뢰외주화의 문제입니다. 신뢰외주화란 인간이 내려야 할 판단과 책임을 AI 시스템에 위임하는 현상으로, 편리함을 얻는 대신 의사결정의 주도권을 점진적으로 넘겨주는 구조입니다.
제 경험상 이건 좀 다릅니다. 챗봇 단계에서도 할루시네이션(Hallucination) 문제가 있었습니다. 할루시네이션이란 AI가 사실이 아닌 정보를 마치 사실인 것처럼 자신 있게 출력하는 현상을 말합니다. 이 문제가 완전히 해결되지 않은 상황에서, AI에게 계정 권한을 줘서 실제 거래를 실행하게 한다는 발상은 저에게 효율이 아니라 리스크 증폭으로 읽힙니다.
업무에서 발생하는 문제들은 단순히 A에서 B로 가는 최단 경로의 문제가 아닙니다. 상사의 성향, 조직의 암묵적 문화, 거래처와의 관계 같은 비정형 맥락이 결과를 결정하는 경우가 훨씬 많습니다. AI가 이 맥락을 오독했을 때 발생하는 실수는, 결국 그 책임을 진 사람이 고스란히 감당해야 합니다.
맥킨지 글로벌 인스티튜트의 자동화 관련 보고서에 따르면, 자동화가 가장 더디게 진행되는 영역은 기술적 난이도가 아니라 인간의 판단과 사회적 상호작용이 요구되는 업무라고 분석합니다([출처: McKinsey Global Institute](https://www.mckinsey.com/mgi)). 기술 시연 영상에서는 잘 보이지 않는 부분입니다.
다음은 AI 에이전트 도입 전에 반드시 스스로 점검해야 할 항목들입니다.
- 이 작업에서 오류가 발생했을 때, 내가 직접 수습할 수 있는가?
- AI의 판단 근거를 사후에 검토하고 검증할 수 있는 구조인가?
- 결과에 대한 최종 책임 소재가 명확하게 정의되어 있는가?
- 이 작업이 조직 문화나 인간관계에 영향을 미칠 가능성이 있는가?
Human-in-the-loop, 선택이 아닌 조건
일반적으로 AI 자동화를 도입하면 생산성이 극적으로 향상된다고 알려져 있지만, 실제로 써보니 그 효과는 작업의 성격에 따라 편차가 큽니다. 정형화된 문서 처리나 데이터 정리에서는 분명한 효율이 나오지만, 판단이 개입되는 업무일수록 AI의 출력이 오히려 추가 검증 부담으로 돌아오는 경우가 있었습니다.
이 지점에서 제가 가장 신뢰하는 개념이 Human-in-the-loop(HITL)입니다. Human-in-the-loop란 AI가 작업을 수행하는 모든 주요 단계에 인간의 검토와 승인이 의무적으로 포함되도록 설계하는 시스템 구조를 의미합니다. AI가 초안을 만들고, 사람이 검토하고 승인한 뒤, 그 다음 단계로 넘어가는 방식입니다.
이것이 번거롭게 느껴질 수 있다는 걸 압니다. 하지만 저는 이 방식이 현재 기술 수준에서 가장 현실적인 안전망이라고 생각합니다. OECD의 AI 원칙에서도 AI 시스템은 인간의 감독과 개입이 가능한 구조로 설계되어야 한다고 명시하고 있습니다([출처: OECD AI Policy Observatory](https://oecd.ai)). 편의성을 극대화하려다 통제 가능성을 포기하는 것은, 나중에 훨씬 큰 비용을 치르는 선택이 될 수 있습니다.
결국 도구 활용 능력보다 더 중요한 것은, 어디까지 맡기고 어디서 직접 개입할 것인지에 대한 기준을 스스로 갖고 있는가입니다.
AI가 점점 더 많은 것을 할 수 있게 되는 시대일수록, 저는 'AI에게 무엇을 맡길까'보다 '무엇은 절대 맡기지 않을까'를 먼저 정해두는 것이 더 중요하다고 봅니다. 구글 제미나이든 어떤 도구든 일단 직접 써보되, 그 결과를 검증하는 습관을 놓지 않는 것이 지금 시점에서 제가 찾은 가장 실용적인 균형입니다. 도구의 성능이 아무리 좋아도, 판단의 자리는 비워두지 않는 것이 맞습니다.