Kevin Indig 글을 번역 하였습니다.
지난주에는 서로 관련된 세 가지 일이 있었습니다:
1. Tom’s Hardware의 편집장 Avram Piltch는 SGE(Search Generative Experience 생성형 검색 경험)가 “50메가톤 폭탄”이며 현재 형태로 출시될 경우 웹 생태계를 파괴할 것이라는 내용의 사설을 발표했습니다.
2. The Verge는 SEO가 어떻게 웹에 쓰레기 텍스트를 넘쳐나게 했는지에 대한 기사를 게재했습니다.
3. 플랫폼 변화에 항의하기 위해 8,000개의 서브레딧이 폐쇄되었습니다. [링크]
세 가지 글은 모두 같은 문제, 즉 누구나 AI를 사용하여 콘텐츠를 만들 수 있을 때의 콘텐츠의 가치에 대해 다루고 있기 때문에 모두 읽어보시기를 적극 추천합니다.
이 세 가지 일이 동시에 일어나고 있는 것은 우연이 아닙니다. 웹은 AI로 인한 엄청난 혼란에 직면해 있습니다. 누구나 AI로 콘텐츠를 제작할 수 있는 세상에서 가장 큰 문제는 무엇이 여전히 콘텐츠를 가치 있게 만드는가 하는 것입니다.
시간이 부족하다면 마지막에 있는 ‘통합하기‘ 섹션으로 스크롤하세요. 각 기사에 대한 제 생각을 달아 놓았습니다.
SGE(Search Generative Experience 생성형 검색 경험)은 아직 사용할 수준이 아닙니다.
Tom’s Hardware의 편집장 Avram Piltch는 SGE의 잠재적 영향에 대해 몇 가지 좋은 점(그리고 몇 가지 좋지 않은 점)을 지적합니다(본문에서는 강조하지 않는 애)
구글이 SGE(Search Generative Experience 생성형 검색 경험) 환경을 베타 버전으로 출시하여 기본값으로 설정한다면 무료 개방형 웹에 50메가톤의 폭탄을 터뜨리는 것과 같습니다. 방문의 대부분을 구글 추천에 의존하는 많은 퍼블리셔는 몇 달 안에 사업을 접을 것입니다. 다른 퍼블리셔들은 리소스를 줄이고 페이월 뒤로 물러날 것입니다. 제품과 서비스를 판매하기 위해 자연 검색 게재에 의존하는 소규모 비즈니스는 광고 비용을 지불하거나, 광고 비용을 감당할 수 없다면 문을 닫아야 할 것입니다.
다음 글에서 다시 다룰 것이므로 마지막 문장을 기억해 두세요.
SGE(Search Generative Experience 생성형 검색 경험)가 웹 생태계에 미치는 영향이 파괴적일 수 있다는 데 동의합니다. 기업들은 처음으로 웹사이트를 구글과 연관 짓지 않고 생각할 수 있게 되었습니다. 구글이 웹사이트에 트래픽을 몰아주지 않고 웹사이트의 컨텐츠를 사용해서 직접 답변을 주는 상황에서 기업들이 웹사이트를 구글에 굳이 노출을 시켜야 할까요?
핵심적인 문제는 웹 사이트가 더 이상 SGE(Search Generative Experience 생성형 검색 경험)의 중심에 있지 않다는 것입니다.
구글이 말하는 “웹사이트를 전면에 배치”의 의미는 항상 그런 것은 아니지만 거의 대부분 SGE(Search Generative Experience 생성형 검색 경험) 답변의 오른쪽에 표시하는 3개의 관련 링크 썸네일 블록을 의미합니다. 퍼블리셔에게는 이것은 보여주기식 결과이며, 이러한 썸네일 블록은 최고의 정보는 아닙니다(상위 오가닉 결과와 일치하지 않음). SGE(Search Generative Experience 생성형 검색 경험) 텍스트에서 ‘답변’을 얻은 후 이를 클릭하는 사람은 거의 없습니다.
SGE(Search Generative Experience 생성형 검색 경험) 결과 페이지에 있는 슬라이드에 링크된 사이트의 품질이 좋지 않습니다. 이 부분은 구글이 더 신경써야 하는 부분 입니다.
일부 정보는 사실과 다르며 의료, 법률 또는 금융 관련 문의는 매우 조심스럽게 접근해야 합니다.
파란색 텍스트를 강조 표시한 이유는 위험할 정도로 잘못된 정보이기 때문입니다. 구글의 봇은 “미국암협회는 남녀 모두 50세부터 대장암 검진을 받을 것을 권장합니다.”라고 말합니다. 그러나 미국 암 협회의 자체 웹사이트에서는 45세부터 검진을 시작해야 한다고 명시하고 있고 이 잘못된 ‘사실’은 다른 곳에서 나온 것일 수 있습니다.
면허 없이 의학적 조언을 제공하는 것은 불법이지만 구글은 SGE(Search Generative Experience 생성형 검색 경험)를 통해서 분명히 의학적 조언을 제공하고 있습니다. 구글은 최종 출시에서는 엄격하게 규제되는 YMYL 주제는 피할 것으로 예상합니다.
또 다른 예로, 필치가 예시로 든 구글의 SGE(Search Generative Experience 생성형 검색 경험)은 좋지 않은 경험은 “최고의 GPU”를 검색했을 때 잘못된 정보와 관련 없는 정보가 섞여 나오는 것이었습니다.
필자가 계속해서 “최고의 GPU”를 검색했을 때 “Tom’s Hardware”가 기가바이트 RTX 4090 리뷰와 함께 두 번째 슬라이드에 위치하는 것을 알 수 있었으며 이는 필치가 비판한 신뢰도 낮은 결과물이라고 볼 수 있습니다.
잘못된 결과 선택은 SGE의 작동 방식에 따라 잘못된 AI 답변으로 이어집니다. 왜 그런 일이 발생하는지 아직 잘 모르겠습니다. 기본적으로 구글은 AI 답변에 대해 고품질의 결과를 선택해야 하지만 실제로는 그렇지 않습니다.
Bing 채팅에서 “최고의 GPU”를 검색했을 때 Tom’s Hardware에 대한 좋은 레퍼런스와 함께 훨씬 더 나은 답변을 얻을 수 있었습니다. 요점이 명확하고 실제 GPU를 나열하고 답변에 웹사이트에 대한 레퍼런스가 포함되어 있습니다.
또한 SGE(Search Generative Experience 생성형 검색 경험)는 검증된 결과, 즉 웹사이트의 단어 하나하나에 대한 답변을 그대로 반환하는 경향이 있습니다:
더 심각한 문제는 구글의 SGE(Search Generative Experience 생성형 검색 경험) 상자에 표시되는 답변이 관련 링크에서 단어 하나하나를 표절하는 경우가 많다는 점입니다. 검색하는 내용에 따라 한 출처에서 가져온 단락을 찾을 수도 있고, 여러 기사의 문장과 사실을 한데 섞어 표절 덩어리를 만들 수도 있습니다.
이것은 까다로운 문제입니다. 표절은 어디에서 시작되고 어디에서 끝날까요? 예를 들어 meta description과 추천 스니펫도 웹사이트에서 단어 하나하나를 복사한 것입니다. 하지만 링크가 바로 위나 아래에 있기 때문에 어느 사이트에서 가져온 것인지는 분명합니다.
그리고 이것은 현재 SGE 베타가 가지고 있는 가장 큰 문제 중 하나인 검증된 결과만으로는 인용에 충분하지 않다는 점과 관련이 있습니다. 구글은 Neeva, You, Bing 또는 Bard가 하는 것처럼 답변에 인용문을 바로 넣는 방식을 수용해야 합니다. 그런데 Bard는 여전히 인용을 포함하지 않습니다.
SGE의 부가가치는 어디에 있을까요? 사용자가 웹사이트에서 얻을 수 없는 AI의 답변은 무엇을 제공하나요?
구글은 사이트에서 콘텐츠를 가져와 사용자에게 보여주는 대신, 추천 스니펫에서 이미 하고 있는 것처럼 사용자가 찾고 있는 내용에 대한 답변이 있는 페이지의 적절한 구절로 사용자를 보낼 수 있습니다.
제 생각에는 구글은 여러 사이트의 정보를 혼합하여 하나의 최상의 답변을 제공하고자 하는 것 같습니다. 그러나 한 사이트에서 이미 모든 정보를 제공하는 경우 유일한 부가가치는 사용자의 클릭을 절약하는 것 뿐이며, 이는 게시자의 광고 수익을 크게 줄일 수 있습니다. 구글은 ChatGPT와 새로운 Bing에 위협을 느끼고 직접 답변을 제공하는 것 외에는 다른 방법이 없다고 생각할 가능성이 훨씬 더 높습니다.
또한 필치는 LLM이 실제로 얼마나 좋은지, 그리고 권위을 정의하는 것이 얼마나 어려운지에 대해 잘못된 가정을 하고 있습니다.
LLM이 아무리 발전해도 사실이나 조언의 주요 출처가 될 수 없으며 사람들이 한 일을 재가공할 수 있을 뿐입니다.
이는 LLM과 생성형 AI에 대한 일반적인 오해입니다. LLM은 기본적으로 인간이 이미 작성한 내용을 역류시켜 다른 방식으로 재생할 뿐이라는 주장입니다. 하지만 만약 그렇다면 LLM은 왜 환각을 일으킬까요? LLM은 인간과 비슷한 방식으로 정보를 학습하고 재생합니다. 우리는 그 지식을 배우고, 연결하고, 적용합니다.
필치의 말이 옳다면, 제너레이티브 AI는 아직 자동차를 직접 시운전하거나 컴퓨터에 GPU를 설치하여 벤치마킹할 수 없다는 것입니다. 하지만 제너레이티브 AI가 주식 시장의 동향을 보고하거나 데이터를 해석하거나 인간 행동의 패턴을 인식하는 데는 훨씬 더 뛰어날 수 있다는 것은 확실합니다.
CPU 전문 웹사이트에서 15년 동안 CPU를 리뷰해 온 사람이 해당 주제에 대해 아무런 권위 없는 사람보다 AMD Ryzen 리뷰 순위가 더 높아야 하는 것은 당연한 일입니다.
이것은 바로 문제의 핵심 입니다. 권위란 무엇인가요? 특정 업의 경력을 의미할까요? 사실은 철저하게 리뷰하는 것, 주장의 질이 중요하지 않을까? 연륜이 중요할 수 있다는 것은 이해하지만, 그것이 모든 것이 되어야 할까요?
필치의 주장은 권위라는 개념을 측정하는 것이 얼마나 어려운지를 보여줍니다.
하지만 그가 글의 초반에 언급한 한 문장은 웹에서 검색과 콘텐츠의 시대정신을 잘 포착하고 있습니다.
예를 들어 ‘최고의 자전거’를 검색했을 때 쇼핑 링크와 함께 웹사이트 링크가 보여지기도 전에 너무 심한 광고가 노출되기 시작합니다.
필치는 구글 광고에 대해 불평하지만 Tom’s Hardware도 똑같습니다. 광고가 너무 많아서 스마트폰으로 기사를 읽을 수조차 없었습니다. 의심스러운 기사에 대한 온갖 종류의 링크가 포함된 거대한 광고 오버레이가 제 화면에 나타나서 끝까지 읽기도 전에 페이지가 다운되었습니다.
노트북으로 기사를 읽을 때 브라우저 알림을 활성화할지 묻는 메시지가 표시되었고, 바로 이메일 뉴스레터에 가입할지 묻는 커다란 팝업창이 떴습니다. 그냥 콘텐츠를 읽도록 내버려 두면 안될까요?
Tom’s Hardware만 그런게 아닙니다. 퍼블리셔는 성장하기 위해 시간이 지남에 따라 더 많은 광고를 게재해야 한다는 구글과 같은 문제를 공유합니다. 그 결과 사용자 경험이 저하됩니다.
하지만 퍼블리셔 측면에서는 뉴욕 타임즈나 월스트리트 저널과 같은 몇몇 대형 퍼블리셔만이 이 문제를 해결할 수 있습니다. 퍼블리셔의 롱테일은 콘텐츠에 대한 과금에 어려움을 겪고 있습니다. 기자들은 섭스택으로 몰리기 시작했는데, 독자에게 직접 요금을 청구할 수 있는 상황에서 굳이 신문에 글을 기고할 유인책이 떨어집니다.
Neeva는 검색자에게 구독 요금을 부과하려고 시도했지만 서비스를 중단했습니다. 사용자는 구글에서 검색하는 데 습관화되어 있고 애플과 같이 구글은 크롬, 지메일, 유튜브를 소유하고 있어 유통 측면에서 경쟁우위가 있습니다.
구글은 저품질 AI 콘텐츠의 홍수에 맞서 무엇을 할 수 있을까요?
미아 사토는 더버지에 구글 트래픽의 혜택을 받지만 이를 최적화해야 하는 기업에 대한 기사를 게재했습니다(SEO에 대한 일차원적인 접근 방식에 대해서는 언급하지 않기로 했습니다).
많은 중소기업 및 대기업이 광고를 통해 수익을 내지 못하기 때문에 SEO 트래픽에 의존하고 있습니다(본문에서는 강조하지 않은 부분).
검색은 그 어느 때보다 Get Bullish에게 필수적인 요소입니다. 페이스북은 Get Bullish 수익의 상당 부분을 차지했지만, 2021년 Apple이 ‘앱에 추적하지 않도록 요청’ 옵션을 도입한 이후 소셜 미디어 플랫폼의 광고는 더 이상 수익성이 없습니다. Dziura(Get Bullish의 소유자)는 여전히 페이스북 광고를 집행하고 있지만, 기껏해야 손익분기점을 넘기는 수준이라고 말합니다. Get Bullish 앱은 쇼퍼도 사용할 수 있지만, 구글 검색은 이들 비즈니스에 필수적입니다.
필치가 이전 글에서 언급한 것처럼 SGE로 인해 검색 트래픽이 사라지면 대안이 없기 때문에 실제로 웹에 심각한 결과를 초래할 수 있습니다. 사이트 소유자가 사이트를 최적화하는 이유는 그것이 효과가 있기 때문입니다.
Dziura의 DIY SEO 작업이 어느 정도 효과를 거두고 있습니다. 구글에서 ‘페미니스트 선물’을 검색하면 결과의 첫 페이지 아마존, SEO 미끼 글인 코스모폴과 Town & Country Magazine 아래 중간 쯤 그리고 작은 경쟁사 위에 Get Bullish가 노출 됩니다. ‘재미있는 키타월’, ‘부적절한 양말’과 같은 품목 카테고리를 검색하는 사람들은 이름만 보고 Get Bullish에 방문합니다.
사이트 최적화의 큰 부분은 콘텐츠를 중심으로 이루어집니다. 하지만 누구나 AI 툴로 좋은 콘텐츠를 만들 수 있다면 어떤 일이 벌어질까요?
온라인으로 쇼핑을 하는 사람들은 그걸 AI가 만들었다는 사실을 모른 체 컴퓨터가 생성한 텍스트와 이미지를 점점 더 많이 접하게 될 것입니다.
이것이 바로 앞으로 일어날 일이며 이미 일어나기 시작한 일입니다. 결과적으로 구글은 좋은 콘텐츠를 보유한 사이트가 너무 많기 때문에 검색 결과 순위를 매기는 데 어려움을 겪을 것입니다. 서로가 서로를 뛰어넘기 위해 노력할 것입니다. 항상 그런식이었죠.
검색에 있어 Reddit과 인간 답변의 가치
API 가격 인상과 촉박한 마감일에 항의하기 위해 8,000개의 서브레딧이 종료되었습니다. 이는 구글 검색에서도 눈에 띄게 나타났습니다.
8,000개가 넘는 서브레딧이 Reddit의 향후 API 변경에 항의하기 위해 폐쇄되었으며, 이는 내가 구글 검색 결과에서 유용하고 “인간적인” 정보를 찾기 위해 Reddit에 얼마나 의존하고 있는지 보여 주었습니다.
사람들이 구글에서 검색할 때 Reddit에서 답변을 찾는 것은 잘 알려진 트렌드입니다. 많은 사용자가 검색어에 ‘reddit’을 추가하기 때문에 규굴은 특정 검색어에 대한 Reddit 답변을 검색 결과에 바로 포함시킵니다.
요즘 구글의 검색 결과가 전반적으로 좋지 않기 때문에 저는 거의 모든 것을 검색할 때 ‘reddit’을 추가하는 것이 기본 검색 방식이 된 지 오래되었습니다(아직 AI 챗봇으로부터 정보를 얻을 준비가 되어 있지는 않습니다). 하지만 가장 많이 구독하는 서브레딧을 포함하여 현재 사용할 수 없는 서브레딧의 양이 너무 많아서 검색 결과에서 많은 Reddit 링크를 클릭하면 해당 서브레딧이 비공개라는 메시지가 표시됩니다.
그리고 저처럼 Reddit 트릭을 사용하지 않더라도 Reddit 링크가 검색 결과 상단에 표시되는 경우가 많기 때문에 플랫폼을 자주 사용하지 않는 사람들도 이 사이트에서 유용한 정보를 발견했을 가능성이 높습니다.
그 이유는 구글 검색이 지나치게 상업화되었을 뿐만 아니라 검색 결과가 사람이 아닌 알고리즘에 의해 정렬되기 때문입니다. Reddit에는 가치 있는 콘텐츠를 노출하고 토론하는 잘 관리된 하위 포럼(서브레딧)이 있습니다. Reddit은 구글의 정량적 결과에 대응하는 정성적 결과입니다.
커뮤니티에서 발생되고 검증되는 것은 SGE나 ChatGPT가 애시당초 제공할 수 없는 기능입니다.
물론 구글은 이러한 요구 사항에 대한 답변을 제공할 수 있습니다. 다른 사이트에도 Tears of the Kingdom에 대한 훌륭한 공략집이 있습니다. 구글은 “my pocket door problem“에 대한 유용한 유투브 동영상을 몇 개 보여줬습니다. 그리고 “최고의 새 음악”을 검색하면 많은 목록을 볼 수 있습니다.
하지만 그 중 어느 것도 Reddit 만큼 유용한 대화나 커뮤니티적 요소는 없었습니다. 저는 게시물 아래의 댓글을 훑어보며 다른 사람의 추천, 관점, 관련 리소스에 대한 기타 링크를 확인하고 다른 사람들이 스레드에 추가한 항목의 장점에 대해 토론하는 것을 좋아합니다.
현재 모든 플랫폼이 투자하고 있는 사용자 인증과 함께 UGC(User Generated Content) 플랫폼은 웹사이트 콘텐츠에 더 의존하는 구글 검색에 비해 우위를 점하고 있습니다.
정리하자면…
Reddit이 공격적으로 API 가격을 인상한 이유는 바로 AI입니다. 웹의 OG 포럼이었던 Reddit은 가치 있는 콘텐츠의 보고를 수익화할 수 없었습니다. 하지만 이제 대부분의 대형 LLM은 Reddit의 콘텐츠를 사용하여 모델을 훈련하고 있으며, Reddit은 그 가치의 일부를 확보하고자 합니다.
지난 몇 년 동안, 그리고 제로 금리 경제에서 벗어나고 있는 지금, 트위터와 많은 대형 퍼블리셔를 비롯해 많은 기업들이 좋은 콘텐츠를 보유하고 있지만 이를 수익화하는 데 어려움을 겪는 문제에 직면하고 있습니다. 게다가 이들의 데이터는 학습자 학습자(LLM)를 양성하는 데 사용됩니다.
제가 “AI 저작권은 새로운 마케팅 기회로 이어질 수 있습니다라”는 아클에서 썼듯이:
GPT-3가 학습한 45테라바이트의 텍스트 중 60%는 Common Crawl*에서, 22%는 WebText 2(Reddit의 발신 링크를 학습한 것)에서, 8%는 책에서, 3%는 Wikipedia에서 가져온 것입니다. 즉, GPT-3 및 기타 생성형 AI에 대한 입력의 대부분은 오픈 웹에서 제공됩니다.
이제 Google이 콘텐츠를 그대로 사용할 수 있게 되면서 대형 플랫폼과 퍼블리셔는 비즈니스 모델이 위협을 받지 않게 되었습니다.
콘텐츠 비즈니스 모델은 점점 더 수익 창출이 어려워지고 있습니다. 시간이 지남에 따라 수익을 늘리기가 점점 더 어려워지고 있기 때문에 Tom’s Hardware와 대부분의 다른 퍼블리셔는 요즘 광고로 가득 차 있습니다. 뉴욕 타임즈나 월스트리트 저널과 같은 몇몇 대형 퍼블리셔만이 소비자에게 직접 요금을 청구하고 있습니다.
현재 구글은 광고 또는 (구글에서 검색하는) 습관을 통해 대부분의 가치를 창출하고 있습니다. 2022년 9월에는 특정 검색어에 대한 Reddit(및 기타)의 답변을 하이라이트 형식으로 보여주는 ‘토론 및 포럼’이라는 기능도 출시했습니다.
미아 사토가 쓰레기 콘텐츠에 관한 글에서 지적했듯이 중소기업, D2C 회사, 퍼블리셔 등 많은 기업이 SEO 트래픽 없이는 수익을 낼 수 없습니다. 그러나 SGE는 웹 생태계에 큰 영향을 줄 수 없는 구글의 “가치 포착” 수준의 시도일 뿐입니다.
반면에 구글은 좋은 콘텐츠를 만들어 순위 신호로 희석시키는 빙/챗 GPT 및 AI와의 경쟁에 직면해 있습니다. Google이 웹에 트래픽을 계속 보내면서 좋은 AI 답변을 제공하는 방법을 찾지 못하면 비즈니스 모델도 위험에 처할 수 있습니다. 현재 버전을 개선하기 위한 좋은 시작은 참고 문헌을 추가하고 표절을 줄이며 AI 슬라이드형 답변을 개선하는 것입니다.
하지만 오픈 웹에 필요한 것은 a) 데이터를 학습에 사용하지 않도록 선택할 수 있는 방법, b) SGE에서 제외될 수 있는 메타 태그, c) 사이트 소유자가 데이터를 무료로 제공하지 않도록 선택할 수 있도록 데이터 출처에 대한 대형 LLM 개발자의 투명성 강화입니다.