AI 도구의 필드는 다시 저어주었습니다! Google AI Studio는 오늘 주요 업데이트를 발표했으며 최신 기능은 X 플랫폼에서 열렬한 토론을 빠르게 촉발 시켰습니다. Google AI Studio는 이제 YouTube 비디오 링크를 직접 처리 할 수 있으며 다운로드하거나 업로드하지 않고도 비디오 컨텐츠를 즉시 이해할 수 있다는 사실에 놀랐습니다! 더욱 충격적인 것은 gemini2.0flash 실험 모델 (gemini2.0flash exp for short)이 자연 이미지로 생성 된 마법 기술을 조용히 잠금 해제하고 여러 이미지에서 문자의 일관성을 유지할 수 있다는 것입니다! "공식 개인 결과"에 대한이 업데이트는 업계 내부자에 의한 "차원 감소 파업"으로 간주되며, 이는 "껍질에 밀폐 된"기술에 의존하는 많은 AI 기기가 "종말"에 직면 할 수 있음을 나타냅니다.
"Google AI Studio는 이제 비디오 컨텐츠를 이해하기 위해 YouTube 링크를 직접 붙여 넣을 수 있으며 다양한 '쉘'가제트 배치가 떨어지려고합니다." 그는이 새로운 기능이 단순히 "차원 감소 블로우"라는 점을 크게 지적했다. 사용자는 더 이상 비디오를 다운로드하여 업로드 할 필요가 없습니다. 링크 만 던져 질문을하거나 요약 할 수 있으며 효율성은 하나 이상의 순수로 향상되었습니다. 더 놀라운 점은 Gemini2.0flash Exp로 "하드 뼈"와 같은 자막이없는 비디오조차도 쉽게 얻을 수 있으며 컨텐츠를 신속하게 구문 분석하는 것은 단순히 "마술 무기"라는 것입니다. 사용자 Jesselaunz는 자막없이 중국 비디오를 개인적으로 테스트했습니다. 결과적으로 Gemini2.0flash Exp는 비디오 컨텐츠를 "완벽하게 요약"했으며 그 효과는 다른 큰 모델을 훨씬 뛰어 넘었습니다. "독점 기술"이라고 불릴 수 있으며 다른 AI를 도달 할 수 없습니다.
비디오 이해가 단지 "전채"라면 이미지 생성에서 Gemini2.0flash Exp의 진화를 "핵 폭탄 수준"폭탄이라고 할 수 있습니다. X 사용자 Dotey는 플랫폼에서 충격적인 화면 녹화를 공유했습니다. 그녀는 키워드 "Tortoise and Hare to Race"를 키워드로 사용하고 한 번에 8 장 장면 사진을 생성했으며 결과는 훌륭했습니다! 생성 된 사진은 자연스럽고 매끄럽다는 것뿐만 아니라 더 놀라운 것은 그림의 "거북"과 "토끼"캐릭터가 실제로 8 장의 사진에서 매우 일관된 외관을 유지한다는 것입니다! 더 놀라운 것은 첫 번째 그림은 중국어에 "거북이와 토끼 경주"라는 네 가지 큰 캐릭터를 가지고 있다는 것입니다. 조심스럽게 관찰 할 때 스트로크가 약간 결함이 있지만,이 능력은 여전히 놀랍습니다. Dotey는 흥분하게 한숨을 쉬었다. "이 속도는 너무 빠르며, 다양한 '쉘 세트'도구의 타격 일뿐입니다!"
X 플랫폼에 대한 논의는 계속 증가하고 있습니다. Gemini2.0flash Exp가 보여주는 강력한 강점은 멀티 모드 처리 기능뿐만 아니라 놀라운 생성 속도와 특별한 안정성에도 반영됩니다. 사용자 python_xxt는 1 시간 이상 자막없이 비디오 링크를 테스트했습니다. gemini2.0flash exp는 실제로 "회의 컨텐츠 및 심층 분석을 직접 출력 할 수 있으며, 효과는 단순히"마술 "인 시장의 모든 요약 도구에 적합합니다. 이 기능의 구현은 의심 할 여지없이 Gemini2.0flash Exp의 비디오 컨텐츠에 대한 깊은 이해로 인한 것입니다. 자막의 "축복"이 없어도 비디오에서 주요 정보를 정확하게 추출하여 기술적 강점을 보여줍니다.
업계 내부자들은 Google AI Studio의 업데이트가 개발 전략의 주요 변화를 나타내며 간단한 기본 모델 플랫폼에서 응용 프로그램 수준 도구로 진화를 가속화한다고 예리하게 포착했습니다. X 사용자 Gantrols는 gemini2.0flash Exp의 이미지 생성 기능이 중국 프롬프트 단어와 대화 수정을 완벽하게 지원할 수 있으며, 이는 의심 할 여지없이 사용자의 사용 임계 값을 크게 줄일 수 있다고 지적했습니다. 그는 또한 Operation Guide, "AI Studio로 이동하여 모델을 선택하십시오"라는 운영 안내서를 신중하게 첨부했으며,이 라인은 Google이 개발자의 친근감에 큰 중요성을 나타냅니다.
물론 새로운 기능은 흥미 진진하지만 일부 사용자는 남은 "결함"을 지적했습니다. 예를 들어, Dotey는 Gemini2.0flash Exp에 의해 생성 된 중국어 텍스트에 여전히 약간의 뇌졸중 문제가 있음을 관찰했습니다. 사용자 LessNoise365는 또한 유사한 기능이 실제로 픽셀 전화의 쌍둥이 자리에 내장되어 있다고 언급했습니다. AI 스튜디오의 자유 이점이 뛰어나지 만 사용 편의성 측면에서 추가 최적화의 여지가있을 수 있습니다. 그러나 결함은 장점을 숨기지 않습니다. X 플랫폼의 사용자는 일반적 으로이 업데이트가 기존 AI 도구 생태계, 특히 간단한 포장에 의존하는 "쉘 캡슐화 된"응용 프로그램에 중대한 영향을 미칠 것이라고 생각합니다.
Google은 공식적으로 Gemini2.0flash Exp의 포괄적 인 기술적 세부 사항을 공개하지 않았지만 놀라운 멀티 모달 기능과 효율성은 전체 업계에서 강력한 기대를 불러 일으켰습니다. AI Studio의 지속적인 반복 및 업그레이드로 Google이 대규모 생태 자원을 더욱 통합하고 더 많은 파괴적인 AI 기능을 시작하는지 2025 년 AI 필드에서 가장 중요한 하이라이트가 될 수 있는지 여부.
API 주소 :
https://ai.google.dev/gemini-api/docs/vision?lang=python&hl=zh-cn#youtube