뉴스 | 디지털포커스 - 빠르고 생생한 국내외 디지털 뉴스

디지털포커스

로그인 회원가입

AI

바이두, 인공지능 컴퓨팅 운영 체제 "완원" 출시!

바이두는 4월 16일, 중국 선전에서 개최된 Create 2024 바이두 AI 개발자 컨퍼런스에서 최신 혁신 제품인 인공지능 컴퓨팅 운영 체제 "완원(Wanyuan)"을 출시했다. 이 새로운 시스템은 인공지능 컴퓨팅을 핵심으로 클라우드 컴퓨팅 환경을 크게 변화시킬 것으로 기대된다. 개발자 친화적 인공지능 컴퓨팅 플랫폼 바이두 그룹 부사장 겸 바이두 스마트 클라우드 사업부 총괄 Shen Dou는 "완원" 운영 체제를 소개하며, 인공지능 기반 애플리케이션 개발 경험을 단순화하고 향상시키는 것을 목표로 한다고 밝혔다. "완원"은 클라우드 기반 시스템과 이기종 컴퓨팅 성능의 복잡성을 추상화하고 캡슐화하여 개발자가 컴퓨팅 플랫폼과 상호 작용하는 방식을 혁신할 수 있도록 한다. Shen Dou는 전통적인 클라우드 컴퓨팅 시스템이 여전히 유효하지만 더 이상 중심 무대를 차지하지 않는다고 강조했다. 인공지능 컴퓨팅의 등장으로 인간과 컴퓨터의 상호 작용 방식을 재정의하고 개발자에게 더욱 원활한 개발 경험을 제공할 수 있는 새로운 운영 체제가 필요하다고 말했다. 3단계 구조로 구성된 "완원" 운영 체제 "완원" 운영 체제는 커널, 쉘, 툴킷의 3단계 구조로 구성된다. 커널 수준에서는 바이두의 백게 AI 이기종 컴퓨팅 플랫폼이 대규모 모델 학습 및 추론과 같은 작업에 최적화되었다. 업계 최고 수준의 컴퓨팅 성능 효율성을 자랑하며 인상적인 효율성과 성능을 달성한다. 또한 "완원"은 주요 AI 칩과의 호환성을 지원하여 사용자가 최소한의 비용으로 컴퓨팅 성능을 조정할 수 있도록 한다. 이러한 유연성은 모델 학습 시나리오에서 여러 칩을 활용하는 과제를 해결하며 원활한 성능과 비용 효율성을 보장한다. 운영 체제에는 방대한 양의 세상 지식을 효율적으로 압축하고 자연어 이해 기능을 캡슐화하는 대규모 모델이 통합되어 있다. 이를 통해 사용자는 다양한 비즈니스 시나리오에서 다양한 요구 사항을 충족할 수 있다. 쉘 계층에서는 모델 관리, 스케줄링, 개발을 위한 도구를 제공하여 개발자가 모델 개발의 복잡성으로부터 보호받도록 한다. 워크플로 오케스트레이션 기능은 비즈니스 프로세스를 쉽게 맞춤 설정할 수 있도록 하며 모델 라우팅 서비스는 다양한 작업에 대한 모델 선택을 최적화하여 추론 비용을 최대 30%까지 줄여준다. "완원"은 인공지능 컴퓨팅 운영 체제의 진화에서 중요한 발걸음을 의미한다. 바이두는 개발 프로세스를 단순화하고 성능을 향상시킴으로써 개발자와 기업들이 인공지능 기반 애플리케이션에서 새로운 가능성을 열 수 있도록 지원할 계획이다.
구글 크롬 주소창에 제미나이 채팅 기능 추가

구글은 자사 개발 인공지능(AI) 채팅봇 제미나이를 크롬 주소창 메뉴에 바로 추가하는 기능을 테스트 중이다. 사용자들은 ''@gemini''라고 입력하면 제미나이와 즉시 대화를 시작할 수 있다. 클릭 한 번이면 제미나이와 채팅 IT매체 윈도우 리포트에 따르면 구글 크롬은 주소창에 '제미나이와 채팅하기(Chat with Gemini)' 단축키를 추가할 예정이다. 이 기능은 아직 모든 사용자에게 공개되지 않았지만 단축키를 통해 제미나이를 먼저 사용해 볼 수 있다. 마이크로소프트의 공격적인 전략과 구글의 신중한 접근 구글이 자사 최신 AI 도우미 제미나이를 크롬과 크롬북에 빨리 도입하려는 것은 놀라운 일이 아니다. 사실상 구글은 2월 'AI 쓰기 도움말' 기능을 출시하면서 제미나이를 브라우저에 통합한 바 있다. 마이크로소프트는 엣지 브라우저부터 윈도우 태블릿에 이르기까지 자사 AI 도우미 코파일럿을 적극적으로 홍보하고 있다. 구글은 마이크로소프트의 과격한 전략과 비교해 보면 AI 도구 도입에 보다 신중한 접근을 보여주고 있지만, 검색엔진 대手の 구글이 경쟁사와 보조를 맞추려고 하는 것은 당연하다. 지금 당장 크롬에서 제미나이 사용하는 방법 지금 당장 '@제미나이'라고 입력해 기능이 활성화되는지 확인해볼 수는 있지만, 아직은 클릭이나 선택이 불가능하다. 이 기능은 크롬 개발 버전인 '카나리'의 일부 기능으로, 열성 사용자와 개발자들이 새로운 기능을 테스트하고 피드백을 제공하는 용도로 사용된다. 제미나이 사용해 보고 싶다면? 크롬 카나리를 실행 설치하고, 설치가 완료되면 주소창에 'chrome://flags'라고 입력해 엔터를 누른다. 이 과정을 거치면 '사이트 확장팩 페이지'로 이동하게 되고 여기서 스타터 팩을 활성화할 수 있다. 브라우저를 다시 시작하면 설정이 완료된다! 이제 주소창에서 제미나이와 대화를 할 수 있다. 물론 테스트 버전이기 때문에 완벽하게 작동할지, 그리고 이 기능이 일반 사용자 버전의 브라우저에 적용될지는 아직 확실하지 않다. 하지만 정식 출시된다면 제미나이 이용자들과 챗GPT 대안 탐색 중인 사용자들에게 반가운 소식이 될 것이다.
AI, 영상 제작 영원히 바꿀 것: 어도비 프리미어 프로에 AI 기능 도입

인공지능(AI) 기술은 영상 제작 과정을 완전히 바꿀 것으로 예상된다. 어도비는 프리미어 프로 영상 편집 프로그램에 제네레이티브 AI 기능을 도입한다고 발표했다. 이 기능은 영상 편집 작업의 속도와 효율성을 획기적으로 높일 것으로 기대된다. 프리미어 프로, AI 기반 영상 편집 기능으로 강화 어도비는 텍스트를 이미지로 변환하는 기능으로 시작된 AI 모델 '파이어플라이'를 기반으로 다양한 AI 기능을 개발해 왔다. 이번 프리미어 프로에 도입되는 AI 기능은 다음과 같다. 제네레이티브 익스텐드: 클립의 길이를 늘려 타이밍과 전환 효과를 개선한다. 객체 추가 및 제거: 프레임 내 객체를 선택하여 제거하거나 다른 객체로 교체할 수 있다. 배우의 옷 스타일을 바꾸는 것도 가능하다. 텍스트 to 영상: 텍스트를 입력하여 스토리보드, B-롤 또는 실사 영상을 생성할 수 있다. 이 외에도 사용자는 프리미어 프로 내에서 다양한 제3자 AI 모델을 선택하여 작업할 수 있다. 어도비는 또한 AI로 생성된 콘텐츠를 표시하고 사용된 모델을 명시하는 기능을 제공할 계획이다. 어도비 크리에이티브 제품 그룹 수석 부사장 애쉴리 스틸은 "어도비는 영상 제작 및 제작 과정의 모든 단계를 재구성하여 제작자가 비전을 실현할 수 있는 새로운 힘과 유연성을 제공한다"고 말했다. AI 기능 도입으로 영상 제작 작업의 효율성이 크게 향상될 것으로 예상된다. 특히, 시간이 많이 소요되는 편집 작업을 자동화하고 창의적인 영상 제작을 가능하게 할 것으로 기대된다.
OpenAI, 일본 도쿄에 첫 아시아 사무소 개설

인공지능 연구소 OpenAI는 일본 도쿄에 첫 아시아 사무소를 개설한다고 발표했다. OpenAI는 일본 정부, 기업, 연구기관과 협력하여 일본의 특수한 니즈에 맞는 안전한 인공지능 도구를 개발하고 새로운 기회를 창출하는 데 전념할 것이라고 밝혔다. 맞춤형 GPT-4 모델과 일본 진출 OpenAI는 우선 현지 기업들에게 일본어에 최적화된 맞춤형 GPT-4 모델을 제공할 예정이다. 샘 알트만 OpenAI CEO는 "사람과 기술이 함께 더 많은 것을 이룰 수 있는 풍부한 역사를 가진 일본에 진출하게 되어 기쁩니다. 인공지능은 사람들의 창의성과 생산성을 높여 현재 산업과 아직 상상도 못한 새로운 산업에 폭넓은 가치를 제공할 것"이라고 말했다. 교육부터 산업까지, 일본 전역에 AI 활용 맞춤형 GPT-4 모델은 이미 일본의 기술 친화적인 풍토에서 그 영향력을 입증하고 있다. 대표적인 영어 학습 앱인 스피크(Speak)는 튜터 설명 속도가 2.8배 증가하고 토큰 비용이 47% 감소했다. 이는 사용자에게 보다 역동적이고 쉽게 접근할 수 있는 학습 경험을 제공한다. 보다 광범위한 API 출시를 통해 이러한 이점은 더 많은 기업과 서비스로 확대될 것이며, 일본의 AI 활용 운영에 새로운 기준을 세울 것이다. 맞춤형 GPT-4 모델의 도입은 시작일 뿐이다. 인공지능이 계속 발전함에 따라 농촌 인구 감소 및 노동력 부족과 같은 광범위한 사회 문제 해결의 문을 열어줄 것이다. 정부, 교육, 산업 등 다양한 분야에서의 인공지능 활용은 지속 가능하고 포괄적인 성장의 길을 열어줄 것이다. 채용 기회 제공하며 인류 공동 이익 추구 인공지능의 잠재력과 응용 프로그램에 매료된 사람들을 위해 OpenAI와 함께 일하는 것은 인공 일반 지능(AGI)이 모든 인류에게 이익을 가져다주는 미래를 만드는데 기여할 수 있는 다음 단계가 될 수 있다. OpenAI 보도자료는 다음과 같이 설명한다. "우리의 새로운 현지 사무소는 ChatGPT Enterprise를 사용하여 복잡한 비즈니스 프로세스 자동화, 데이터 분석 지원, 내부 보고 최적화 등을 진행하는 Daikin, Rakuten 및 TOYOTA Connected와 같은 선도 기업들과 더 가까워질 수 있게 해줍니다. 또한 챗GPT는 요코스카시와 같은 지방 정부의 노력을 가속화하는 데 도움을 주고 있으며, 이 도시는 이 기술을 활용하여 일본의 공공 서비스 효율성을 개선하고 있습니다. 지난 1년 동안 요코스카시는 거의 모든 시 직원들에게 챗GPT 접근 권한을 점차적으로 제공했으며, 80%가 생산성 향상을 보고했습니다. 현재 요코스카시는 도쿄도청과 고베시 등 21개 지방 정부와 네트워크를 형성하여 정부에서의 챗GPT 사용 모범 사례를 공유하고 있습니다."
인공지능, 이미지도 이해한다! 일론 머스크가 만든 그록 1.5V 출시

일론 머스크가 설립한 오픈AI 경쟁사 xAI는 이미지 처리 기능을 탑재한 Grok 1.5V를 출시했다. 텍스트 뿐 아니라 이미지까지 처리하는 최첨단 인공지능 모델 출시 Grok-1.5V는 텍스트뿐 아니라 "문서, 다이어그램, 차트, 스크린샷, 사진"까지 처리할 수 있는 최초의 멀티모달 AI 모델이다. xAI는 Grok 1.5V의 활용 가능성을 보여주는 몇 가지 예시를 공개했다. 예를 들어, 흐름도 사진을 보여주면 Grok가 파이썬 코드로 변환해주고, 그림을 기반으로 스토리도 작성해줄 수 있으며, 이해가 안 되는 밈을 설명해주기도 한다. 흐름도를 파이썬 코드로 변환, 그림 기반 스토리 작성, 밈 설명까지! Grok 1.5V는 텍스트 처리 능력이 향상된 Grok-1.5가 출시된 지 불과 몇 주 후에 공개되었다. Grok-1.5는 코딩과 수학 능력이 향상되었으며, 더 긴 맥락을 처리하여 다양한 출처의 데이터를 확인하여 질문을 더 잘 이해할 수 있다. xAI는 초기 테스터와 기존 사용자들이 곧 Grok 1.5V의 기능을 사용할 수 있을 것이라고 발표했지만, 정확한 출시 일정은 밝히지 않았다. 경쟁사 제품보다 뛰어난 성능 입증! RealWorldQA 벤치마크 데이터셋 공개 xAI는 Grok 1.5V 출시와 함께 RealWorldQA라는 벤치마크 데이터셋도 공개했다. RealWorldQA는 700개의 이미지로 구성되어 있으며, 각 이미지에는 쉽게 확인할 수 있는 질문과 답변이 포함되어 있다. 하지만 이러한 질문과 답변은 Grok과 같은 멀티모달 모델에게는 어려움을 줄 수 있다. xAI는 RealWorldQA에서 OpenAI의 GPT-4V와 Google Gemini Pro 1.5 등 경쟁사 제품들과 비교했을 때 자사 기술이 가장 높은 점수를 받았다고 주장했다.
인공지능 작곡가 유디오(Udio), 노래 만들기 쉽게 해준다!

인공지능 음악 제작 도구들이 빠르게 발전하고 있어 누구나 쉽게 노래를 만들 수 있는 시대가 열리고 있다. 최근 주목받는 인공지능 음악 제작 도구 중 하나인 유디오(Udio)는 인상적인 보컬 생성 기술로 경쟁사인 수노(Suno)보다 뛰어나다는 평가를 받고 있다. 하지만 유디오는 처음에는 30초 길이의 짧은 음악만 만들 수 있고, 최대 4분까지 늘릴 수 있다는 한계가 있다. 이 간단한 가이드를 통해 유디오를 사용하여 멋진 노래와 음악을 제작하는 방법을 알아볼 수 있다. 인공지능으로 만든 음악은 더 이상 특이한 사례나 일시적인 유행이 아니라 음악 제작 방식을 바꾸어 가고 있는 빠르게 성장하는 분야이다. 소셜 미디어 피드를 스크롤하다 보면 인간이 작곡했는지 기계가 작곡했는지 알 수 없는 매력적인 멜로디를 만날 수도 있다. 인공지능 작곡가의 발전 속도는 계속해서 높아지고 있어 인공지능이 만든 음악과 사람이 만든 음악을 구분하기가 점점 더 어려워지고 있다. 유디오 사용 방법 유디오는 인공지능을 활용하여 음악 제작 과정을 간소화하도록 설계된 도구다. 사용자는 간단한 설명만 입력하면 유디오는 가사를 생성하고, 음악을 작곡하며, 심지어 여러 목소리로 노래 부르는 것까지 시뮬레이션 할 수 있다. 이 도구는 복잡한 음악 collabo(콜라보, 콜라보레이션)를 자동으로 처리하는 기능으로 기존의 인공지능 음악 제작 도구와 차별화된다. 유디오 시작하기 유디오 웹사이트 방문: 웹사이트를 방문하여 유디오 사용을 시작할 수 있다. 현재 베타 테스트 기간이라 무료로 이용할 수 있지만, 향후 유료 서비스로 전환될 수도 있다. 노래 만들기: 프롬프트 입력: 상단의 설명 입력창을 클릭한다. 여기에 노래에 대한 설명을 입력하면 유디오가 음악 제작을 최적화하기 위해 설명을 보완하려고 한다. 주사위 기능: 무엇을 만들어야 할지 잘 모르겠다면 주사위 기능을 사용하면 노래 제작을 위한 임의의 설명을 생성해준다. 수동 모드: 유디오의 수정 없이 정확하게 입력한 설명대로 사용하고 싶다면 마우스를 옵션 위에 올려놓고 수동 모드를 선택할 수 있다. 커스터마이징 옵션: 가사: 직접 가사를 입력하거나, 유디오가 처음 입력한 설명을 기반으로 자동 생성된 가사를 사용할 수 있다. 인스트루멘탈 트랙: 가사가 없는 인스트루멘탈 트랙을 원한다면 이 옵션을 선택할 수 있다. 제작 과정: 설정을 완료한 후 설명을 제출하면 유디오가 입력 내용을 처리하여 음악 트랙을 생성한다. 서버 사용량이 많을 때는 처리 속도가 느려질 수 있다. 고급 기능 노래 확장: 유디오는 인트로, 아웃로 및 추가 섹션을 추가하여 노래를 늘릴 수 있게 해준다. 이 기능은 더 완성된 음악 조각을 만드는 데 도움이 된다. 상호 작용 및 피드백: 노래가 생성되면 노래를 듣고, 공유하고, 다운로드하거나, 기대에 미치지 못하는 경우 삭제할 수도 있다. 피드백 옵션을 사용하여 문제를 보고할 수도 있다.
챗GPT, GPT-4 업그레이드로 대화 능력 향상

OpenAI는 자사의 대형 언어 모델 (LLM) 챗GPT의 주요 업그레이드를 발표했다. 이번 업그레이드는 'GPT-4 터보'라는 이름으로, 유료 구독 서비스인 챗GPT 플러스, 팀, 엔터프라이즈 이용자들에게 제공된다. OpenAI는 이번 GPT-4 터보 업그레이드를 통해 챗GPT가 기존보다 더 지능적이고 더욱 자연스러운 대화를 할 수 있게 되었다고 밝혔다. 구체적으로는 다음과 같은 세 가지 주요 개선 사항을 강조했다. 더욱 직접적이고 간결한 응답: 과거 챗GPT는 冗長(冗長)한 표현을 사용하는 경향이 있었지만, 이번 업그레이드를 통해 핵심 정보를 전달하는 데 더욱 집중하고 불필요한 부분을 줄이도록 학습되었다. 보다 향상된 논리적 추론: GPT-4 터보는 이전 버전보다 텍스트 데이터를 더 깊이 이해하고 논리적 연관성을 파악하는 데 능력이 향상되었다. 이를 통해 질문에 대한 보다 정확하고 일관성 있는 답변을 제공할 수 있게 된다. 강화된 코드 작성 및 수학적 문제 해결: 챗GPT는 본래부터 텍스트 생성과 번역 능력이 뛰어나지만, 이번 업그레이드를 통해 코드 작성 및 수학적 문제 해결 능력도 향상되었다. 더욱 자연스러운 대화 경험 OpenAI는 이번 업그레이드를 통해 챗GPT가 사용자와의 대화에서 좀 더 유연하고 적절한 어휘 선택을 할 수 있게 되었다고 강조했다. 또한 맥락을 더욱 정확하게 이해하여 사용자 의도를 파악하고 상황에 맞는 대답을 생성할 수 있게 되었다. 예를 들어 사용자가 "오늘 저녁 먹을 레시피를 추천해 주세요"라고 질문한다면, 과거 챗GPT는 단순히 레시피 목록만을 제시했을지도 모른다. 하지만 업그레이드된 챗GPT는 사용자가 이미 가지고 있는 재료, 요리 시간, 식사 인원 등과 같은 추가 정보를 고려하여 보다 개인화된 추천을 제공할 수 있다. 업그레이드의 활용 영역 OpenAI는 이번 GPT-4 터보 업그레이드가 다양한 분야에서 활용될 수 있을 것으로 기대하고 있다. 예를 들어 고객 서비스 분야에서는 챗GPT가 보다 효과적이고 자연스러운 대화를 통해 고객 문의를 처리할 수 있게 될 것이며, 교육 분야에서는 학습자의 질문에 맞춤형 답변을 제공하여 학습 효과를 높일 수 있다. 또한 창작 분야에서도 챗GPT는 작가의 아이디어 창출을 돕거나 스크립트 작성 과정을 지원하는 등 다양한 활용 방식이 존재한다. 하지만 OpenAI는 아직까지 완성된 제품이 아니라는 점을 인정하고 있으며, 앞으로도 지속적인 연구 개발을 통해 챗GPT의 성능을 개선해 나갈 계획이라고 밝혔다. 특히 객관성과 신뢰성 확보, 사실 오류 및 편견 완화 등의 문제 해결에 집중할 예정이라고 언급했다.
봇도 이제 '생각' 하는 시대? 메타와 OpenAI, 인간 수준 인공지능 개발 경쟁

메타와 오픈AI(OpenAI)는 차세대 인공지능 언어모델 개발 경쟁에 불을 붙였다. 두 기업은 최근 각각 'Llama 3'과 'GPT-5' 출시를 예고하며, 기존 언어모델을 뛰어넘는 사실적인 대화 및 문제 해결 기능을 탑재할 것이라고 언급했다. 메타, "추론" 강화… 몇 주 내 출시 예정 메타는 닉 클레그(Nick Clegg) 글로벌 총괄 사무 책임자가 참석한 이벤트에서 몇 주 내에 대중에게 새로운 인공지능 언어모델 'Llama 3'을 공개할 예정이라고 밝혔다. 클레그 책임자는 "아주 짧은 기간 안에 차세대 기반 모델 스위트 출시를 시작할 계획"이라며 "실제로 다음 달 안에, 혹은 더 빨리 출시될 것"이라고 말했다. 메타의 인공지능 언어모델은 공개적으로 제공되기 때문에 개발자와 연구원들은 이 기술을 이용하여 자유롭게 봇을 제작하거나 인공지능의 다양한 영역에 대한 연구를 진행할 수 있다. 이 모델들은 방대한 텍스트 정보로 훈련되며, Llama 3은 기존 모델보다 훨씬 더 발전된 기능을 제공할 것으로 기대된다. 오픈에이도 "GPT-5" 개발… 복잡한 질문 해결 능력 향상 메타의 Llama 3과 마찬가지로 오픈에이의 차세대 인공지능 언어모델인 GPT-5의 정확한 출시일은 아직 공개되지 않았지만, 역시 몇 주 내에 출시될 것으로 예상된다. 조엘 피노, 메타 인공지능 연구 부사장은 "우리는 단순히 대화만 할 수 있는 모델이 아니라 추론하고 계획하며 기억력을 가진 모델을 개발하기 위해 열심히 노력하고 있다"고 밝혔다. 또한 브래드 라이트캡, 오픈AI 최고운영책임자는 "차세대 GPT 버전은 추론을 이용하여 더욱 복잡한 질문을 해결하는 능력이 향상될 것"이라고 밝혔다. 인간 수준 '생각' 탑재된 챗봇… 흥분과 불안 사이 이러한 기술 개발은 흥분과 불안감을 동시에 불러일으킨다. 추론과 기억력을 가진 챗봇은 과학 소설 속 공포스토리의 시작과 같이 느껴질 수도 있다. 하지만 미드저니와 소라는 인공지능이 얼마나 뛰어난 출력물을 만들어낼 수 있는지 보여주는 좋은 예시이며, 구글 제미나이와 챗GPT는 텍스트 기반 봇이 일상 생활에서 얼마나 유용할 수 있는지를 보여준다. 하지만 현재의 인공지능 기술에도 많은 윤리적, 도덕적 문제가 존재한다. 인간 수준의 인공지능 모델이 등장한다면 더욱 악용될 수 있는 가능성이 높다. 앞으로의 발전 과정을 지켜보면서 긍정적인 발전을 이끌어내는 것이 중요하다.
구글 이미지 생성 AI 모델 이매진 2, 영상 제작 기능 업데이트

구글은 자체 개발 인공지능(AI) 이미지 생성 모델 이매진 2 (Imagen 2)를 새로운 두 가지 기능으로 업그레이드했다. 이 기능들은 라스베이거스에서 열린 구글 클라우드 넥스트 컨퍼런스에서 발표됐다. 이매진 2는 기업 중심의 제품으로 개발 플랫폼인 버텍스 AI 안에서 로고 디자인이나 기타 비주얼 콘텐츠 제작을 돕는 역할을 한다. 이번 업데이트를 통해 이매진 2는 최대 4초 길이의 영상 제작 기능을 갖게 되었다. 텍스트로 실사 영상 만들기 구글은 이 영상 제작 기능을 ‘텍스트-실사 이미지’라고 부른다. 이 기능을 통해 사용자는 텍스트 프롬프트만으로 4초짜리 영상을 만들 수 있다. 이 영상은 다양한 카메라 각도와 움직임을 포함할 수 있다. 벤처비트의 보도에 따르면, 생성된 영상은 초당 24 프레임 속도를 가지며 360x640 픽셀 해상도로 제공된다. 구글은 향후 이 수치를 개선할 계획이라고 한다. 또한 구글은 유튜브에 이매진 2의 기능을 보여주는 영상도 공개했다. 구글 클라우드 CEO 토마스 쿠리안은 보도자료를 통해 애니메이션 이미지는 사용자 참여를 높일 수 있다고 밝혔다. 현재 이매진 2가 생성하는 영상의 질은 일반인과 기업 모두가 사용할 수 있는 Runway AI와 Pika 1.0과 비슷한 수준이다. 딥페이크 우려와 차별화 전략 최근 제미나이 AI가 ‘일부 역사적 이미지 생성 묘사에서 부정확함’을 보여주면서 논란이 일었던 딥페이크 문제도 함께 주목된다. 이 사건 직후 구글은 제미나이 앱에서 이미지 생성 기능을 제거했다. 하지만 구글은 이매진 2의 경우는 다르다고 말한다. 구글의 대변인은 테크크런치와의 인터뷰에서 “버텍스 AI의 이매진 2 모델은 제미니 앱과 동일한 문제를 경험하지 않았다. 우리는 지속적으로 테스트를 진행하고 고객과 소통하고 있다”고 밝혔다. 추가적인 보호 조치로 구글 딥마인드의 SynthID 기술을 사용하여 AI 모델이 생성한 이미지와 영상에 레이블을 붙일 예정이다. 부분 수정 기능도 추가 영상 제작 외에도 이매진 2는 이미지 일부 수정 기능도 추가 받았다. 이를 통해 사용자는 새로운 프롬프트를 사용하여 전체 이미지를 재생성하는 대신 원하는 부분만 수정할 수 있다. 이는 이미지를 원하는 대로 조작하기 위해 더 쉬운 방법을 제공한다. 이와 유사한 기능은 마이크로소프트의 코파일럿과 OpenAI의 DALL-E 3에서도 제공된다.
구글 인공지능, 이제 귀도 생겼다! 제미나이 1.5 프로, 오디오 파일 텍스트 변환 기능 공개

인공지능 챗봇은 이미 이미지와 영상을 통해 세상을 ‘볼’ 수 있었다. 하지만 이제 구글이 최신 제미나이 프로 업데이트에 오디오-텍스트 변환 기능을 추가했다. 제미나이 1.5 프로는 시스템에 업로드된 오디오 파일을 ‘듣고’ 텍스트 정보를 추출할 수 있다. 텍스트-영상 융합 인공지능: 제미나이 1.5 프로, 오디오 파일 텍스트 변환 기능 구글은 이 대형 언어 모델(LLM) 버전을 베타 테스트 이후 기업 사용자 범위를 넓히기 위해 베텍스(Vertex) 인공지능 개발 플랫폼에서 공개 프리뷰로 제공한다. 2월 처음 발표 당시 제한된 개발자와 기업 고객에게만 제공되었던 모델이다. 구글은 라스베이거스에서 열리는 클라우드 넥스트 컨퍼런스에서 이 업데이트에 대한 자세한 내용을 공유했다. 구글은 제미나이 챗봇을 구동하는 제미나이 울트라 LLM을 자사 제미나이 제품군 중 가장 강력한 모델이라 부르고 있으며, 이제 제미나이 1.5 프로를 자사 최고의 기능 모델이라고 밝혔다. 또한 이 버전은 추가적인 모델 조정 없이도 더 잘 학습한다고 덧붙였다. 제미나이 1.5 프로는 다중 모달 모델로 TV 프로그램, 영화, 라디오 방송, 컨퍼런스 콜 녹음 등 다양한 유형의 오디오를 텍스트로 변환할 수 있다. 다국어 기능도 지원하여 여러 언어의 오디오를 처리할 수 있다. TechCrunch에 따르면 영상으로부터 대본을 만들 수도 있지만, 품질은 불안정할 수 있다. 개발자 도구 공개: 제미나이 1.5 프로, 베타 테스트 이후 기업 사용자 범위 확대 최초 발표 때 구글은 제미나이 1.5 프로가 토큰 시스템을 사용하여 원시 데이터를 처리한다고 설명했다. 백만 개의 토큰은 대략 70만 단어 또는 3만 줄의 코드에 해당한다. 미디어 형태로는 한 시간 분량의 영상이나 약 11시간 분량의 오디오에 해당한다. 초기 프리뷰 데모에서는 제미나이 1.5 프로가 비디오 대본에서 특정 순간을 찾는 방법을 보여주었다. 인공지능 전문가 로완 창(Rowan Cheung)은 초기 접속을 통해 데모가 스포츠 경기에서 정확한 액션 장면을 찾아 이벤트를 요약하는 과정을 트윗에 공유했다. 하지만 구글은 유나이티드 홀세일 모리지지, TBS, 리플릿 등 다른 초기 사용자들이 주택 담보 인수, 메타데이터 태그 자동화, 코드 생성, 설명 및 업데이트와 같은 기업 중심 활용 사례를 선택하고 있다고 언급했다.

10개 더보기

IT

AI

GAME

GADGETS

가방 대신 작은 로봇? 피아지오의 개인 화물 로봇 '지타미니' 출시

OBSBOT Tiny 2: 4K 괴물과 같은 화질과 초고속 자동 초점

OBSBOT Tiny 2: 놀라운 화질과 초고속 자동 초점 실현한 4K 웹캠

레고 레트로 라디오, 라디오 기능 없이 눈길만 사로잡아!

LEGO 레트로 라디오, 라디오 기능 없이 눈길만 사로잡아!

목에 걸고 시원하게! 더위를 날리는 소니 레온 포켓(REON POCKET) 5

소니 레온 포켓(REON POCKET) 5, 목에 거는 '이색' 웨어러블 공개! 더위도 추위도 무적?

발명가 제임스 브루튼, 혁명적인 옴니휠(Omni Wheel bike) 자전거 제작

발명가 제임스 브루튼, 혁명적인 옴니휠(Omni Wheel bike) 자전거 제작

루이; 채팅봇 탑재, 스마트하고 재미있는 데스크 친구

LOOI: 스마트폰을 데스크탑 로봇으로 바꿔보세요!

인공지능 데스크톱 로봇 돌리: 함께 배우는 스마트 친구

인공지능 데스크톱 로봇 돌리: 함께 배우는 스마트 친구

브라이언 이노의 턴테이블 II 2024 출시: 네온빛과 음악의 조화

음악과 예술의 만남, 2024년형 TURNTABLE II 출시

레트로 감성에 미래 디자인!

BÖNWERK 턴테이블, 빈티지 레코드의 새로운 친구

두 앞바퀴 전기 트라이크 시스릭스제로 투 프론트 휠 출시

안전하고 즐거운 라이딩! 두 앞바퀴 전동 자전거 출시

샤르지 레트로 67, 매킨토시 향수를 품은 67W 파워 충전기: 과연 실용적인가?

샤르지 레트로 67, 매킨토시 향수를 품은 67W 파워 충전기: 과연 실용적인가?

컴백하는 키보드, 4일 간의 배터리: E-잉크 디스플레이 스마트폰, 시장 돌풍 일까?

물리적 키보드와 E-잉크 디스플레이를 탑재한 미니멀리즘 스마트폰 등장

눈 걱정 없는 스키, 혁신적인 전동 스키

눈 걱정 없는 스키, 혁신적인 전동 스키 '스키휠원' 등장!

엑스박스 로고 새겨진 토스터

엑스박스 로고 새겨진 빵 굽는 토스터, 뜨거운 인기를 얻을까?

맥북, 휴대용 게임 PC, 태블릿 등 다양한 기기와 호환되는 USB-C 다기능 도킹 스테이션 출시

GUIDES

DIGITAL LIFE

CARS

DigitalFocus TV

삼성, 아이폰 '분쇄' 광고에 맞서 '언크러쉬' 광고 공개!

삼성, 아이폰 '분쇄' 광고에 맞서 '언크러쉬' 광고 공개!

마이크로소프트, 장애인 게이머 위한 맞춤형 컨트롤러 ‘프로테우스’ 출시

마이크로소프트, 장애인 게이머 위한 맞춤형 컨트롤러 ‘프로테우스’ 출시

안드로이드 오토 업데이트: 차 안에서 더욱 다양한 즐거움을 만끽하세요!

안드로이드 오토 업데이트: 차 안에서 더욱 다양한 즐거움을 만끽하세요!

안드로이드 14, 안드로이드 TV에도 출시!

안드로이드 14, 안드로이드 TV에도 출시!

구글 맵, 증강현실(AR) 콘텐츠 지원 확대! 싱가포르와 파리에서 먼저 체험 가능

구글 맵, 증강현실(AR) 콘텐츠 지원 확대! 싱가포르와 파리에서 먼저 체험 가능

닌자와 사무라이, 두 주인공이 펼치는 새로운 여정! '어새신 크리드 섀도우즈' 11월 15일 출시

닌자와 사무라이, 두 주인공이 펼치는 새로운 여정! '어새신 크리드 섀도우즈' 11월 15일 출시

구글, 안드로이드에 핸즈프리 '마우스' 출시! 머리와 얼굴 움직임으로 컴퓨터 조작 가능

구글, 안드로이드에 핸즈프리 '마우스' 출시! 머리와 얼굴 움직임으로 컴퓨터 조작 가능

구글, AI 영상 및 텍스트에 디지털 워터마크 확대!

구글, AI 영상 및 텍스트에 디지털 워터마크 확대!

구글 검색, 텍스트뿐 아니라 영상 검색까지 가능한 AI 혁신!

구글 검색, 텍스트뿐 아니라 영상 검색까지 가능한 AI 혁신!

구글 I/O 2024: 인공지능 돌풍! 제미나이 업그레이드와 혁신 기능 공개

구글 I/O 2024: 인공지능 돌풍! 제미나이 업그레이드와 혁신 기능 공개

오픈AI가 공개한 '챗GPT-4o', 유머 감각까지 탑재된 유용한 AI 경험 맛보기

오픈AI가 공개한 '챗GPT-4o', 유머 감각까지 탑재된 유용한 AI 경험 맛보기

구글, 미래형 화상회의 기술 '스타라인' 오피스 출시!

구글, 미래형 화상회의 기술 '스타라인' 오피스 출시!

아이패드 광고 논란: "예술 작품 뭉개는 표현 방식에 시청자 반감"

아이패드 광고 논란: "예술 작품 뭉개는 표현 방식에 시청자 반감"

세가, 모바일 배틀 로얄 게임 '소닉 럼블' 발표

세가, 모바일 배틀 로얄 게임 '소닉 럼블' 발표

NASA, 블랙홀 시뮬레이션 영상 공개!

NASA, 블랙홀 시뮬레이션 영상 공개!

많이 본 뉴스

backward top home