AI 뉴스목록
-
OpenAI 반박, 일론 머스크 4500만 달러만 기부하고 테슬라 합병 또는 장악 요구?인공지능 분야 최고 가치 스타트업 OpenAI가 지난 주 일론 머스크의 소송에 대해 반박하며, 머스크의 기여도는 실제로 그리 많지 않다고 주장했다. OpenAI는 최근 블로그 게시물을 통해 마이크로소프트 투자를 받은 회사는 2015년 설립 이후 머스크로부터 10억 달러 지원 약속에도 불구하고 실제로는 4,500만 달러만 받았다고 밝혔다. OpenAI는 또 다른 기업들로부터 9,000만 달러 이상의 연구 지원금을 확보했다고 전했다. 왜 머스크는 OpenAI를 고소했을까? 이번 반박은 머스크가 OpenAI를 상대로 소송을 제기하면서 시작됐다. 머스크는 OpenAI가 인류 전체 이익을 위해 인공지능 개발을 목표로 설립됐지만 이익 추구에 연연해 원래 목적을 저버렸다고 주장했다. 또한 OpenAI는 기술을 "무료로 공개"하도록 되어 있지만 이를 어겼다고 말했다. OpenAI는 이에 대해 인공 총체 지능(AGI) 개발에 필요한 막대한 연산 자원을 고려할 때 연간 수십억 달러의 비용이 필요하다며, 이런 이유로 수익 창출 구조로 전환하는 것이 필수적이었다고 주장했다. OpenAI는 어떻게 반박하고 있나? OpenAI는 블로그 게시물에 머스크와 다른 공동 설립자들간의 의견 차이가 발생했을 때 머스크는 테슬라와 합병하거나 OpenAI 지배권을 넘겨달라고 했다고 밝혔다. OpenAI는 "머스크는 우리가 스스로 길을 찾는 것을 지지한다"고 말했다고 덧붙였다. OpenAI는 현재에도 AGI 개발과 함께 안전하고 유익한 인공지능 도구를 제공하는 것이 자신의 사명이라고 강조했다. OpenAI는 케냐와 인도 등지에서 자사 기술이 사람들의 삶을 향상시키는 데 활용되고 있다고 전했다. OpenAI는 "깊이 존경했던 사람과 이런 상황에 이르게 돼 슬프다"며 "우리에게 더 높은 목표를 갖도록 영감을 준 뒤 실패할 것이라고 말하며 경쟁 업체를 만들고, 우리가 사명을 향해 의미 있는 진전을 이루자마자 소송을 제기했다"고 밝혔다. 또한 OpenAI는 머스크가 AGI 개발 과정에서 완전한 투명성 유지가 어려워질 수 있다는 사실을 알고 있었으며 이에 동의했다고 반박했다. 이번 소송은 인공지능 개발의 방향과 속도, 그리고 관련 업계 주요 기업 간의 파워 밸런스에 큰 영향을 미칠 것으로 예상된다.
-
챗GPT, 제미나이 넘어섰다? 앤트로픽 클로드 3 출시인공지능(AI) 개발기업 앤트로픽은 다양한 벤치마크에서 구글 제미나이와 오픈AI 챗GPT를 능가하는 새로운 "클로드 3" 모델 제품군을 선보였다. 클로드 3 모델은 세 가지 종류로 나뉘며, 성능 수준에 따라 하이쿠(Haiku), 소네트(Sonnet), 오푸스(Opus)로 구분된다. 앤트로픽은 이 세 모델 모두 다양성, 향상된 정확성, 뛰어난 맥락 이해, 빠른 속도 덕분에 우수한 성능을 제공한다고 주장한다. 또한 클로드 3 모델은 어려운 질문에도 적극적으로 답변할 수 있다. 앤트로픽은 이전 버전의 클로드는 안전 장치 한계를 넘는 질문에는 답변을 거부하기도 했다고 설명했다. 하지만 클로드 3 제품군은 더욱 섬세한 접근 방식을 통해 어려운 질문에도 답변할 수 있다. 성능 향상에도 불구하고, 발표 내용 대부분은 최고 성능 모델인 오푸스에 집중되어 있다. 앤트로픽은 오푸스가 "복잡한 작업에 대해 거의 인간 수준의 이해력을 보여준다"고 언급했다. 특화된 인공지능 앤트로픽은 오푸스의 데이터 재현 능력을 평가하기 위해 "바늘 속의 건초더미(Needle In a Haystack)" 평가를 실시했다. 그 결과, 인공지능이 거의 완벽하게 정보를 기억할 수 있었기 때문에 꽤 좋은 결과를 얻었다. 앤트로픽은 또한 오푸스가 수학 문제 해결, 컴퓨터 코드 생성, GPT-4보다 더 우수한 추론 능력을 보유하고 있다고 주장했다. 하지만 이 기술에도 완벽하지는 않다. 앤트로픽은 인공지능의 정확성이 향상되었지만, 여전히 망상(hallucination) 문제가 남아 있다고 밝혔다. 모델이 생성하는 답변에는 잘못된 정보가 포함될 수 있지만, 클로드 2.1과 비교하면 크게 감소했다. 또한 오푸스는 클로드 2와 비슷한 속도로 질문에 답변하는 데 약간 느리다. 물론, 하이쿠나 소네트도 각자 특화된 사용 사례가 있다. 예를 들어, 하이쿠는 빠른 답변 제공과 "구조화되지 않은 데이터"에서 정보 추출에 뛰어나지만, 수학 문제 해결 능력은 오푸스보다 떨어진다. 소네트는 사람들이 단순 작업 시간을 절약하고 "이미지에서 텍스트" 라인을 파싱하는 데 도움을 주는 대형 모델이며, 오푸스는 대규모 작업에 이상적이다. 인터넷 변화의 시작 소네트와 오푸스는 현재 유료 구매가 가능하며, 무료 버전의 클로드는 앤트로픽 웹사이트에서 제공된다. 하이쿠 출시일은 정해지지 않았지만, 앤트로픽은 곧 출시될 것이라고 언급했다. 예상할 수 있듯이 클로드 3 모델은 특정 작업 부하 자동화를 목표로 하는 기업들을 대상으로 한다. 사용자들은 온라인 챗봇을 통해 클로드 3 모델과 상호 작용할 수 있을 것으로 예상된다. 최근 아마존은 앤트로픽의 새로운 인공지능 모델을 AWS(Amazon Web Services)에 도입할 것이라고 발표했다. 이는 웹사이트가 브랜드와 고객의 요구에 맞는 맞춤형 클로드 3 모델을 만들 수 있도록 지원하는 것이다. 클로드 3 모델의 미래 클로드 3 모델은 인공지능 기술의 발전을 보여주는 중요한 지표이다. 다양성, 정확성, 맥락 이해, 속도 향상을 통해 인공지능은 더욱 다양한 분야에서 활용될 수 있을 것이다. 클로드 3 모델의 출시는 인공지능 기술의 발전과 더불어 인터넷 환경을 변화시킬 것으로 기대된다.
-
ChatGPT, 답변을 소리 내어 읽어주는 기능 출시!오픈AI는 ChatGPT에 '소리내어 읽기(Read Aloud)' 기능을 추가했다. 이 기능은 사용자가 텍스트를 읽을 필요 없이 5가지 목소리 옵션 중 원하는 목소리로 답변을 읽어주는 기능이다. 웹 버전의 ChatGPT와 iOS 및 안드로이드 앱에서 이용할 수 있다. 5가지 목소리 옵션과 37개 언어 지원 소리내어 읽기는 37개 언어를 지원하며, 텍스트의 언어를 자동으로 감지한다. GPT-4와 GPT-3.5 모두 사용할 수 있다. 경쟁사인 Anthropic이 AI 모델에 유사한 기능을 추가한 직후 OpenAI가 멀티모달 기능(텍스트 외 다른 매개체를 통해 읽고 응답하는 기능)을 선보인 흥미로운 사례다. ChatGPT는 2023년 9월에 음성 채팅 기능을 출시했다. 사용자는 챗봇 프롬프트에 타이핑 없이 직접 질문을 입력할 수 있다. 하지만 새로운 기능은 ChatGPT가 작성된 답변을 소리 내어 읽어주는 기능이다. 사용자는 답변을 읽어주도록 설정할 수 있다. 모바일 앱에서는 텍스트를 누르고 있으면 소리내어 읽기 플레이어가 열리고, 재생, 일시 중지, 되감기를 할 수 있다. 웹 버전에서는 텍스트 아래에 스피커 아이콘이 나타난다.
-
알리바바, 사진만 갖고 '말하는 대로 움직이는' 영상 제작하는 인공지능 개발중국 알리바바 인공지능 연구소 연구원들이 'EMO(Emote Portrait Alive)'라는 새로운 인공지능 시스템을 개발했다. EMO는 단 하나의 사진만을 가지고도 사람 얼굴을 움직이며 말하는 영상이나 노래하는 영상을 놀랍도록 사실적으로 만들어낸다. 최근 arXiv 논문 게시물에 기술된 이 시스템은 제공된 음원 트랙의 미묘한 뉘앙스까지 정확하게 반영하는 자연스럽고 표현력 풍부한 얼굴 움직임과 머리 각도를 만들어낼 수 있다. 이는 수년 동안 인공지능 연구원들을 괴롭혔던 '음성 기반 대화 영상 생성' 분야의 중요한 발전이다. 논문의 주 저자인 린루이 티안은 "기존 기술은 종종 인간 표정의 전체적인 스펙트럼과 개인 얼굴 스타일의 독특함을 완전히 포착하지 못한다"며 "이러한 문제를 해결하기 위해 EMO는 중간 3D 모델이나 얼굴 특징점을 사용하지 않고 직접적인 음원-영상 합성 접근 방식을 사용하는 새로운 프레임워크를 제안한다"고 밝혔다. 음원을 바로 영상으로 변환하는 '확산 모델' 활용 EMO 시스템은 사실적인 합성 이미지 생성 능력으로 주목받는 '확산 모델'이라는 인공지능 기술을 사용한다. 연구원들은 연설, 영화, TV 프로그램, 노래 공연 등에서 250시간 이상 분량의 대화 영상 데이터베이스로 모델을 훈련시켰다. EMO는 3D 얼굴 모델이나 혼합 형태를 사용하여 얼굴 움직임을 근사하는 기존 방법과 달리, 음파를 직접적으로 영상 프레임으로 변환한다. 이를 통해 자연스러운 말하기와 연관된 미묘한 움직임과 개인 고유의 특징을 포착할 수 있다. 논문에 기술된 실험 결과에 따르면, EMO는 기존 최첨단 기술들을 영상 품질, 개인 특징 유지, 표현력 측정 지표에서 크게 앞서나갔다. 연구원들은 또 사용자 연구를 실시하여 EMO가 생성한 영상이 다른 시스템에서 생성한 영상보다 더욱 자연스럽고 감정이 풍부하다고 평가받았다고 밝혔다. 사실적인 노래 영상까지 제작 가능 EMO는 대화 영상 외에도 노래하는 모습의 사진을 움직이며, 보컬에 맞춰 적절한 입 모양과 표현력 있는 얼굴 표정을 생성할 수 있다. 이 시스템은 입력된 오디오 길이에 따라 임의의 길이의 영상을 생성할 수 있다. 논문은 "실험 결과 EMO는 설득력 있는 대화 영상뿐만 아니라 다양한 스타일의 노래 영상도 제작할 수 있으며, 표현력과 사실성 측면에서 기존 최첨단 기술을 크게 앞서나간다"고 언급했다. EMO 연구는 단지 사진과 오디오 클립만으로 개인 맞춤형 영상 콘텐츠를 합성할 수 있는 미래를 암시한다. 하지만 동의 없이 사람을 가장하거나 잘못된 정보를 퍼트려는 등 기술 악용에 대한 윤리적 우려도 남아 있다. 연구원들은 합성 영상 감지를 위한 방법 연구를 진행할 계획이라고 밝혔다.
-
어도비, 텍스트 입력만으로 음악 만드는 AI 도구 개발…초보자도 쉽게 영화 OST 제작 가능어도비가 음악 제작 시장에 뛰어든다. 어도비는 최근 자사 개발 중인 실험적인 인공지능(AI) 도구 '프로젝트 뮤직 젠 AI(Project Music GenAI)'를 공개했다. 간단한 텍스트 입력으로 원하는 음악 스타일 제작 이 프로그램은 아직 정식 이름이 없으며 프로젝트 단계다. 사용법은 간단하다. 원하는 음악 스타일을 텍스트로 입력하면 된다. "파워풀한 록 음악", "행복한 댄스 음악", "슬픈 재즈 음악" 등 어떤 스타일이든 입력 가능하다. 또한 사용자는 음악 파일을 업로드하여 인공지능이 편곡하도록 할 수도 있으며, 제작 과정에서 실시간으로 편집 기능을 사용하여 음악을 수정할 수도 있다. 이미 메타 '뮤직젠(MusicGen)', 구글 '인스트루먼트 플레이그라운드(Instrument Playground)' 등과 유사한 기술들이 있지만, 어도비의 장점은 쉽고 강력한 편집 기능을 제공한다는 점이다. 영화 OST, 댄스 음악, 재즈 등 다양한 음악 스타일 지원 Project Music GenAI는 아직 일반에게 공개되지 않았지만, 어도비는 최근 유튜브 채널을 통해 이 프로그램을 자세히 소개하는 영상을 공개했다. 영상에서는 어도비 연구원이 인공지능의 기능을 시연한다. 연구원은 조르주 비제의 오페라 '카르멘' 중 '하바네라' 곡을 업로드한 다음 텍스트 명령어를 통해 멜로디를 변경한다. 연구원이 "하바네라를 영감을 주는 영화 음악처럼 만들어주세요"라고 명령하자, 음악은 좀 더 밝고 격려적인 느낌으로 변화됐다. 또 다른 예시에서는 힙합 스타일의 반주를 추가하기도 했다. Project Music GenAI는 새로운 음악 제작도 가능하다. 템포와 구성을 조정하여 노래의 서두, 과장, 후렴 등을 구분하고, 영상용 반복 음악이나 끝맺음 페이드아웃 효과까지 제작할 수 있다. 구글, 메타 제품보다 뛰어난 사용성 이러한 편집 기능 덕분에 Project Music GenAI는 구글의 인스트루먼트 플레이그라운드보다 사용하기 편리할 것으로 보인다. 구글의 프로그램 역시 편집 기능이 있지만, 사용하기 어려워 음악 제작 경험이 필요하다. 반면 Project Music GenAI는 직관적인 사용자 경험을 목표로 한다. 메타의 뮤직젠은 편집 기능이 전혀 없어 변경을 원할 경우 처음부터 다시 만들어야 한다. 어도비는 현재 데모에서는 저작권 없는 콘텐츠만 사용한다고 밝혔다. 최종 출시 버전에서 사용자가 개인 파일을 업로드할 수 있을지 여부는 아직 명확하지 않다. 출시 일정도 공개되지 않았지만, 어도비는 3월 26일 미국 라스베이거스에서 '서미트(Summit)' 행사를 개최할 예정이다.
-
무하유 프리즘, 지난해 하반기 ‘GPT킬러’로 자소서 26만여 건 분석… 개발 직군 지원자 챗GPT 사용 비중 높아자연어를 이해하는 실용 AI 기업 무하유가 지난해 하반기 자사 AI 서류평가 솔루션 ‘프리즘’에서 ‘GPT킬러’ 기능을 활용해 평가된 자기소개서의 데이터 분석 결과를 28일 공개했다.챗GPT,자기소개서 작성에도 활용 GPT킬러는 무하유가 국내 최초로 선보인 디텍트 GPT 솔루션으로, 지난 12년간 AI 표절검사 서비스인 ‘카피킬러’를 운영하며 축적한 문서 데이터와 한국어 자연어 이해(NLU) 노하우를 접목시켰다. 무하유는 프리즘으로 자기소개서를 검토하는 과정에서 챗GPT로 작성됐다고 의심되는 부분이 있을 경우 GPT킬러가 해당 내용을 알려줘 채용 담당자들이 보다 정확하게 지원자를 평가할 수 있도록 돕고 있다. 기업 인사담당자는 프리즘 이용 시 GPT킬러 활용 여부를 선택할 수 있다. 2023년 하반기 프리즘을 통해 분석된 자기소개서 중 GPT킬러 기능을 활용한 데이터는 총 26만7585건으로, 공공·금융·일반 기업 등 다양한 기관 및 기업 고객들이 활용한 것으로 나타났다. 또한 공공·금융 기관에 비해 일반 기업 지원자들이 자기소개서 작성 시 챗GPT를 더 많이 사용한 것으로 확인됐다. 일반 기업에서 챗GPT를 사용한 것으로 의심되는 자기소개서는 전체 중 11.81%였으며, 금융기관 7.12%, 공공기관 7.02% 순이었다.개발직군에서 더 많이 사용 개발 직군 지원자가 비개발 직군 지원자에 비해 자기소개서 작성 시 챗GPT를 사용하는 비중이 더 높았다. 동일 기업에서 개발 직군과 비개발 직군을 동시에 채용하는 경우 같은 자기소개서 문항에 대해 개발 직군이 최소 1.5배에서 최대 8배까지 챗GPT를 더 많이 활용 중인 것으로 나타났다. 또한 전산, 데이터 분석, 정보 보호 등 개발 직군이 아니더라도 IT 툴에 익숙한 IT 전문가 직군이 비전문가 직군에 비해 챗GPT 사용 비중이 더 높았다. 아울러 실제 경험이나 사례를 묻는 질문보다 추상적인 내용을 묻는 질문에 챗GPT를 사용하는 비율이 더 높았다. 일반적인 질문에 대한 챗GPT 사용 비율은 평균 3% 내외였으나 미래에 대한 지원자의 생각이나 삶의 가치관 등을 묻는 질문에는 33.7%가 챗GPT를 활용한 것으로 나타났다.객관적 사실 관계 나열, 눈단 구조화 등 챗GPT 특징 확인 무하유는 자기소개서 분석 데이터를 통해 챗GPT가 작성한 자기소개서의 보편적인 특징도 공개했다. ‘첫째, 둘째, 셋째’와 같이 문단 앞에 순서를 매겨 구조화하는 경우가 많았으며, 문장 간 줄 바꿈이 잦았다. 또한 개개인의 구체적인 경험을 생성해내는데 한계가 있기 때문에 객관적인 사실 관계가 자주 등장하는 것으로 나타났다. 무하유 비즈니스 유닛의 신현호 프로는 “자기소개서는 회사 생활에 필요한 기본적인 작문 능력은 물론, 지원자가 입사 지원을 위해 얼마나 성심성의껏 준비했는지를 확인할 수 있는 최소한의 수단”이라며 “기업 인사담당자는 챗GPT를 활용했다고 의심되는 자기소개서에 대해 면접 전형에서 심층 질문을 통해 실제 본인이 작성했는지 확인해 볼 수 있다”고 설명했다.
-
마이크로소프트, 오픈AI 넘보는 프랑스 인공지능 스타트업 미스트랄과 손잡았다마이크로소프는 20일 프랑스 인공지능 스타트업 미스트랄과의 새로운 파트너십을 발표했다. 미스트랄은 최첨단 대용량 언어 모델 개발로 주목받고 있으며, 성능 면에서는 오픈에이의 챗GPT와 마이크로소프의 코파일럿과도 어깨를 겨루는 실력을 보유하고 있다. 미스트랄, 최첨단 기술력으로 인공지능 업계 주목 이번 파트너십은 세계 최고 수준의 기술력으로 인공지능 업계를 놀라게 했던 미스트랄의 주류 진출을 의미gks다. 미스트랄의 최신 모델 '미스트랄 라지(Mistral Large)'는 인공지능 모델의 상식 및 추론 능력을 평가하는 지표인 '대규모 다중 태스크 언어 이해(MMLU)' 부문에서 GPT-4에 이어 2위를 차지했다. 앞으로 미스트랄의 모델은 일부 마이크로소프 애저 서비스에서 오픈에이의 모델과 함께 제공될 예정이다. 미스트랄의 새로운 모델, 폐쇄적 전환으로 우려 제기 하지만 미스트랄의 새로운 전략은 우려도 불러온다. 인공지능 분석 기관 아티피셜 애널리시스(Artificial Analysis)에 따르면, 미스트랄 라지와 미스트랄 스몰은 이전의 개방형 소스 모델과 달리 폐쇄적이며 오픈 소스가 아니다. 더욱이 이 새로운 모델들은 미스트랄이 유망하게 여겼던 이전 오픈 소스 모델 '믹스트랄-8x7B'보다도 성능이 우수하다. 특히 과거 오픈 소스 모델들은 클로드-2, 제미니-울트라, 챗GPT-4와 같은 폐쇄적 모델과 비교하여 성능 면에서 뒤처지기도 했다. 이러한 상황에서 미스트랄은 애저에 오픈 소스 모델도 제공할 것이라고 밝혔지만, 최고 성능의 자사 모델들은 더 이상 공개하지 않을 것이라는 점은 우려스러운 신호다. 이는 오픈AI의 전례와도 흡사하다. 오픈AI 역시 마이크로소프와 파트너십을 맺기 직전 자사 모델들을 폐쇄했다. 이러한 행보는 일론 머스크 등 많은 이들의 비판을 받았다. 폐쇄적 모델, 오픈 소스 커뮤니티 발전에 악영향 미칠 수 있어 대부분의 기술 기업들은 인공지능 모델을 수익화할 때 모델을 오픈 소스로 제공하지 않는다는 점도 우려스러운 부분이다. 보안상의 이유 또는 지식 재산권 보호를 위한 것인지 정확히 알 수 없지만, 오픈 소스 인공지능 커뮤니티에서는 우려하는 전망이 우세하다. 미스트랄의 뛰어난 기술력은 인공지능 분야에 긍정적인 영향을 미칠 수 있지만, 폐쇄적 전환은 오픈 소스 커뮤니티의 발전을 저해할 수 있다는 점을 간과해서는 안 된다.
-
구글 이미지 생성 AI "제미나이" 인종 편향 논란… 사람 이미지 생성 중단구글의 AI 도구 '제미나이'가 인종 차별적인 이미지를 생성해 논란에 휩싸인 가운데, 사람 이미지 생성 기능을 중단한다고 밝혔다. 역사적으로 부정확한 이미지 생성, 유색 인종 표현 비판 지난 22일(현지시간) 미국 CNN은 제미나이가 교황 이미지 요청 시 백인이 아닌 인물 이미지를 생성했다고 보도했다. 또 기술 매체 '더 버지'는 1943년 독일 군인 이미지 요청 시도 유색인종 이미지를 생성했다고 전했다. 이에 구글은 23일 성명을 통해 "제미나이 이미지 생성 기능의 최근 문제 해결에 노력하고 있다"면서 "개선된 버전이 나올 때까지 사람 이미지 생성 기능을 중단한다"고 밝혔다. AI 도구의 인종 개념 이해 어려움 지적 앞서 구글은 "제미나이는 다양한 인종의 이미지를 생성하는 것이 장점"이라며 방어했으나 이번 사건으로 인해 한계를 인정했다. CNN은 테스트 결과 "남부 백인 농부" 요청에는 "다양한 인종과 성별을 대표하는 농부 이미지"를 생성했지만 "더블린 술집의 아일랜드 할머니" 요청에는 웃는 백인 노인 여성 이미지만 나왔다고 전했다. 구글은 "개방적인 프롬프트(개 이미지, 개 산책 등)에 반응할 수 있도록 설계했지만 인종적 편향 문제는 인정한다"고 밝혔다. 이번 사건은 구글이 급성장하는 생성 AI 시장에서 오픈AI 등과의 경쟁에서 또다른 차질이 됐다. 과거 구글은 제미나이 전신인 '바드' 도구 데모 영상에서 제임스 웹 우주 망원경에 대한 질문에 틀린 답변을 내놓아 주가가 하락하기도 했다.
-
AI 이미지 제작 툴, 스테이블 디퓨전 3 출시 - 더욱 정교하고 다양한 이미지 생성 가능스태빌리티 AI(Stability AI)는 22일(현지시각), 차세대 AI 이미지 생성 모델 '스테이블 디퓨전 3'(Stable Diffusion 3)을 공개했다. 텍스트 설명을 입력하면 그에 맞는 이미지를 만들어내는 이 시스템은 기존 모델에 비해 더욱 정교하고 다양한 이미지를 생성한다고 알려졌다. 아직 공식 데모는 공개되지 않았지만, 오늘부터 스테이블 디퓨전 3을 체험하고 싶은 사람들을 위한 대기자 명단이 열렸다. 다양한 기기에서 실행 가능한 다양한 크기의 모델 제공 스테이블 디퓨전 3 모델은 크기가 8억 개 파라미터에서 80억 개 파라미터까지 다양하다. 파라미터 크기는 일반적으로 모델이 생성할 수 있는 세부 수준과 일치한다. 즉, 더 큰 모델은 더 많은 세부 정보를 생성할 수 있지만 그만큼 더 많은 그래픽 카드 메모리(VRAM)가 필요하다. 이 모델군은 스마트폰부터 서버까지 다양한 장치에서 로컬 실행이 가능하도록 설계됐다. 개방성 강조, 하지만 논란도 존재 2022년부터 스태빌리티 AI는 꾸준히 AI 이미지 생성 모델을 출시해 왔다. 스태빌리티 디퓨전 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, 그리고 이제 3까지. 스태빌리티 AI는 저작권 문제, 편향성, 악용 가능성 등 논란도 있었지만, OpenAI의 DALL-E 3과 같은 독점적인 이미지 합성 모델에 대한 더욱 개방적인 대안을 제공한다는 점에서 주목받아왔다. 스테이블 디퓨전 모델은 오픈 소스로 제공되며 로컬에서 실행하고 출력을 조정할 수 있다. 스테이블 디프전 3에 대한 자세한 내용은 블로그를 참조하면 된다. 이번 스테이블 디퓨전 3은 기존 모델을 뛰어넘는 이미지 생성 능력을 갖추고 있다. 정확한 성능은 아직 베일 속에 숨겨져 있지만, 대기자 명단에 등록하여 스스로 체험해 볼 수 있다.
-
구글, 챗봇 개발 위한 오픈소스 AI 모델 '젬마' 공개구글은 사용자들이 자체 인공 지능 챗봇과 도구를 만들 수 있도록 '젬마(Gemma)'라는 오픈소스 AI 모델을 공개했다. 젬마는 구글 제미나이(이전 바드 및 듀엣 AI)와 동일한 기술을 기반으로 개발되었으며, 챗봇 개발의 안전성과 책임감을 높이는 데 기여할 것으로 기대된다. 젬마, 책임감 있는 AI 개발 위한 노력 반영 젬마는 구글 딥마인드 팀이 개발한 제미나이와 동일한 기술과 연구를 기반으로 만들어졌다. 구글은 공식 블로그 게시물을 통해 새로운 오픈소스 모델과 함께 제미나이로 작업하고 실험하려는 개발자를 지원하기 위한 '책임감 있는 생성형 AI 툴킷'도 출시했다. 챗봇 안전성 강화, 유해 콘텐츠 생성 방지 젬마는 2B와 7B의 두 가지 변형으로 제공되며, 둘 다 민감한 정보나 개인 정보를 필터링하도록 사전 훈련되었다. 또한, 인간의 피드백을 기반으로 강화 학습을 통해 유해 콘텐츠 생성 가능성을 최소화했다. 로컬 하드웨어 실행 지원, AI 개발 접근성 향상 젬마는 로컬 하드웨어(CPU 또는 GPU)에서 실행되도록 설계되었다. 이는 노트북과 같은 간단한 장치를 사용하여 차세대 AI 기능을 프로그래밍할 수 있다는 것을 의미한다. 곧 출시될 노트북에서 신경망 처리 장치의 보급이 증가함에 따라 누구나 자신의 AI를 구축하는 것이 더욱 쉬워질 것이다. 구글, AI 개발의 책임감 있는 리더십 제시 젬마의 출시는 OpenAI의 인상적인 비디오 생성기 ’소라‘의 공개 직후 이루어졌다. 개발자가 젬마를 사용하여 무엇을 제작할 수 있을지 기대된다. 또한, 구글이 젬마를 통해 인공 지능 개발의 책임감 있는 리더십을 제시하고 있다는 점은 긍정적으로 평가할 수 있다.
많이본뉴스
많이 본 뉴스
- 1LEGO 레트로 라디오, 라디오 기능 없이 눈길만 사로잡아!
- 2하데스 2 정복 가이드: 초보 플레이어 위한 핵심 팁
- 3에이수스, 휴대용 게임 PC 최신 모델 “ROG Ally X” 발표
- 4GTA 6, 락스타 웹사이트에 등장 후 사라져! 5월 16일 발표 예상?
- 5닌텐도 스위치 2, 성능 유출? 12GB RAM, 8인치 디스플레이 예상
- 6구글 크롬, “서클 투 서치” 도구 탑재? 이미지 보고 바로 검색
- 7윈도우 11 스크린샷 도구, QR 코드 스캔 및 이모티콘 지원 추가!
- 8"기계 vs 인간" 암시? 애플, 논란의 여지가 있는 아이패드 프로 광고 사과
- 9구글 I/O 2024, 안드로이드 15와 제미나이 AI 등 새로운 기능 공개 예상
- 10엑스박스, 모바일 게임 스토어 7월 출시! 모든 기기에서 이용 가능