벤치마크 1등 이미지 생성 AI recraftAI, Runway, WonderAnimation, Framer, Gemini API, Camera Control, AI 에이전트, Autodesk, 보스턴다이내믹스, 링크드인 AI 채용 에어전트 소개

데이터탐정코난

2024년 11월 06일

벤치마크 1등 이미지 생성 AI recraftAI, Runway, WonderAnimation, Framer, Gemini API, Camera Control, AI 에이전트, Autodesk, 보스턴다이내믹스, 링크드인 AI 채용 에어전트 소개

Table of Contents

데스크탑에서 챗GPT 보이스모드 사용

최근에 Chat GPT의 데스크탑 앱이 업데이트되어 음성 모드 기능이 추가되었습니다. 이 기능을 통해 PC에서도 보이스 모드를 사용할 수 있게 되었는데요. 음성 모드를 실행하면 오른쪽 아래에서 쉽게 접근할 수 있습니다. 실제로 사용해보면, 목소리를 인식하여 소통할 수 있는 재미있는 경험을 제공합니다. 예를 들어, 사용자가 “무엇을 할까요“라고 말하면, 프로그램이 이를 잘 인식하여 응답합니다.

오픈 API 음성 추가, Speech to Speech 업데이트

Datachat에서는 최근 스피치 투 스피치 API의 업데이트 소식을 전해드립니다. 이번 업데이트를 통해 새로운 목소리의 감정 표현이 더욱 풍부해졌습니다. 특히, 사용자들은 이제 감정이 잘 드러나는 목소리를 경험할 수 있게 되었으며, 캐시 기능을 통해 비용 효율적으로 서비스를 이용할 수 있습니다.

업데이트 전의 목소리는 다소 단조로웠으나, 개선된 목소리는 자연스럽고 생동감 있게 변화했습니다. 이로 인해 리얼타임 API를 활용하면 더욱 감정이 풍부한 음성을 생성할 수 있습니다. 이러한 진화된 기능은 업무 자동화 및 다양한 분야에서의 활용 가능성을 더욱 넓히고 있습니다.

Realtime API 링크

오픈 래딧에서 AI 무엇이든 물어봐(AMA) 개최! (24년에 또 큰거 옵니다)

최근 오픈AI의 CEO 샘 알트만이 참여한 AMA(Ask Me Anything) 행사에서 흥미로운 발표가 있었습니다. 이 자리에서는 커뮤니티 회원들이 다양한 질문을 던지고, 오픈AI 직원들이 직접 답변하는 형식으로 진행되었습니다. 참석자 중 한 명이 “향후 고급 음성 모델이 노래와 같은 콘텐츠에 대해 제안을 할 수 있을까요?”라고 묻자, 알트만은 현재 이 기능에 대한 작업이 진행 중임을 밝혔습니다.

또한, 오픈AI의 핵심 연구원인 일리아 스츠케버는 초월적인 미래에 대한 논의로 주목을 받았습니다. 그는 최근에 발견한 혁신적인 기술에 대한 여러 논란 속에서, 샘 알트만이 “올해 말에 아주 좋은 신작을 출시할 예정”이라고 공식 발표했습니다. 다만, 이는 GPT-5라고 불리지는 않을 것이라고 덧붙였습니다. 새로운 모델은 앞으로 두 달 내에 발표될 예정이므로 2024년에 만날 수 있을거 같습니다.

알트만은 “GPT-5가 스스로 작업을 수행할 수 있을까?”라는 질문에 대해 2025년에 큰 주제로 다루어질 것이라고 예상했습니다. 그는 이러한 에이전트 기능이 더욱 발전할 것이라고 언급했습니다. 또한, 현재의 GPU 수준으로도 AGI(인공지능 일반화)에 도달할 수 있다고 말했으며, 새로운 이미지와 3D 모델 생성 기능에 대한 정보는 곧 공개될 것이라고 밝혔습니다.

알트만은 2025년에 모든 벤치마크를 초월할 것이라는 대담한 예측을 하며, “벤치마크가 더 이상 의미가 없어질 것”이라고 강조했습니다. 그는 최근 트위터를 통해 “52가 51 다음 모델에서 GP QA 벤치마크에서 105%의 성과를 거두었다”는 유머를 섞은 발언으로 기대감을 조성했습니다.

구글검색을 Gemini API에서 사용 가능! Grounding 기능

최근 구글에서는 ‘그라운딩‘이라는 기능을 도입했다고 합니다. 이 기능은 구글 AI 스튜디오와 제미나이 API를 활용하여 구글 검색과 통합된 결과를 제공하는 것입니다. 즉, 이제는 별도의 검색 API를 구현할 필요 없이 제미나이 API를 통해 자동으로 구글 검색 결과를 포함한 응답을 받을 수 있습니다.

예를 들어, “노벨 화학상 누가 탔어?”라는 질문을 입력하면, 구글 검색 결과가 통합되어 관련 정보를 제공받을 수 있습니다. 그라운딩 기능을 통해 미리 구글 검색 결과를 포함한 답변을 생성할 수 있는 것이죠. 현재 이러한 통합 검색 기능은 구글에서만 제공하고 있으며, 오픈 AI나 엔트로픽과 같은 다른 플랫폼에서는 완벽하게 통합된 검색 API를 제공하지 않고 있습니다.

이 기능의 사용 방법도 간단합니다. API 호출 시 ‘모델 제너레이 콘텐트’에 ‘구글 서치 리트리벌’을 입력하면, 구글 검색 결과를 포함한 응답을 쉽게 받아올 수 있습니다. 다만, 그라운딩 기능은 추가 비용이 발생하며, 처리 지연이 있을 수 있다는 점은 유의해야 합니다. 그럼에도 불구하고, 구글 검색과 통합된 API의 도입은 큰 발전이라고 할 수 있습니다.

구글 내부 신규 코드의 4분의 1 이상이 AI로 만들어지고 있다!

구글의 CEO에 따르면, 회사 내에서 신규 코드의 4분의 1 이상이 AI에 의해 생성되고 있다고 합니다. 구글은 AI 기술을 통해 코드를 제작하는 비율이 점점 증가하고 있으며, 인간이 코드를 작성하는 시대가 저물어 가고 있는 것 같습니다. (BUSINESS INSIDER)

구글 내부에서 활용되는 AI 도구에 대해 질문하자, 회사는 자체 개발한 AI 툴을 사용하고 있다고 밝혔습니다. 특히, 구글은 25년 이상의 엔지니어링 전문성을 바탕으로 새로운 AI 모델을 출시했다고 합니다. 이러한 전문성을 담은 AI 도구는 코딩 분야에서 상당한 성능을 발휘할 것으로 기대되고 있습니다. 구글은 AI를 통해 내부의 생산성과 효율성을 크게 향상시키고 있습니다. AI 기술의 발전이 기업의 업무 자동화와 효율성을 높이는 데 기여하고 있는 것입니다.

AI로 마인크래프트 생성

마인크래프트도 생성형 AI를 활용해서 실제로 플레이해볼 수 있습니다. ‘오아시스’라는 모델을 기반으로 한 AI 마인크래프트입니다. 이 모델은 오픈 소스로 제공되어 누구나 GitHub에서 다운로드하여 사용할 수 있습니다.

오아시스 모델은 게임의 모든 프레임을 AI가 생성하는 방식으로 작동합니다. 기존의 코드가 아닌, AI 모델이 매번 새로운 요소를 생성하여 플레이어에게 신선한 경험을 제공합니다. 이로 인해 맵은 매번 새롭게 바뀌며, 플레이어는 각기 다른 환경에서 게임을 즐길 수 있습니다. 이 모델은 컨텍스트 길이에 따라 생성되는 콘텐츠가 달라질 수 있어 더욱 흥미로운 경험을 제공합니다.

실제로 AI를 활용한 마인크래프트 게임을 시연해보면, 블록을 부수고 인벤토리를 관리하는 등의 기본적인 플레이가 가능합니다. 이 AI는 마인크래프트의 플레이 방식을 학습한 디퓨전 모델로, 사용자에게 더욱 몰입감 있는 게임 환경을 제공합니다.

현재 AI 마인크래프트를 직접 플레이할 수 있는 사이트도 운영되고 있으니, 많은 분들이 이 새로운 경험을 직접 체험해보시길 권장합니다. WASD 키를 이용해 자유롭게 이동하고, 땅을 파거나 인벤토리를 열어보며 실제 게임을 하는 듯한 느낌을 받을 수 있습니다. AI의 힘으로 만들어진 이 혁신적인 게임 플레이는 앞으로 게임 산업에 또 다른 전환점을 가져올 것으로 기대됩니다.

Runway 신규 기능 Camera Control

최근 이미지 생성 기술에 있어 카메라 컨트롤 기능이 추가되었습니다. 이 기능을 활용하면 생성된 이미지를 다양한 각도에서 촬영하는 것처럼 조정할 수 있습니다. 구체적으로, 동일한 이미지를 확대하거나 축소하고, 좌우로 회전시키며, 원하는 구도의 영상을 생성할 수 있습니다.

예를 들어, 음식 사진을 촬영할 때 카메라를 돌려가며 영상을 제작할 수 있습니다. 이는 마치 실제 촬영을 하는 듯한 자유도를 제공하여, AI를 활용한 영화 제작이나 다양한 비주얼 콘텐츠 제작에 큰 도움이 될 것입니다. 또한, 이러한 카메라 조작을 통해 입체감 있는 영상도 손쉽게 만들어낼 수 있습니다. 다양한 각도에서의 촬영이 가능해지면서, 더욱 창의적이고 매력적인 콘텐츠를 제작할 수 있는 기회가 열리고 있습니다.

https://x.com/runwayml/status/1852720539707564162

Autodesk, 애니메이션 영화 혁신? Wonder Animation 베타 버전

원하는 구도로 영상을 제작할 수 있는 새로운 가능성이 열렸습니다. 오토데스크는 원더 스튜디오를 인수하며 새로운 도구를 출시했습니다. 이 도구를 사용하면 비디오 촬영 후, 해당 영상을 3D 애니메이션으로 변환할 수 있습니다. 사용자가 직접 연출한 장면을 애니메이션화하여 풍부한 표현력을 갖춘 콘텐츠를 만들 수 있는 것입니다.

이 도구는 카메라 조정 기능도 제공하여, 3D 공간 내에서 세부적인 조작이 가능합니다. 이를 통해 다양한 구도로 애니메이션을 구현할 수 있으며, 예산이 제한적인 상황에서도 아이폰 카메라와 같은 일반적인 장비로 촬영한 영상을 활용하여 멋진 애니메이션을 제작할 수 있습니다.

벤치마크 1위 차지한 신규 모델, recraft.ai

최근 이미지 생성 모델 분야에서 새로운 강자가 등장했습니다. 바로 ‘레드 팬더’라는 이름의 모델로, 이 모델은 기존의 최강자인 플럭스, 이디오그램, 미드저니 등을 제치고 1위를 차지했습니다. 레드 팬더의 이미지 퀄리티는 매우 뛰어나며, 다양한 스타일의 이미지를 생성할 수 있는 능력을 가지고 있습니다.

레드 팬더에 대한 여러 추측이 있었는데, 미드저니의 차기 버전이나 오픈AI의 최신 생성 모델일 것이라는 의견이 있었습니다. 하지만 실제로는 recraft 회사에서 개발한 모델이라고 밝혀졌습니다. 이로 인해 새로운 회사가 이미지 생성 시장에 등장하게 되었습니다. 특히 긴 텍스트를 잘 반영하여 사실감 넘치는 이미지를 생성하는 기능은 인상적이었습니다.

다른 모델들과 비교해보면, recraft v3는 현실적인 이미지를 만들어내는 데 강점을 보였습니다. recraft는 보다 현실감 있는 결과물을 제공하는 반면 플럭스는 다소 인위적인 느낌을 주었고, 스테이블 디퓨전은 AI 특유의 느낌을 강하게 드러냈습니다. 또한 벡터 이미지를 변경할 수 있습니다. 기본적으로 무료로 사용할 수 있지만, 프라이빗하게 이미지를 생성하고자 할 경우에는 10달러의 요금이 부과됩니다.

프레임간 사이 보완 해주는 AI, Framer

인터랙티브 프레임 워크인 Framer는 Interpolation(보간법) 기술을 활용하여 프레임 간의 보간을 가능하게 하며, 그 결과로 고품질의 애니메이션을 생성할 수 있습니다.

사용자는 시작과 끝을 설정한 후, 드래그를 통해 움직임을 표현할 수 있습니다. 이 과정에서 생성된 애니메이션은 지정된 방향으로 자연스럽게 진행되며, 애니메이션 제작에 매우 유용한 도구로 자리잡고 있습니다. 예를 들어, 사용자가 원하는 움직임에 따라 객체를 조정하면, 그에 맞춰 애니메이션이 실시간으로 반영됩니다.

특히, 특정 요소의 움직임을 설정하고 이를 연결함으로써, 진화하는 장면이나 변신하는 모습 등 다양한 애니메이션을 자연스럽게 생성할 수 있습니다. 사용자는 스타트와 엔드 포인트를 설정하여, 헐크 변신과 같은 실사 이미지를 포함한 애니메이션도 구현할 수 있습니다. 이러한 혁신적인 기능은 허깅 페이스 데모와 함께 제공되어, 사용자들이 보다 손쉽게 실험할 수 있는 환경을 제공합니다.

애플 인텔리전스 환각 증세 보고

최근 애플 인텔리전스가 정식 출시되면서 사용자들은 영어로 언어 설정만 하면 바로 사용할 수 있게 되었습니다. 그러나 이 AI에 대한 비판도 적지 않은데, 특히 환각 증세가 두드러진다는 점에서 우려의 목소리가 나오고 있습니다. 한 트위터 사용자에 따르면, 애플 인텔리전스가 자신의 어머니가 보낸 메시지를 요약하면서 “레드 랜드와 팜 스프링에서 산책을 했다”는 식으로 뜬금없는 내용으로 요약했다고 합니다. 그러나 실제 메시지는 자전거에 치어 죽을 뻔했다는 무시무시한 내용이었다고 합니다. 이러한 환각 현상이 포함된 요약은 사용자를 혼란스럽게 만들고 있습니다.

또 다른 사례로는 거리에서 세워둔 자동차에 대한 설명이 있었습니다. 애플 인텔리전스는 이 내용을 “불법 주차 라인”이라고 요약했는데, 실제로는 자동차의 상태를 설명하는 내용이었습니다. 또한, 뉴스에서 전직 모델이 트럼프 전 대통령을 통해 제프리 앱스타인을 만나 성추행을 당했다는 폭로가 있었는데, 애플 인텔리전스는 이를 “트럼프 앱스타인이 자신을 더듬었다”고 간단히 요약했습니다. 이러한 잘못된 요약 사례들이 점점 늘어나고 있는 상황입니다.

그럼에도 불구하고 애플은 지속적인 업데이트를 통해 개선할 계획으로 보입니다. 최근에는 ‘에스크 시리’라는 기능이 추가되어 사용자가 채팅 형식으로 질문할 수 있게 되었는데, 사용자가 “내 다음 비행기는 무엇인가?”라고 물어보면 시리는 단순히 구글 검색 결과를 보여주는 방식으로 응답했습니다. 이는 사용자들이 기대했던 요약된 답변과는 거리가 먼 결과여서 아쉬움을 남기고 있습니다. 현재 애플 인텔리전스는 기대에 미치지 못하는 성능을 보이고 있는 것으로 평가되고 있습니다.

보스턴다이내믹스 공작 작업 영상 공개

보스턴 다이나믹스에서 아틀라스 로봇의 공장 작업 영상이 공개되었습니다. 이번 영상은 자율적으로 작업을 수행하는 아틀라스의 능력을 보여주며, 특히 테슬라의 텔레오퍼레이션 논란과 관련하여 더욱 주목받고 있습니다. 아틀라스는 완전 자율적으로 작업을 수행하는 모습이 인상적입니다.

영상 속에서 아틀라스는 시각 인식을 통해 작업을 수행하며, 3D 인식을 활용하여 정밀하게 물체를 다루는 장면이 포착되었습니다. 로봇이 수그러들어 물체를 꺼내는 모습은 마치 사람과 같은 유연함을 보여줍니다. 이러한 작업은 원격 조작 없이도 가능하다는 점에서 큰 의미를 갖습니다.

또한 할로윈 의상을 입은 아틀라스의 모습도 공개되었습니다. 이 장면에서 갑작스럽게 사람이 나타나 아틀라스를 움직이게 되는데, 그럼에도 불구하고 아틀라스는 여전히 능숙하게 작업을 수행합니다. 찔러 넣는 동작에서부터 정확하게 물체를 취급하는 모습까지, 아틀라스의 정교한 작업 수행능력을 확인할 수 있었습니다.

링크드인, 채용 담당 ‘AI 에이전트’ 출시…채용 업무 80% 자동화

링크드인에서 채용 담당 AI 에이전트를 출시하였습니다.(기사) 이 채용 어시스턴트는 채용 담당자의 업무를 크게 도와주는 도구로, 약 80%의 과정을 자동화합니다. 이제는 지원하는 측에서도 AI가, 뽑는 측에서도 AI가 활용되는 시대가 도래했습니다. AI가 지원자와 채용 담당자의 역할을 동시에 수행하게 되는 이 변화는 앞으로의 채용 시장에 큰 영향을 미칠 것으로 예상됩니다.

데이터탐정코난

관리자입니다.

datachat.kr