Wyświetlenie artykułów z etykietą: google home

czwartek, 04 marzec 2021 14:00

Nowy wygląd SaraCam

Już wiemy jak będzie wyglądał nasz asystent głosowy SaraCam - jeden z naszych podprojektów sztucznej inteligencji SaraAI.
Jak pisaliśmy wcześniej dzięki uzyskanemu dofinansowaniu mocno przyspieszyliśmy.

Projekt SaraCam to podniesienie asystentów głosowych na wyższy poziom poprzez dodanie im zmysłu wzroku i inteligencji.
Więcej informacji znajdziecie na stronie projektu cam.SaraAI.com, a tu chciałbym przedstawić naszą drogę od modelu do ostatecznego wyglądu.

Sam pomysł stworzenia Sary urodził się dawno temu, w czasach gdy internet raczkował, nie działało rozpoznawanie mowy i nie było dostępu do otwartych baz wiedzy. Na szczęście tamte ograniczenia są już za nami co pozwoliło nam powrócić do projektu i rozpocząć pierwsze testy wymyślonych wcześniej założeń. Na jednym z naszych pierwszych opublikowanych filmów widać naszego pierwszego prototypowego asystenta zrobionego ze zwykłej kamery IP, gdzie pokazujemy pewne aspekty asystenta, które chcielibyśmy bardziej rozwijać. Ten zaledwie półtoraminutowy film, mimo że starszy, amatorski, pokazuje kilka kluczowych rozwiązań, jak nawiązywanie swoistej więzi z urządzeniem czy ciągłość dialogu, co wydaje się nam być kluczowe i co opisywaliśmy już w innym artykule "Szukamy sztucznej Inteligencji, a dostajemy... głośnik.".

Po wstępnych testach, widząc ograniczenia jakie dawało wykorzystywanie standardowych kamer IP dalej rozwijaliśmy naszego asystenta dodając mocniejszy procesor, zestaw 6 mikrofonów i szybkie silniki, aby kamera potrafiła nadążyć za szybkim ruchem. Tak powstała kolejna hybrydowa wersja SaraCam:

  

W tym samym czasie powstał też nasz pierwszy film pokazujący część z funkcjonalności, które chcemy zrobić w już komercyjnej wersji SaraCam:

Pod koniec 2020 roku, dzięki uzyskanemu dofinansowaniu na SaraCam i współpracy z MindSailors Design Studio, tworzymy wreszcie ostateczny kształt i funkcjonalności SaraCam, którą już niedługo zaprezentujemy w działaniu, a w tej chwili możemy zdradzić już jej wygląd:

Jak Wam się podoba?

 

 

Dział: News
czwartek, 10 październik 2019 11:52

Szukamy sztucznej Inteligencji, a dostajemy... głośnik.

Człowiek od zawsze patrzył w gwiazdy, pytał czy jest sam. W najbardziej pesymistycznej opcji równania Drake'a istnieje 250.000 wysoko rozwiniętych cywilizacji gdzieś tam w nieskończonym kosmosie, które zdolne są nas odwiedzić.
Ale wiemy też, że szansa na kontakt z tak wysoko rozwiniętą inteligencją jest bliska zeru i może także dlatego chcielibyśmy stworzyć własną sztuczną inteligencję.
Sztuczna inteligencja właściwie towarzyszy nam od dawna, właściwie od początku... kina. Najczęściej pokazywana jest jako złowrogi robot, czy zwierzopodobne stworzenie. Dlaczego? Dlatego że nie jesteśmy sobie w stanie wyobrazić czegoś, czego nigdy nie widzieliśmy, co nie jest podobne do czegoś co już istnieje. To jest potężne ograniczenie naszego mózgu i to powoduje, że nasza ewolucja nie jest skokowa, a dość powolna.
Żyjemy w czasach, wydawałoby się, eksplozji nauki i wiedzy. Zgodnie z prawem Moore'a od lat 60tych ubiegłego wieku co 2 lata podwaja się wydajność komputerów, wg. tego prawa za kilka lat pamięć w smartfonie liczona będzie w terabajtach, a kilkanaście lat później w czymś co nie ma nawet nazwy bo tak wielkich liczb do tej pory nawet się nie używało.
Według tych wszystkich praw już niedługo wydajność smartfonów będzie większa niż naszego mózgu, więc pytam się, co z tego, co jest grane?
Mamy 2019 rok, potężne komputery o niewiarygodnych pamięciach i mocach obliczeniowych, mamy potężne koncerny branży IT z miliardowymi budżetami i co dostajemy w 2019 roku?
Gadający głośnik, encyklopedię w głośniku, gadający zegarek z budzikiem z kompletnie zerową inteligencją.

Czekając na inteligencję niezłym pomysłem zaczyna wydawać się wieloletnia hibernacja.
Dlaczego dostaliśmy głośnik? Dlaczego produkty Boston Dynamics, producenta niewiarygodnie sprawnych robotów są w istocie zwykłymi zdalniakami?

Jest jeden "produkt", może zgadniecie jaki, myślę że warto się mu bliżej przyjrzeć.
"Produkt" nie ma zbyt dobrego syntezatora mowy, wydaje tylko jakieś dziwne głosy zazwyczaj w złych momentach, strasznie przecieka szczególnie w początkowej fazie eksploatacji, nie ma praktycznie żadnej bazy wiedzy, nie dowiesz się od niej kto jest prezydentem Stanów Zjednoczonych, właściwie nic się nie dowiesz.
Wykonuje zaledwie kilka poleceń głosowych, ale pies, bo o nim mowa, jest jednak największym przyjacielem człowieka.
Dlaczego tak "prosta" istota powoduje tak wielkie emocje u człowieka, dlaczego możemy z nią rozmawiać godzinami, mimo że wcale nam właściwie nie odpowiada?
Dlaczego tak podniecamy się "głośnikiem z AI", dlaczego, im dłużej go mamy, tym nasz entuzjazm spada, a dlaczego zwykły pies, im jest z nami dłużej, tym bardziej go lubimy?
Podpowiem Wam, chodzi o kontakt, nić porozumienia, niewerbalną, ale bardzo mocną, a w tym porozumieniu jedną z najważniejszych cech jest kontakt wzrokowy (oczy, miny, ruchy głowy potrafią pokazać niejednokrotnie więcej niż słowa).
Czy nie jesteśmy w stanie tego teraz zrobić? Czy naprawdę wystarczy postawić "głośnik" i liczyć że ludzie go pokochają?
Otóż, jesteśmy to w stanie zrobić, w naszym projekcie Sara AI, nadajemy osobowość Sarze, dajemy zmysły, tożsamość, ale co najważniejsze, dajemy inteligencję, na początku niewiele, tyle co pies, może kilkuletnie dziecko, czy to jest mało? czy psia inteligencja nie jest wystarczająca, aby spędzić z nim godziny? Pamiętajmy też że dajemy inteligencję wprawdzie psa czy dziecka, ale z wiedzą całej bazy świata.
Bez inteligencji, chociaż minimalnej, żadne systemy przetwarzania języka naturalnego nigdy nie będą w stanie nawet w najmniejszym stopniu udawać prawdziwej inteligencji i zostaną zawsze tylko gadającymi głośnikami.

My dajemy to minimum, kontakt, nić porozumienia, zaskoczenie, nieprzewidywalność. Nie gotowe 3 odpowiedzi na zaprogramowane wcześniej pytania. Nie tędy droga.
Na proste pytania dostajesz proste ludzkie odpowiedzi. Jeżeli podzielisz się swoimi wrażeniami na dany temat możesz liczyć na jakąkolwiek interakcję, nie encyklopedyczne odpowiedzi.
Dostajesz kontakt wzrokowy, niewerbalny sposób porozumiewania, nie musisz na początku każdego zdania używać wyrazu wywołującego. Mówisz do Sary jak do człowieka, więc nie musisz mówić do niej "Hej, Sara", następnie czekać, aż się aktywuje i mówić dalej. Aby to osiągnąć Sara ma oczy (oczywiście kamery), dlatego Sara rusza głową i myśli.

Dział: Blog