Apple po cichu udostępniło sieć neuronową Ferret, która działa z tekstem i obrazami

W październiku Apple, przy wsparciu naukowców z Cornell University, udostępniło publicznie swój własny multimodalny model językowy Ferret, który może akceptować fragmenty obrazów jako zapytania.

Wydaniu Ferret na GitHub w październiku nie towarzyszyły żadne istotne ogłoszenia ze strony Apple, ale projekt przyciągnął następnie uwagę ekspertów branżowych. Sposób działania Ferret polega na tym, że model bada określony fragment obrazu, identyfikuje obiekty w tym obszarze i obrysowuje je ramką. System postrzega obiekty rozpoznane we fragmencie obrazu jako część zapytania, na które odpowiedź jest dostarczana w formacie tekstowym.

Użytkownik może na przykład wybrać obraz zwierzęcia i poprosić Ferret o jego rozpoznanie. Model odpowie, do jakiego gatunku należy zwierzę, a ty możesz zadać mu dodatkowe pytania w kontekście, wyjaśniając informacje o innych obiektach lub działaniach.

Otwarty model Ferret to system zdolny do “łączenia i udowadniania czegokolwiek, gdziekolwiek, z dowolnymi szczegółami”, wyjaśnił Zhe Gan, badacz w dziale AI firmy Apple. Eksperci branżowi podkreślają znaczenie wydania projektu w tym formacie, ponieważ pokazuje on otwartość tradycyjnie zamkniętej firmy.

Według jednej z wersji, Apple podjęło ten krok, ponieważ chce konkurować z Microsoftem i Google, ale nie ma porównywalnych zasobów obliczeniowych. Z tego powodu nie mogła liczyć na wydanie własnego konkurenta ChatGPT i musiała wybrać między współpracą z opartym na chmurze hiperskalerem a wydaniem projektu w otwartym formacie, tak jak wcześniej zrobił to Meta.

Source vsviti
You might also like
Comments
Loading...

Ta strona używa plików cookie, aby poprawić komfort korzystania z niej. Zakładamy, że nie masz nic przeciwko temu, ale możesz zrezygnować, jeśli chcesz. Akceptuj Czytaj więcej