Apple po cichu udostępniło sieć neuronową Ferret, która działa z tekstem i obrazami
W październiku Apple, przy wsparciu naukowców z Cornell University, udostępniło publicznie swój własny multimodalny model językowy Ferret, który może akceptować fragmenty obrazów jako zapytania.
Wydaniu Ferret na GitHub w październiku nie towarzyszyły żadne istotne ogłoszenia ze strony Apple, ale projekt przyciągnął następnie uwagę ekspertów branżowych. Sposób działania Ferret polega na tym, że model bada określony fragment obrazu, identyfikuje obiekty w tym obszarze i obrysowuje je ramką. System postrzega obiekty rozpoznane we fragmencie obrazu jako część zapytania, na które odpowiedź jest dostarczana w formacie tekstowym.
Użytkownik może na przykład wybrać obraz zwierzęcia i poprosić Ferret o jego rozpoznanie. Model odpowie, do jakiego gatunku należy zwierzę, a ty możesz zadać mu dodatkowe pytania w kontekście, wyjaśniając informacje o innych obiektach lub działaniach.
Otwarty model Ferret to system zdolny do “łączenia i udowadniania czegokolwiek, gdziekolwiek, z dowolnymi szczegółami”, wyjaśnił Zhe Gan, badacz w dziale AI firmy Apple. Eksperci branżowi podkreślają znaczenie wydania projektu w tym formacie, ponieważ pokazuje on otwartość tradycyjnie zamkniętej firmy.
Według jednej z wersji, Apple podjęło ten krok, ponieważ chce konkurować z Microsoftem i Google, ale nie ma porównywalnych zasobów obliczeniowych. Z tego powodu nie mogła liczyć na wydanie własnego konkurenta ChatGPT i musiała wybrać między współpracą z opartym na chmurze hiperskalerem a wydaniem projektu w otwartym formacie, tak jak wcześniej zrobił to Meta.