Данни за обучение на Apple Intelligence може да не са добити по етичен начин
Apple изглежда има проблем относно данните, използвани за обучението на Apple Intelligence, тъй като една от фирмите, които е използвала за целта, е обвинена в предполагаемо копиране на видеоклипове от YouTube.
Всички генеративни изкуствени интелекти работят чрез натрупване на огромни масиви от данни, наречени големи езикови модели (LLM), и много често източникът на тези данни е спорен. Дотолкова, че Apple многократно е заявявала, че източниците ѝ са етични, и е известно, че е платила милиони на издатели и е лицензирала изображения.
Според Wired обаче една от фирмите, чиито данни е използвала Apple, изглежда не е била толкова откровена. EleutherAI съобщава, че е създала набор от данни, наречен Pile, за който Apple е съобщила, че е използвала за обучението си по LLM.
Част от Pile обаче е наречена YouTube Subtitles, която се състои от субтитри, изтеглени от видеоклипове в YouTube без разрешение. Очевидно това е и нарушение на условията на YouTube. Наред с Apple сред фирмите, които са използвали Pile, е и Anthropic, чийто говорител твърди, че има разлика между използването на субтитри от YouTube и използването на видеоклиповете. „The Pile включва много малка подгрупа от субтитри на YouTube“, каза Дженифър Мартинес. „Условията на YouTube обхващат директното използване на платформата, което е различно от използването на набора от данни Pile.“
Salesforce също така потвърди, че е използвала Pile при изграждането на модел на изкуствен интелект за „академични и изследователски цели“. Вицепрезидентът на Salesforce по изследванията на изкуствения интелект подчерта, че наборът от данни на Pile е „публично достъпен“. Съобщава се, че разработчиците в Salesforce също така са установили, че наборът от данни на Pile включва нецензурни изрази, както и „предразсъдъци по отношение на пола и някои религиозни групи“.
Salesforce и Anthropic засега са единствените фирми, които са коментирали използването на Pile. Известно е, че Apple, Nvidia, Bloomberg и Databricks са го използвали, но те не са отговорили. Организацията Proof News твърди, че е установила, че в Pile са използвани субтитри от 173 536 видеоклипа в YouTube от над 48 000 канала. Сред използваните видеоклипове са седем от MKBHD и 337 от PewDiePie. Proof News е създала онлайн инструмент, който помага на YouTube потребителите да проверят дали техните произведения са били използвани.
Не само субтитри от YouTube обаче са били събирани без разрешение. Твърди се, че е използвана Wikipedia, както и документация от Европейския парламент. Преди това учени и дори математици са използвали хиляди имейли на служители на Enron за статистически анализ. Сега се твърди, че Пийпъл е използвал текста на тези имейли за своето обучение.