The Good Journal#9 Een zoektocht naar goede AI

4 juli 2024

The Good Journal#9 Een zoektocht naar goede AI

Binnenkort rollen we Nextcloud server v27 uit als onze productieversie en zullen we de upgrade langzaam uitrollen naar elke omgeving. Daarmee zijn een aantal mooie nieuwe functies geïntroduceerd, waarvan de AI-functies het meest in het oog springen.

We zijn niet zo dol op het algemene gebruik van de term "AI". Dit is niet het nieuwe Skynet en het is niet op weg om terminators te maken. We houden veel meer van "Large Language Model" of "LLM". Want dat is alles wat het is, een grote doos met gegevens met een index die je een guestimation kan geven van wat je waarschijnlijk als volgende zou willen zien op basis van de input die je hebt gegeven. Op het eerste gezicht doorstaat het misschien een Turingtest, maar het heeft geen intelligentie. https://plato.stanford.edu/entries/chinese-room/

Het verschil in ethiek tussen ontwikkeling en hosting

Nextcloud heeft een beoordelingssysteem ingesteld voor het beoordelen van de ethische normen van de "AI" functies en apps die je binnen Nextcloud kunt gebruiken. Dit is gedaan vanuit het perspectief van ontwikkelaars en zolang je de software waarop het draait kunt beheren, de software kunt gebruiken waarmee het model is getraind en zelf de trainingsgegevens kunt samenstellen, krijgt het een goede beoordeling.

Dit is voldoende inspanning vanuit het oogpunt van de ontwikkelaar. Als je overweegt om zulke dingen te hosten, wordt het iets ingewikkelder. Als je gewoon een VM aanbiedt met hardware die is afgestemd op het draaien van dergelijke software, moet je de selectie van de modellen overlaten aan de beheerder of gebruiker. Dit is hoe de meeste AI-as-a-service dit probleem aanpakt. Het wordt aan de gebruiker overgelaten om te bepalen welke modellen hij ethisch verantwoord en acceptabel vindt. Als hier een duidelijke mededinger voor zou zijn, zou het geen probleem zijn. Ik heb echter nog geen model gevonden dat duidelijk auteursrechtelijke problemen vermijdt. Sommige mensen werken aan dit concept: https://huggingface.co/blog/Pclanglais/common-corpus

Dit bewijst dat je schendingen van het auteursrecht niet hoeft te accepteren, een situatie die momenteel door veel "AI"-bedrijven als onvermijdelijk wordt voorgesteld. Maar dit heeft zich nog niet ontwikkeld tot een bruikbaar model.

We doen aan "managed hosting". We zijn betrokken bij het gebruik en de workflow, dus we delen de verantwoordelijkheid voor deze laatste stap. Idealiter zouden we een model gebruiken dat is getraind met een dataset uit het publieke domein, maar dit werk is momenteel incompleet en onbruikbaar.

Hoe zit het met de visuele modellen?

Het bevat in wezen hetzelfde probleem. Op het moment van schrijven hebben verschillende bedrijven modellen getraind met behulp van Creative Commons of hun eigen afbeeldingen, om zo het auteursrechtprobleem in de trainingsgegevens te omzeilen (wat weer aantoont dat dit kan), maar noch het model, noch de software die gebruikt is om het model te trainen, noch de trainingsgegevens zijn beschikbaar. Dit zou nog steeds negatief zijn voor het beoordelingssysteem van Nextcloud, en ze hebben geen API om verbinding te maken.

Het goede, het slechte, het ethische.

We hebben een extra vereiste voor de ethische beoordeling: het gebruikte model moet zijn getraind op gecureerde gegevens om problemen met auteursrechtschending te voorkomen. Het is niet voldoende om technisch in staat te zijn om gegevens te verzamelen, selecteren en cureren en je eigen model te trainen. Als klein hostingbedrijf hebben we geen ethische of AI-afdeling, wat onze mogelijkheden om gegevens te verzamelen en modellen te trainen beperkt. Bovendien moet het gebruik binnen redelijke CPU- en geheugenlimieten blijven om een grote prijsstijging te voorkomen.

Maar wat als we het er niet mee eens zijn?

We willen je de informatie geven zoals wij die zien en een aantal van onze beslissingen verduidelijken. We zullen sommige "AI"-functies en software hosten en andere niet, maar als je verbinding wilt maken met ChatGPT of een VPS waarop LocalAI draait, helpen we je graag om het aan te sluiten en de API-sleutels toe te passen op je omgeving.

Onthoud dat het gebruik hiervan ervoor kan zorgen dat je gegevens buiten je eigen land worden verwerkt of door een bedrijf in een ander land, wat de digitale soevereiniteit van je gegevens kan doorbreken. Zelfs als je bijvoorbeeld een VPS gebruikt om LocalAI te hosten op Amazon of zelfs DigitalOcean, zijn deze bedrijven en hun servers onderworpen aan de wetten van de landen waarin ze zijn gehuisvest.

Laten we ons richten op de praktische implicaties. Er zijn verschillende gebieden in Nextcloud waar een LLM wordt gebruikt. Ik heb de classificatie gegeven die Nextcloud eraan heeft gegeven en de classificatie die wij eraan zouden geven, evenals een status voor het gebruik.

Tekstgeneratie

LocalAI

Op dit moment is er geen model dat we kunnen hosten of aanbevelen waarbij het gebruik van auteursrechtelijk beschermd materiaal volledig wordt vermeden.

Status: Getest, kan op verzoek worden aangesloten
Beoordeling Nextcloud: Groen
TheGoodCloud: Geel

OpenAI

Dit is ChatGPT 4, een controversieel model dat erom bekend staat auteursrechtelijk beschermd materiaal te bevatten. Het is waarschijnlijk geen verrassing voor iedereen die dit leest dat het geen van alle voldoet. Het werkt best goed, maar het is niet zo open als je op grond van de naam zou verwachten.

Status: Getest, API-verbinding kan worden aangevraagd.
Beoordeling Nextcloud: Rood
TheGoodCloud: Rood

Afbeeldingen

App herkennen

Beeld-, object- en gezichtsherkenning.

We schakelen deze app niet standaard in en we testen momenteel de functionaliteit ervan. Het vergt veel resources en zal waarschijnlijk niet goed werken in onze kleinere consumentenomgevingen zonder dat we de prijs voor deze omgevingen verhogen om meer CPU en geheugen toe te wijzen. De modellen zijn volledig getraind en bevatten geen correcties of aanpassingen van Nextcloud zelf. De trainingsgegevens voor objecten, gezichten en acties zijn beschikbaar, maar informatie over het cureren van de trainingsgegevens ontbreekt. De trainingsgegevens voor het muziekgenre-herkenningsmodel zijn niet beschikbaar. Op de een of andere manier krijgt dit nog steeds een groene, ethische beoordeling van Nextcloud, maar niet zo veel van ons.

Status: Testen, niet gereed. Zorgt voor een hoge belasting van kleine servers.
Beoordeling Nextcloud: Groen
TheGoodCloud: Geel (niet gecureerd om copyrightproblemen te vermijden)

OpenAI

Dall-e beeldgeneratie.
Status: Getest, werkt. Externe API, niet open.
Beoordeling Nextcloud: Rood
TheGoodCloud: Rood

LocalAI

Gebruikt een StableDiffusion model. Deze modellen veroorzaken veel discussie omdat bekend is dat ze afbeeldingen en kunstwerken bevatten waar auteursrecht op rust.

Status: Werkt, kan zelf worden gehost en verbonden met behulp van een API-sleutel.
Beoordeling Nextcloud: Geel
TheGoodCloud: Oranje

Vertalingen

Vertaal

Deze app maakt gebruik van de Opus-modellen van de Universiteit van Helsinki. Het is volledig open-source. De gegevensbron was moeilijk te vinden. De OPUS dataset verzamelt echter meertalige inhoud met een vrije licentie om een vertaalmodel te trainen, zoals vertaalde Wikipedia artikelen. Er is een beperkte diversiteit in de ondersteunde talen.

Status: Getest en kan worden aangevraagd.
Beoordeling Nextcloud: Groen
TheGoodCloud: Groen

LibreTranslate integratie

Vereist dat de Libretranslate server ergens draait. https://github.com/LibreTranslate/LibreTranslate

Het is inderdaad open source, maar moet op een aparte server worden gehost. Ik heb geen vermelding gevonden van hoe de trainingsgegevens zijn gecureerd en verzameld. Zolang ik niet weet waar dat vandaan komt, scoort het niet zo hoog als de vertaal app. Als ik het vind en het is inderdaad gecureerd om problemen met auteursrechten te voorkomen. (waarvan ik vermoed dat het waar is), kunnen we het draaien in ons Kubernetes-cluster en het aanbieden als een betaalde add-on, maar de vertaal-app zal waarschijnlijk volstaan voor de meeste gebruikers.

Status: Testen/informatie onvolledig.
Beoordeling Nextcloud: Groen
TheGoodCloud: Geel (heeft meer informatie nodig)

Integratie

Er is helemaal niets open source of beschikbaar. Dit is alleen voor het aansluiten van de API. Als je Deepl al gebruikt in je workflow, kan dit handig zijn, maar als je op zoek bent naar een ethische vertaaloptie, raden we de Translate app aan.

Status: Het koppelen van je Deepl account is beschikbaar op aanvraag.
Beoordeling Nextcloud: Rood
TheGoodCloud: Rood

OpenAI

OpenAI heeft een aantal erg mooie modellen en functies, maar geen van de trainingsgegevens is open of actief gecureerd om problemen met auteursrechten te voorkomen.

Status: Verbinding is getest. Op verzoek kunnen we de API-sleutel aan de server toevoegen.
Beoordeling Nextcloud: Rood
TheGoodCloud: Rood

LocalAI

Op dit moment is er geen model dat we kunnen hosten of aanbevelen waarbij het gebruik van auteursrechtelijk beschermd materiaal volledig wordt vermeden.

Status: De verbinding is getest en kan worden verbonden met een API-sleutel.
Beoordeling Nextcloud: Groen
TheGoodCloud: Geel

Over het algemeen:

Wij raden de vertaal-app aan. Het is lokaal en open source, trainingsgegevens zijn beschikbaar en de huidige modellen zijn al gemaakt met zorgvuldig gecureerde gegevens.

Opties voor spraak-naar-tekst

Dit is niet handig om te dicteren, maar kan bijvoorbeeld gebruikt worden om een transcript te maken voor een presentatie.

Fluister-spraak-naar-tekst app

De software is open-source, maar de trainingsgegevens zijn niet beschikbaar.

Status: Testen/ langzaam
Beoordeling Nextcloud: Geel
TheGoodCloud: Orange (trainingsgegevens zijn niet beschikbaar en niet gecureerd om copyrightproblemen te vermijden)

App repliceren

Status: Werkt, externe API
Beoordeling Nextcloud: Geel
TheGoodCloud: Orange (trainingsgegevens niet beschikbaar en niet gecureerd om copyrightproblemen te vermijden)

OpenAI

Status: Werkt, externe API. Op verzoek kunnen we de API-sleutel voor je OpenAI-account toevoegen aan je omgeving.
Beoordeling Nextcloud: Geel
TheGoodCloud: Orange (trainingsgegevens niet beschikbaar en niet gecureerd om copyrightproblemen te vermijden)

LocalAI

De software om LocalAI uit te voeren is open source en kan zelf worden gehost. De trainingsgegevens van het model zijn echter niet beschikbaar. Hiervoor is een aparte server en opstelling nodig.

Status: De verbinding is getest en zal werken, maar TheGoodCloud zal LocalAI niet hosten of aanbieden als add-on. Op verzoek zullen we je API-sleutel van je eigen gehoste instantie van LocalAI toepassen op de Nextcloud-server.
Beoordeling Nextcloud: Geel
TheGoodCloud: Oranje

Over het algemeen:

Alle spraak-naar-tekst opties voor Nextcloud zijn afhankelijk van OpenAI's fluistermodellen, die niet vrij beschikbaar zijn of gecureerd om problemen met auteursrechten te voorkomen.

Overige

Mail

Het is een aparte app die we niet standaard inschakelen, maar er wordt vaak om gevraagd.

Het model wordt ter plekke gemaakt en getraind op basis van de eigen gegevens van de gebruiker. Het prioriteert je mail. Er moeten gegevens worden verzameld van je gebruik voordat er nauwkeurig kan worden geanticipeerd op je workflow. Dit wordt allemaal lokaal gedaan, dus we maken dit graag voor je mogelijk.

Status: Getest en kan worden aangevraagd.
Beoordeling Nextcloud: Groen
TheGoodCloud: Groen

Het model wordt lokaal gemaakt en getraind. Het helpt bij het markeren van aanmeldpogingen die mogelijk een probleem zijn. Dit is ethisch prima en in de meeste omgevingen al ingeschakeld.

Status: Getest en verzonden.
Beoordeling Nextcloud: Groen
TheGoodCloud: Groen

Lokaal getraind door gebruik. Alle software is open source. (Nextcloud)

Status: Getest en kan worden aangevraagd.
Beoordeling Nextcloud: Groen
TheGoodCloud: Groen

Als iemand die vertrouwt op toegankelijkheidssoftware, ben ik erg enthousiast over de ontwikkeling van Grote Taalmodellen en hun vooruitgang. En dit alles is niet om een oordeel te vellen over wie wat gebruikt en waarom. Ik begrijp heel goed dat sommige van deze functies veel gebruikers op veel manieren kunnen helpen, maar laten we eerlijk zijn; je zou dit niet lezen als je niet nieuwsgierig was naar hoe we proberen om Good te zijn terwijl we de "AI" functies aanbieden. Als ik informatie heb gemist in deze blogpost of als ik sommige dingen per ongeluk verkeerd heb geïnterpreteerd, laat het me dan weten.

The Good Journal#9 Een zoektocht naar goede AI