UI-TARS (User Interface – Text-based Autonomous Recourse System) ist ein neuartiges KI-Agentenmodell, das entwickelt wurde, um Ihren Computer per natürlicher Sprache zu steuern
Einführung
(UI-TARS/README.md at main · bytedance/UI-TARS · GitHub) Statt komplizierter Skripte oder manueller Klicks können Sie UI-TARS Anweisungen in normalem Deutsch oder Englisch geben – etwa ein Programm öffnen, in einem Fenster etwas anklicken oder Text eingeben – und der Agent führt diese Aktionen eigenständig aus. UI-TARS integriert dabei Wahrnehmung (Vision) und Steuerung: Es macht regelmäßig Screenshots Ihres Desktops, erkennt visuell die Benutzeroberfläche und plant entsprechend die Maus- und Tastatureingaben. Dieses System läuft vollständig lokal auf Ihrem Rechner, ohne Daten an externe Server zu senden (Ihre Privatsphäre bleibt gewahrt) (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.)
In dieser Anleitung verbinden wir UI-TARS mit dem leistungsfähigen Qwen 2.5-Modell. Qwen 2.5 ist eine Familie großer Sprachmodelle von Alibaba Cloud, deren neueste Vision-Language-Variante (Qwen2.5-VL) als „visueller Assistent“ fungiert (Qwen/Qwen2.5-VL-7B-Instruct · Hugging Face) Das bedeutet, Qwen 2.5-VL kann Bildschirminhalte interpretieren und Anweisungen daraus ableiten – ideal, um die Aufgaben von UI-TARS zu unterstützen. Insbesondere wurde Qwen2.5-VL darauf trainiert, Computer- und Smartphone-Oberflächen zu bedienen (Qwen/Qwen2.5-VL-7B-Instruct · Hugging Face) Qwen 2.5 ist als Open-Source-Modell verfügbar und liegt in verschiedenen Größen vor (von ca. 3 Milliarden bis 72 Milliarden Parameter) (Qwen/Qwen2.5-VL-7B-Instruct · Hugging Face) In dieser Anleitung nutzen wir die 7B-Instruct-Variante, da sie einen guten Kompromiss zwischen Leistungsfähigkeit und Hardware-Anforderungen darstellt. (Hinweis: Qwen2.5 beherrscht über 29 Sprachen, darunter Deutsch (GitHub - QwenLM/Qwen2.5: Qwen2.5 is the large language model series developed by Qwen team, Alibaba Cloud.) Die Benutzeroberfläche von UI-TARS ist allerdings nur auf Englisch oder Chinesisch verfügbar (Exploring UI-TARS : r/LocalLLaMA) weshalb wir bei den Beispielen meist Englisch verwenden.)
Diese Anleitung führt Sie Schritt für Schritt durch die Installation von UI-TARS auf Windows 10 und die Einrichtung des Qwen 2.5-Modells. Sie benötigen keine speziellen Vorkenntnisse – wir erklären alle erforderlichen Schritte, von Download-Links bis zur Problembehandlung, sodass auch Einsteiger folgen können. Am Ende werden Sie in der Lage sein, Ihren Windows-10-PC per Sprache zu steuern, unterstützt von modernster KI-Technologie.
Voraussetzungen
Bevor Sie beginnen, stellen Sie bitte sicher, dass folgende Voraussetzungen erfüllt sind:
Betriebssystem: Ein PC mit Windows 10 (64-Bit). UI-TARS Desktop unterstützt Windows 10 und macOS offiziell (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) (für Linux gibt es derzeit kein vorgefertigtes Paket). Die Anleitung konzentriert sich auf Windows 10; unter Windows 11 sollten die Schritte sehr ähnlich sein.
Hardware: Idealerweise ein leistungsfähiger Rechner mit einer NVIDIA-Grafikkarte. Wenn Sie Qwen 2.5 lokal ausführen möchten (Option B unten), wird eine GPU mit mind. 12–16 GB VRAM empfohlen. Für das 7B-Modell sind ~14 GB Grafikspeicher nötig, um es in voller Präzision zu laden – mehr VRAM schadet nicht. (UI-TARS stellt auch kleinere Modelle bereit, z.B. 2B, jedoch ist das 7B-Modell für sinnvolle Leistung empfohlen (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) ) Ohne geeignete GPU können Sie alternativ die Cloud-Option (Option A) nutzen.
Festplattenspeicher: Ca. 20 GB freier Speicher. UI-TARS selbst ist nur ~130 MB groß, aber das Qwen-7B-Modell benötigt rund 13–14 GB Speicherplatz (ggf. temporär etwas mehr beim Entpacken).
Internetverbindung: Für den Download der Software und Modelle (insbesondere bei Option B, da das Modell heruntergeladen werden muss). Nach Einrichtung kann UI-TARS selbst auch offline arbeiten, wenn Sie das Modell lokal betreiben.
Python-Umgebung (nur für Option B): Wenn Sie Qwen 2.5 lokal ausführen möchten, benötigen Sie eine aktuelle Python 3 Installation (3.10 oder neuer) auf Ihrem Windows-System, inklusive Pip. Für Option A (Cloud) ist keine lokale Python-Umgebung nötig.
Docker (optional): Nur erforderlich, falls Sie auf Windows Probleme mit der lokalen Ausführung haben und stattdessen das Modell in einem Docker-Container ausführen wollen. Für die meisten Nutzer ist das nicht notwendig – wir erwähnen Docker nur als Workaround bei speziellen Fehlern.
Hinweis: Stellen Sie sicher, dass auf Ihrem Windows-System alle aktuellen Updates installiert sind. Das kann helfen, Kompatibilitätsprobleme zu vermeiden. Sie sollten zudem Administratorenrechte haben, um Software zu installieren und UI-TARS die Steuerung des PCs zu erlauben.
Jetzt, da alle Voraussetzungen geklärt sind, können wir mit der Installation beginnen.
Schritt 1: UI-TARS Desktop herunterladen und installieren
Als erstes installieren wir die UI-TARS Desktop-Anwendung auf Ihrem Windows 10 Rechner.
1. Download von UI-TARS Desktop: Gehen Sie zur offiziellen UI-TARS-Desktop GitHub-Seite und öffnen Sie die Releases-Sektion. Dort finden Sie stets die neueste Version als Download (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) Klicken Sie auf die neueste Veröffentlichung (z.B. „v0.0.3“ vom Januar 2025) und laden Sie die Windows-Installationsdatei herunter. Diese heißt beispielsweise UI.TARS-0.0.3.Setup.exe (für Version 0.0.3) und ist ca. 136 MB groß (UI-TARS Desktop - Browse /v0.0.3 at SourceForge.net) Speichern Sie diese Datei an einem Ort, wo Sie sie leicht wiederfinden (z.B. Ihrem Downloads-Ordner).
2. Installation ausführen: Suchen Sie die heruntergeladene Datei (UI.TARS-...Setup.exe) und starten Sie sie mit Doppelklick. Eventuell warnt Windows SmartScreen davor, unbekannte Apps auszuführen – in dem Fall klicken Sie auf „Weitere Informationen“ und dann auf „Trotzdem ausführen“. Bestätigen Sie auch die Nachfrage der Benutzerkontensteuerung (UAC) mit „Ja“, um die Installation zu erlauben.
3. Installationsassistent befolgen: Ein Setup-Assistent öffnet sich. Folgen Sie den Schritten auf dem Bildschirm:
Wählen Sie ggf. das Installationsziel (Standardmäßig z.B. C:\Programme\UI-TARS Desktop\ – Sie können den Standard in der Regel übernehmen).
Klicken Sie auf „Weiter“/„Next“ und schließlich auf „Installieren“. Die Installation kopiert die Programmdateien auf Ihren PC.
Sobald die Installation abgeschlossen ist, klicken Sie auf „Fertig stellen“. Möglicherweise bietet der Installer an, UI-TARS direkt zu starten – Sie können das Häkchen aktiv lassen, um gleich zu prüfen, ob alles geklappt hat.
4. UI-TARS Desktop starten: Falls die Anwendung nicht automatisch gestartet wurde, öffnen Sie sie manuell. Suchen Sie im Startmenü nach „UI-TARS Desktop“ oder verwenden Sie die angelegte Verknüpfung (z.B. auf dem Desktop). Beim ersten Start kann es ein paar Sekunden dauern, bis das Programmfenster erscheint.
Wenn alles korrekt installiert wurde, sollten Sie jetzt die UI-TARS Benutzeroberfläche vor sich sehen. Diese besteht typischerweise aus einem Fenster mit einer Statusanzeige und einem Bereich, in dem Sie Eingaben machen und Ausgaben des KI-Agenten sehen können. (Auf dem Mac muss man UI-TARS noch Zugriffsrechte für Bedienungshilfen erteilen, aber unter Windows ist das nicht notwendig (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) – UI-TARS hat direkt die Kontrolle über Maus/Tastatur, da Sie es als Administrator gestartet haben.)
Tipp: Sollte das UI-TARS-Fenster nicht erscheinen oder sofort abstürzen, überprüfen Sie, ob Ihr Virenscanner oder Windows Defender die Ausführung blockiert. UI-TARS ist noch ein neues Projekt, daher erkennen einige Sicherheitstools es eventuell nicht. Sie können die Datei bei Virustotal prüfen, um ein gutes Gefühl zu haben – im Normalfall sollte es sicher sein, da es auf der offiziellen Quelle GitHub basiert.
Bis hierhin haben wir die Oberfläche installiert. UI-TARS selbst kann aber noch nichts tun, solange kein KI-Modell verbunden ist. Als nächstes kümmern wir uns um das Einrichten des Qwen 2.5 Modells.
Schritt 2: Qwen 2.5 KI-Modell bereitstellen
UI-TARS benötigt ein Sprachmodell im Hintergrund, das die vom Benutzer gegebenen Anweisungen versteht und in Aktionen übersetzt. In unserem Fall soll das Qwen 2.5 (bzw. Qwen2.5-VL) diese Rolle übernehmen.
Es gibt zwei Möglichkeiten, Qwen 2.5 mit UI-TARS zu nutzen:
Option A: Cloud-Endpoint verwenden – dabei läuft das Modell auf einem Server (z.B. Hugging Face Inference Endpoint), und UI-TARS schickt Anfragen über das Internet dorthin. Diese Variante eignet sich, wenn Ihr PC selbst nicht leistungsfähig genug ist. Sie erfordert allerdings eine Einrichtung bei HuggingFace und unter Umständen Kosten, wenn das Kontingent überschritten wird.
Option B: Lokal auf Ihrem PC ausführen – dabei laden wir das Modell auf Ihren Rechner und starten einen lokalen Dienst (per Python), mit dem UI-TARS kommuniziert. Das vermeidet Cloud-Kosten und Latenzen, setzt aber eine ausreichende Hardware (insbesondere GPU und RAM) voraus.
Wir erläutern beide Optionen. Wählen Sie Option A, wenn Sie keine starke GPU haben oder eine einfache Einrichtung bevorzugen (unter Inkaufnahme, dass die Inferenz übers Internet läuft). Wählen Sie Option B, wenn Sie über die nötige Hardware verfügen und alles lokal (offline) betreiben möchten.
Option A: Qwen 2.5 über Hugging Face Inference Endpoint (Cloud)
Hugging Face bietet einen Dienst namens Inference Endpoints, mit dem Sie ein Modell online deployen können, als wäre es eine API. UI-TARS kann dann so einen Endpoint wie eine OpenAI-API ansprechen. Diese Lösung ist praktisch, falls Ihr eigener PC nicht genug Ressourcen hat (UI-TARS Model Deployment Guide | Notion) da die Rechenlast vom HF-Server übernommen wird.
Hinweis: HuggingFace Endpoints sind in der Regel ein kostenpflichtiger Dienst (es gibt zwar eine kostenlose Testphase/Guthaben, aber dauerhafter Betrieb kostet Credits). Planen Sie diese Option eher zum Ausprobieren ein. Alternativ können Sie später den Endpoint abschalten, um Kosten zu vermeiden.
Gehen Sie wie folgt vor, um Qwen 2.5 per HF Endpoint bereitzustellen:
Hugging Face Konto: Stellen Sie sicher, dass Sie ein HuggingFace-Konto haben. Gehen Sie auf die Webseite von Hugging Face (hf.co) und melden Sie sich an oder registrieren Sie sich kostenlos.
Endpoint erstellen: Navigieren Sie zu Inference Endpoints (in Ihrem HF-Benutzerprofil oder direkt über https://ui.endpoints.huggingface.co). Klicken Sie dort auf “New Endpoint” (Neuen Endpoint erstellen).
Modell auswählen: Suchen Sie in der Modellauswahl nach „Qwen2.5-VL-7B-Instruct“ und wählen Sie dieses aus. (Sie können auch das 3B-Modell wählen, falls Sie Ressourcen sparen wollen, aber wir nehmen hier 7B für bestmögliche Ergebnisse.) Achten Sie darauf, wirklich das Vision-Language-Modell („VL“) zu nehmen, da UI-TARS Bildinformationen übergeben wird.
Hardware konfigurieren: Wählen Sie eine geeignete Hardware für den Endpoint. Für das 7B-Modell empfiehlt Alibaba z.B. eine Nvidia L40S GPU mit 48 GB Grafikspeicher (UI-TARS Model Deployment Guide | Notion) (bei HuggingFace wird das als Instance-Typ „Nvidia L40S – 1x 48G“ angezeigt). Kleinere GPUs (wie T4 oder L4) könnten für 7B knapp werden – für ein 3B-Modell würde z.B. auch ein T4 mit 16 GB reichen. HuggingFace zeigt Ihnen in der Auswahl an, ob das Modell auf der gewählten Instanz läuft.
Hinweis: Diese großen Instanztypen sind teuer; nutzen Sie ggf. das freie Guthaben zum Testen und schalten Sie den Endpoint danach ab.
Environment Settings: Lassen Sie die meisten Einstellungen auf Standard. Setzen Sie aber in den erweiterten Einstellungen ggf. die Max Tokens etwas höher (z.B. 32768) und fügen Sie die Environment-Variable CUDA_GRAPHS=0 hinzu, falls HuggingFace dies vorschlägt (es gab einen bekannten Bug, der damit umgangen wird (UI-TARS Model Deployment Guide | Notion) .
Deployment starten: Klicken Sie auf “Deploy” (Bereitstellen). Nun richtet HuggingFace den Endpoint ein – das Modell wird geladen, was einige Minuten dauern kann. Warten Sie, bis der Status auf „Running“ o.ä. wechselt.
Endpoint-Informationen abrufen: Öffnen Sie die Detailseite Ihres neuen Endpoints. Dort finden Sie die API URL (Basis-URL) und einen API-Schlüssel:
Die Base URL sieht etwa so aus: https://<ihre-endpoint-id>.ui.endpoints.huggingface.cloud – diese URL werden wir gleich in UI-TARS eintragen (mit angehängtem /v1, mehr dazu in Schritt 3).
Den API-Schlüssel können Sie über einen Button anzeigen/kopieren („Show Key“). Dieser Schlüssel beginnt meist mit hf_... und dient zur Authentifizierung bei Anfragen. Notieren oder kopieren Sie sich diesen Key sicher.
Zusätzlich gibt HuggingFace oft Beispiel-Code (Curl oder Python), wie Sie den Endpoint ansprechen können. Das können Sie nutzen, um den Endpoint zu testen. Zum Beispiel können Sie mit curl einen Test-Request schicken, um zu sehen ob das Modell antwortet. Dies ist optional – wenn Sie bis hierher alles richtig gemacht haben, können wir direkt UI-TARS damit verbinden.
Ihr Qwen 2.5-Modell läuft nun in der Cloud. Merken Sie sich die Base URL und den API-Token, denn diese benötigen wir in Schritt 3 für die UI-TARS Konfiguration.
Option B: Qwen 2.5 lokal mit vLLM ausführen
Möchten Sie das Modell lokal auf Ihrem Windows-10-Rechner laufen lassen, folgen Sie dieser Option. Wir verwenden dazu das Tool vLLM, welches von vLLM-Project entwickelt wurde. vLLM ermöglicht effiziente Inferenz großer Modelle und bringt einen integrierten HTTP-Server mit, der die OpenAI-API kompatibel nachbildet (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) UI-TARS kann somit lokal mit Qwen 2.5 kommunizieren, als wäre es die OpenAI-ChatGPT-API – nur dass die Anfragen nie das Internet verlassen, sondern an den lokalen vLLM-Server gehen.
Wichtig: Stellen Sie sicher, dass Ihre Hardware ausreicht. Für das 7B-Modell sollten ~16 GB GPU-VRAM verfügbar sein. Sollten Sie das nicht haben, können Sie es mit dem 3B-Modell versuchen (ca. 6–7 GB VRAM Bedarf) oder Option A wählen. Beachten Sie auch, dass der Grafiktreiber aktuell sein sollte (NVIDIA-Treiber ab Version 525 unterstützen CUDA 12, was vLLM benötigt).
Gehen Sie so vor, um Qwen2.5-VL lokal bereitzustellen:
Python installieren: Falls nicht bereits installiert, laden Sie Python 3.x für Windows herunter (empfohlen Version 3.10 oder neuer, 64-bit) und installieren Sie es. Achten Sie darauf, die Option „Add Python to PATH“ zu aktivieren, damit Sie Python/Pip im Terminal verwenden können.
Kommandozeile öffnen: Öffnen Sie die Windows-Eingabeaufforderung oder PowerShell. (Drücken Sie Win + R, geben Sie cmd ein und drücken Enter, um ein Terminal zu öffnen.)
vLLM und Abhängigkeiten installieren: Geben Sie im Terminal die folgenden Befehle ein, um die benötigten Python-Pakete zu installieren:
pip install -U transformers pip install vllm==0.6.6 --extra-index-url https://download.pytorch.org/whl/cu124
Dieser Vorgang installiert die neueste HuggingFace Transformers-Bibliothek sowie vLLM in der Version 0.6.6 (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) (Die Option --extra-index-url ... cu124 stellt sicher, dass die richtigen CUDA-Treiberpakete für vLLM installiert werden – hier für CUDA 12.4 passend zu aktuellen NVIDIA-Treibern (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) )Hinweis: Sollte die Installation fehlschlagen, stellen Sie sicher, dass Ihr Pip aktuell ist (python -m pip install --upgrade pip) und dass Sie eine Internetverbindung haben. Womöglich müssen Sie das Terminal als Administrator ausführen, falls Berechtigungsprobleme auftauchen.
Modell herunterladen (optional): Sie können das Qwen2.5-VL-Modell vorab herunterladen, müssen es aber nicht zwingend manuell tun. vLLM ist in der Lage, ein HuggingFace-Modell beim Start automatisch herunterzuladen, wenn Sie den Namen angeben. Dies ist bequem, erfordert aber eine stabile Internetverbindung während des Ladevorgangs. Alternativ können Sie das Modell auch manuell von HuggingFace beziehen (z.B. via git lfs oder über die Website als .bin-Dateien) und lokal entpacken – dann würden Sie statt des Modelnamens später den Pfad angeben. Für Einsteiger empfehlen wir den automatischen Download durch vLLM.
vLLM-Server starten: Führen Sie im Terminal nun den folgenden Befehl aus, um den vLLM-Server mit Qwen zu starten:
python -m vllm.entrypoints.openai.api_server \ --host 127.0.0.1 --port 8000 \ --served-model-name ui-tars \ --model Qwen/Qwen2.5-VL-7B-Instruct
Dieser Befehl lädt das Modell Qwen/Qwen2.5-VL-7B-Instruct von HuggingFace und startet einen HTTP-Server auf Ihrem Rechner (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) Wir erklären kurz die Bestandteile:
--host 127.0.0.1 beschränkt den Server auf Ihren lokalen Rechner (das ist sicherheitshalber so eingestellt, damit kein externer Zugriff möglich ist).
--port 8000 legt den Port fest (8000 ist Standard bei vLLM). Sie können einen anderen freien Port wählen, müssten dann aber später in UI-TARS denselben einstellen.
--served-model-name ui-tars legt den Modellnamen fest, unter dem der Server das Modell registriert. Wir nutzen hier "ui-tars" als einfachen Namen. (Sie könnten auch „qwen“ o.ä. nehmen – wichtig ist nur, dass wir denselben Namen in UI-TARS eintragen.)
--model Qwen/Qwen2.5-VL-7B-Instruct gibt an, welches Modell geladen werden soll. Hier nutzen wir die offizielle HuggingFace-ID des 7B-VL-Instruct Modells von Qwen. Beim ersten Mal wird vLLM nun die ~13 GB an Modelldaten aus dem HuggingFace-Hub herunterladen und anschließend ins GPU-Speicher laden. Dieser Vorgang dauert einige Minuten, abhängig von Ihrer Internetgeschwindigkeit. Haben Sie Geduld – Sie sehen im Terminal Fortschrittsmeldungen. Sobald das Modell fertig geladen ist, zeigt vLLM an, dass der Server auf 127.0.0.1:8000 lauscht (listening).
Hinweis: In der Terminal-Konsole, in der vLLM läuft, sehen Sie nun jede Menge Log-Ausgaben. Schließen Sie dieses Fenster nicht! Lassen Sie es im Hintergrund geöffnet, da hier der KI-Service läuft. Sie können das Fenster ggf. minimieren.
Falls Sie ein anderes Modell nutzen möchten, können Sie den Parameter hinter --model anpassen. Für das kleinere 3B-Modell wäre es Qwen/Qwen2.5-VL-3B-Instruct. Bei lokalen Pfaden (wenn Sie das Modell manuell heruntergeladen haben) würden Sie statt Qwen/Qwen2.5-VL-7B-Instruct den Pfad zum Ordner angeben, in dem sich die pytorch_model.bin etc. befinden.
Verifikation: Prüfen Sie, ob der vLLM-Server ohne Fehler läuft. Wenn das Terminal nach dem Laden keine Fehlermeldungen zeigt und auf Eingaben wartet (bzw. Logs anzeigt), ist alles gut. Sollte ein Fehler auftreten – z.B. ModuleNotFoundError: No module named 'resource' – keine Panik, dazu kommen wir im Abschnitt Häufige Probleme. Dieser spezielle Fehler ist bekannt und hat einen Workaround (Exploring UI-TARS : r/LocalLLaMA) Sie können in so einem Fall direkt zu Häufige Probleme unten springen. Ansonsten fahren Sie fort.
Jetzt läuft das Qwen 2.5-Modell lokal auf Ihrem PC und bietet eine OpenAI-kompatible API an (http://localhost:8000/v1). Fahren Sie mit Schritt 3 fort, um UI-TARS mit diesem lokalen Dienst (oder dem HF-Endpoint aus Option A) zu verbinden.
Schritt 3: UI-TARS konfigurieren (Verbindung mit Qwen 2.5 herstellen)
In diesem Schritt bringen wir UI-TARS und das Qwen 2.5-Modell zusammen. Egal ob Sie Option A (Cloud) oder Option B (lokal) gewählt haben – UI-TARS muss nun wissen, wo es Anfragen hinschicken soll und wie das Modell heißt.
Gehen Sie wie folgt vor:
Einstellungsmenü öffnen: Starten Sie UI-TARS Desktop (falls noch nicht geöffnet). Suchen Sie in der Oberfläche nach einem Zahnrad-Symbol oder einem Menüpunkt wie “Settings” bzw. “Einstellungen”. Klicken Sie darauf, um das Einstellungsfenster zu öffnen. (Bei der ersten Ausführung kann UI-TARS dieses Einstellungsfenster eventuell automatisch anzeigen, da noch kein Modell konfiguriert ist.)
Parameter ausfüllen: Im Einstellungsdialog sollten mehrere Felder sichtbar sein, typischerweise:
Language (Sprache) – Auswahlfeld (English oder Chinese)
VLM Provider – z.B. Auswahl zwischen verschiedenen Diensteanbietern (VLM = Vision-Language Model)
VLM Base URL – ein Textfeld für die Basis-URL des Modellendpunkts
API Key – Feld für den API-Schlüssel
Model Name – Feld für den Modellnamen
Wir füllen diese nun passend aus. Die Bedeutung der Felder wird auch im offiziellen FAQ erläutert (Exploring UI-TARS : r/LocalLLaMA)
Language: Wählen Sie hier “English” (Englisch) aus (Exploring UI-TARS : r/LocalLLaMA) Obwohl Sie dem Modell später auch deutsche Befehle geben können, ist es empfehlenswert, die Sprache auf Englisch zu lassen, da UI-TARS’ interne Kommunikation (Systemnachrichten, Aktionsbeschreibungen) für Englisch optimiert ist. (UI-TARS unterstützt nur Englisch oder Chinesisch als Interface-Sprache (Exploring UI-TARS : r/LocalLLaMA) Qwen 2.5 versteht zwar auch Deutsch (GitHub - QwenLM/Qwen2.5: Qwen2.5 is the large language model series developed by Qwen team, Alibaba Cloud.) aber um Missverständnisse zu vermeiden, nutzen wir die englische Oberfläche.)
VLM Provider: Lassen Sie diesen Wert auf dem Standard. In der aktuellen Version spielt die Auswahl noch keine funktionale Rolle (Exploring UI-TARS : r/LocalLLaMA) – es kann sein, dass hier z.B. nur "OpenAI" oder "Custom" zur Auswahl steht. Wählen Sie ggf. "Custom" oder "Local" falls vorhanden, aber im Zweifel macht das keinen Unterschied für die Verbindung.
VLM Base URL: Hier muss die Basis-URL des API-Servers eingetragen werden (Exploring UI-TARS : r/LocalLLaMA) den Sie in Schritt 2 eingerichtet haben:
Wenn Sie Option A (HF Endpoint) nutzen: Tragen Sie die Endpoint-URL ein, die Ihnen HuggingFace gegeben hat – inklusive des Pfades /v1 am Ende. Beispiel: https://<ihre-endpoint-id>.ui.endpoints.huggingface.cloud/v1. Achten Sie wirklich darauf, /v1 am Ende zu haben (Exploring UI-TARS : r/LocalLLaMA) da UI-TARS die gleichen Pfade wie die OpenAI-API nutzt (diese enden auf /v1/... für die Endpunkte) – ohne /v1 würde es zu Fehlern führen.
Wenn Sie Option B (lokalen vLLM) nutzen: Geben Sie http://localhost:8000/v1 ein (falls Sie Port 8000 gewählt haben; ansonsten entsprechend http://localhost:<IhrPort>/v1). Auch hier ist das /v1 am Schluss wichtig (Exploring UI-TARS : r/LocalLLaMA) Dadurch weiß UI-TARS, wohin es die Anfragen schicken soll – in diesem Fall an Ihren eigenen Rechner auf Port 8000.
API Key: Hier tragen Sie den API-Schlüssel ein (Exploring UI-TARS : r/LocalLLaMA)
HF Endpoint: Verwenden Sie den HuggingFace API-Token, den Sie in Schritt 2 erhalten haben (der mit hf_... beginnt). Achten Sie darauf, keine Anführungszeichen oder extra Leerzeichen mit einzufügen. Dieser Schlüssel wird von UI-TARS bei jeder Anfrage als Authorization-Header mitgeschickt, sodass der HF-Server Ihren Request akzeptiert.
Lokales Modell (vLLM): Da Ihr lokaler vLLM-Server standardmäßig keine Authentifizierung verlangt, ist der API Key hier nicht wirklich benötigt. Einige Versionen von UI-TARS lassen das Feld aber nicht leer – falls also ein Wert verlangt wird, können Sie z.B. local-12345 oder einen anderen Dummy-String eintragen. vLLM ignoriert den Key üblicherweise, da es jeden Request annimmt, aber UI-TARS möchte vielleicht nur ein nicht-leeres Feld.
Model Name: Hier kommt der Name des Modells hinein, so wie der Server ihn erwartet (Exploring UI-TARS : r/LocalLLaMA)
HF Endpoint: Bei einem HF Inference Endpoint wird häufig kein spezifischer Modellname erwartet, da der Endpoint per se nur Ihr gewähltes Modell bedient. Manche OpenAI-kompatiblen Dienste erfordern aber dennoch einen Namen. Wenn HuggingFace Ihnen im Beispielcode einen Model-Parameter zeigt (z.B. "model": "Qwen2.5-VL-7B-Instruct"), übernehmen Sie diesen. Andernfalls können Sie einen Platzhalter wie Qwen2.5-VL-7B eintragen – das wird vom HF-Endpoint vermutlich ignoriert, da er nur ein Modell hat. (Wenn der Endpoint einen Fehler bezüglich des Modells gibt, prüfen Sie die HF-Endpoint-Dokumentation; ggf. muss man den Endpunkt speziell konfigurieren. Im Normalfall sollte es aber auch so funktionieren.)
Lokales Modell (vLLM): Tragen Sie genau den Namen ein, den Sie beim Start des Servers festgelegt haben (Exploring UI-TARS : r/LocalLLaMA) Im obigen Beispiel haben wir --served-model-name ui-tars gesetzt – also geben wir hier „ui-tars“ ein (ohne Anführungszeichen). Dieser Name dient dazu, dass UI-TARS der API mitteilt, welches Modell angesprochen werden soll. (Hätten Sie keinen Namen gesetzt, würde vLLM standardmäßig den vollständigen HF Modellpfad als Namen verwenden, z.B. "Qwen/Qwen2.5-VL-7B-Instruct" – was etwas umständlich ist. Daher haben wir bewusst einen einfachen Namen gewählt.)
Überprüfen Sie nochmals alle Felder auf Richtigkeit. Insbesondere Base URL und Model Name müssen genau stimmen, da hier die meisten Fehler passieren.
Speichern und Schließen: Klicken Sie auf “Save” oder “Apply” (je nach UI-TARS-Version). Schließen Sie dann das Einstellungsfenster.
UI-TARS versucht nun, eine Verbindung zu dem angegebenen Modell-Endpoint herzustellen. Es gibt in der aktuellen Version keine laute Erfolgsmeldung, aber Sie können es indirekt erkennen: Wenn Sie Option B (lokal) nutzen, sollte in der Terminal-Konsole von vLLM eine Meldung erscheinen, sobald UI-TARS erstmals eine Anfrage sendet. Bei Option A (HF) können Sie evtl. im Endpoint Dashboard sehen, dass Anfragen eingehen.
Jetzt ist die Einrichtung abgeschlossen: UI-TARS ist mit dem Qwen 2.5-Modell verbunden und bereit, Befehle entgegenzunehmen. Im nächsten Schritt testen wir dies mit ersten einfachen Anweisungen.
Schritt 4: Erste Schritte – UI-TARS mit Sprachbefehlen testen
Nun kommt der spannende Teil: Wir testen, ob UI-TARS und Qwen 2.5 zusammen funktionieren, indem wir dem System einen einfachen Befehl geben und beobachten, ob die gewünschte Aktion auf dem PC ausgeführt wird.
1. Befehlsfenster finden: Im UI-TARS-Hauptfenster sollte es ein Eingabefeld (ähnlich einer Chat-Leiste) geben, meist am unteren Bildschirmrand. Dort können Sie jetzt einen Befehl in natürlicher Sprache eintippen. Wenn Sie Enter drücken (oder auf einen Senden-Button klicken), wird der Text an das KI-Modell geschickt.
2. Einfachen Befehl eingeben: Starten wir mit etwas Einfachem. Versuchen Sie zum Beispiel folgenden englischen Befehl einzugeben:
Open the Calculator.
(Bedeutung: „Öffne den Taschenrechner.“)
Dann drücken Sie Enter, um den Befehl abzuschicken.
3. Verhalten beobachten: Jetzt sollte einiges passieren:
UI-TARS schickt den Text “Open the Calculator.” plus einen Screenshot Ihres aktuellen Desktops (und evtl. weitere interne Infos) an das Qwen 2.5-Modell.
Qwen 2.5 verarbeitet die Anfrage. Da es ein visuelles Modell ist, wird es das Bild analysieren, um z.B. den Calculator (Rechner) auf Ihrem Bildschirm oder im Startmenü zu finden. Anschließend plant es die notwendigen Aktionen (Mausbewegungen, Klicks, Tastenanschläge), um den Befehl auszuführen (Alibaba says its new Qwen2.5-VL model is a useful "visual agent")
UI-TARS erhält vom Modell einen entsprechenden „Action-Plan“ zurück und führt diese Aktionen aus. Sie könnten sehen, wie der Mauszeiger sich bewegt oder Fenster aufgehen – je nach Umsetzung. Im Idealfall öffnet sich innerhalb weniger Sekunden tatsächlich die Windows-10 Rechner-App auf Ihrem Bildschirm.
Parallel dazu protokolliert UI-TARS im eigenen Fenster, was vor sich geht. Sie sehen möglicherweise Text wie “Opening Calculator…” oder eine Beschreibung der erkannten Schritte. UI-TARS gibt laufend Rückmeldungen und kann auch Nachfragen stellen, falls etwas unklar ist. (Beispiel: Wenn mehrere Möglichkeiten bestehen, könnte es nachhaken “Which calculator do you mean?” – in unserem Fall unwahrscheinlich, da es nur eine Calculator-App gibt.)
4. Rückmeldung prüfen: Hat sich der Taschenrechner geöffnet? Super! Dann haben Sie Ihr erstes erfolgreiches KI-gesteuertes Kommando ausgeführt. Sie sehen: Ohne einen einzigen Klick hat UI-TARS Ihren Sprachbefehl umgesetzt. 🎉
Falls nichts passiert oder etwas schiefging, machen Sie sich noch keine Sorgen – wir behandeln unten häufige Fehler. Versuchen Sie aber gerne noch einen zweiten einfachen Befehl, um das System besser kennenzulernen. Zum Beispiel:
“Open Notepad and type 'Hello World'.” – Der Agent sollte den Windows-Editor (Notepad) öffnen und dann die Zeichen Hello World eintippen. Sie würden sehen, wie Notepad aufgeht und die Wörter erscheinen, als ob ein unsichtbarer Benutzer tippt.
“Close the Notepad window.” – Daraufhin sollte UI-TARS das gerade geöffnete Notepad-Fenster schließen (entspricht dem Klick auf das [X]-Schließen-Symbol oder Alt+F4).
“Search for weather in Berlin on the web.” – Hier könnte der Agent den Browser öffnen, eine Suchmaschine aufrufen und nach "Wetter Berlin" suchen. (Ob das klappt, hängt stark von den trainierten Fähigkeiten ab. Qwen 2.5-VL wurde als visuelles Modell auch auf Web-Navigation und komplexe UI-Aufgaben trainier (Qwen/Qwen2.5-VL-7B-Instruct · Hugging Face) , es hat also durchaus eine Chance.)
Hinweis: Anfangs empfiehlt es sich, englische Befehle zu benutzen, da UI-TARS intern mit englischen Beschreibungen arbeitet. Qwen 2.5 versteht zwar Deutsch, und Sie können deutsche Sätze probieren, aber wenn Sie merken, die Ergebnisse sind ungenau, wechseln Sie lieber zu Englisch. Später können Sie experimentieren, wie gut deutschsprachige Kommandos funktionieren – das Modell unterstützt es grundsätzlich (Multilingualität (GitHub - QwenLM/Qwen2.5: Qwen2.5 is the large language model series developed by Qwen team, Alibaba Cloud.) , aber die Aktions-Erkennung könnte besser greifen, wenn bekannte englische UI-Begriffe verwendet werden.
5. Erfolg! Wenn einer der obigen Befehle funktioniert hat, haben Sie die Einrichtung gemeistert. Sie können nun mit UI-TARS auf Entdeckungsreise gehen und immer komplexere Anweisungen ausprobieren. Denken Sie daran, dass UI-TARS ein Forschungsprojekt ist – es kann vieles (z.B. mehrschrittige Aufgaben mit Zwischenschritten (Alibaba says its new Qwen2.5-VL model is a useful "visual agent") , wird aber auch manchmal Fehler machen oder an Grenzen stoßen. Nutzen Sie klare, einfache Anweisungen und arbeiten Sie sich langsam zu komplexeren Szenarien vor.
Im nächsten Abschnitt schauen wir uns noch typische Probleme und deren Lösungen an. Wenn also etwas bei Ihnen nicht wie erwartet geklappt hat, finden Sie dort Hilfe.
Häufige Probleme und Lösungen
Trotz sorgfältiger Einrichtung können bei UI-TARS mit Qwen 2.5 einige häufige Probleme auftreten. Im Folgenden listen wir bekannte Fehlerbilder und mögliche Lösungen auf:
Problem: UI-TARS reagiert nicht auf Eingaben (Modell scheint nicht zu antworten).Lösung:
Überprüfen Sie zunächst die Einstellungen in UI-TARS (Schritt 3). Ein häufiges Problem ist eine falsche Base URL. Stellen Sie sicher, dass die eingetragene URL genau stimmt und insbesondere *mit /v1 endet (Exploring UI-TARS : r/LocalLLaMA) . Ohne den /v1-Pfad kann der Endpoint nicht gefunden werden.
Prüfen Sie den Model Name: Er muss exakt mit dem Namen übereinstimmen, den der Server erwartet (z.B. ui-tars in unserem vLLM-Beispiel). Groß-/Kleinschreibung und eventuelle Schrägstriche müssen stimmen.
Falls Sie lokal (Option B) arbeiten: Schauen Sie in das Terminal-Fenster, in dem vLLM läuft. Wird dort etwas angezeigt, wenn Sie in UI-TARS auf "Send" klicken? Wenn nein, erreicht die Anfrage den Server nicht – was wieder auf Base URL/Port hindeutet. Wenn ja, aber nichts zurückkommt, könnte das Modell abgestürzt sein. Starten Sie vLLM notfalls neu (schließen Sie das Terminal mit Ctrl+C und führen Sie den Startbefehl erneut aus).
Vergewissern Sie sich, dass der API Key korrekt ist (bei HF Endpoint). Ein falscher oder abgelaufener Token kann dazu führen, dass die Anfrage verworfen wird (UI-TARS zeigt das aber ggf. nicht direkt an).
Problem: UI-TARS zeigt eine Fehlermeldung "404 Not Found" oder ähnliches im Chat-Ausgang.Hintergrund: Ein „404“ bedeutet, dass die API-Adresse nicht gefunden wurde. Häufige Ursache ist eine falsche URL. Beispielsweise hat ein Nutzer berichtet, dass er versehentlich die HuggingFace-Modell-URL (also den Link zur Modellseite) als Base URL eingetragen hatte, was natürlich nicht funktioniert – das Ergebnis war ein 404-Fehle (Exploring UI-TARS : r/LocalLLaMA) .Lösung: Tragen Sie die korrekte API-Endpoint-URL ein. Für HuggingFace Endpoints ist das nicht die Modellseite, sondern die spezielle URL des Endpoints (meist .ui.endpoints.huggingface.cloud). Achten Sie auch hier wieder aufs /v1. Nachdem der Nutzer im erwähnten Fall die richtige Endpoint-URL verwendet hat, funktionierte die Verbindung. Kurzum: 404-Fehler = überprüfen Sie Base URL und Pfad.
Problem: Beim Starten von vLLM (Option B) erscheint ModuleNotFoundError: No module named 'resource' und der Server bricht ab.Ursache: Dies ist ein bekannter Bug in vLLM unter Windows (Version 0.6.6) – das Python-Modul resource existiert nur unter Unix/Linux, nicht unter Windows, und vLLM versucht es dennoch zu lade (Exploring UI-TARS : r/LocalLLaMA) . Die Entwickler von vLLM sind sich dessen bewuss (resource module is missing on Windows · Issue #25 · bytedance/UI-TARS · GitHub) .Lösung/Workarounds:
Variante 1: Nutzen Sie einen Docker-Container oder WSL (Windows Subsystem for Linux), um den vLLM-Server in einer Linux-Umgebung zu starten. In Linux tritt der Fehler nicht auf. Zum Beispiel hat ein Nutzer eine Docker-Compose-Konfiguration geteilt, mit der er UI-TARS samt Modell unter Windows zum Laufen bracht. Dies erfordert jedoch, dass Sie mit Docker vertraut sind: Sie müssten Docker Desktop installieren, ein entsprechendes Docker-Image (mit vLLM und dem Modell) ziehen und ausführen. Für technisch Versierte ist das machbar – für Einsteiger ist es ggf. zu aufwändig.
Variante 2: Prüfen Sie, ob es eine aktualisierte Version von vLLM gibt, in der der Bug behoben ist. Stand Anfang 2025 war 0.6.6 aktuell. Schauen Sie auf der vLLM GitHub-Seite oder bei pip search vllm, ob es z.B. eine 0.6.7 gibt. Wenn ja, installieren Sie diese (pip install vllm==0.6.7) und testen Sie erneut.
Variante 3 (Quickfix für Könner): Es gibt die Möglichkeit, das Fehlen des resource-Moduls zu umgehen, indem man eine Dummy-Implementierung einfügt. Dies erfordert jedoch, vLLM manuell zu patchen, was hier den Rahmen sprengt. Wir erwähnen es der Vollständigkeit halber – in Online-Foren finden Sie ggf. Hinweise dazu.
Zusammengefasst: Der einfachste Workaround für normale Nutzer ist leider aktuell die Cloud-Option (Option A) oder auf einen Fix in vLLM zu warten. Docker/WSL sind Alternativen, aber nicht jedermanns Sache.
Problem: UI-TARS gibt im Chat einen Fehler ERROR: 404 STATUS CODE (NO BODY) aus.Dies ist ähnlich gelagert wie oben: Ein 404-Fehler ohne Antwortkörper deutet darauf hin, dass die Anfrage ins Leere ging. Sehr wahrscheinlich ist die Base URL falsch oder der *Port nicht erreichbar (Exploring UI-TARS : r/LocalLLaMA) . Überprüfen Sie, ob Sie vielleicht http://localhost:8000 statt http://localhost:8000/v1 eingetragen haben – das würde genau diesen Fehler provozieren (der Server antwortet auf /v1/… Pfade, nicht auf die Root-URL). Ebenso bei HuggingFace: /v1 nicht vergessen. Korrigieren Sie die URL und versuchen Sie es erneut.
Problem: Modell lädt extrem lange oder bricht beim Laden wegen Speichermangel ab.Lösung:
Haben Sie Geduld beim ersten Laden des Modells. Insbesondere lokal kann das Qwen-7B-Modell einige Minuten beanspruchen, in denen scheinbar nichts passiert – beenden Sie den Prozess nicht vorschnell.
Überprüfen Sie die Speicherauslastung. Wenn Ihre GPU nicht genug VRAM hat, kann es sein, dass vLLM mit einer CUDA-Fehlermeldung abbricht oder das Laden sehr langsam auf CPU weitermacht. In dem Fall empfiehlt es sich, auf das 3B-Modell auszuweichen (ersetzen Sie den Modellnamen entsprechend und starten Sie vLLM neu). Die 3B-Variante benötigt deutlich weniger VRAM, läuft zur Not auch auf CPU (aber langsam). Qwen 2.5 gibt es sogar in noch kleineren Größen (1.5B), doch die 3B ist die kleinste Vision-Variante veröffentlicht.
Keine quantisierten Modelle verwenden: Versuchen Sie nicht, statt des HF-Modells eine quantisierte Fassung (z.B. in GGUF-Format für llama.cpp) in UI-TARS einzubinden. UI-TARS unterstützt das derzeit nicht – quantisierte GGUF-Modelle funktionieren in der aktuellen Version nicht zuverlässig mit dem UI-TARS Deskto (Exploring UI-TARS : r/LocalLLaMA) . Bleiben Sie bei den Originalmodellen für vLLM. (Sobald UI-TARS Updates bringt, die GGUF unterstützen, können Sie das ggf. ausprobieren – im Moment haben die Entwickler aber sogar davon abgeraten und das 2B-GGUF vorerst zurückgezoge (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) .)
Problem: Der KI-Agent führt nicht die richtigen Aktionen aus (fehlklickt, versteht die Oberfläche falsch).Dies kann passieren, denn kein Modell ist perfekt. Mögliche Ursachen und Lösungen:
Bildschirmauflösung und Skalierung: UI-TARS nutzt Bildinformationen. Wenn Sie eine sehr ungewöhnliche Auflösung oder hohe Skalierung (DPI-Zoom) eingestellt haben, kann die visuelle Erkennung leiden. Versuchen Sie testweise, die Windows-Skalierung auf 100 % zu setzen und eine gängige Auflösung (z.B. 1920x1080), um zu sehen, ob es dann besser klappt.
Klarheit der Anweisung: Formulieren Sie Ihre Befehle klar und präzise. Vermeiden Sie Mehrdeutigkeiten. Statt „Mach das Fenster zu und öffne das andere“ sagen Sie lieber „Close the current Explorer window, then open Google Chrome.“ – also spezifischer.
Komplexität reduzieren: Wenn ein mehrstufiger Befehl scheitert, brechen Sie ihn in einzelne Schritte auf. Beispiel: Statt „Öffne Word und erstelle ein Diagramm aus diesen Daten…“ zunächst „Öffne Word.“ Dann als nächsten Befehl „Erstelle eine Tabelle mit X…“, etc. Der Agent kann schrittweise geführt werden.
Modellgrenzen: Bedenken Sie, dass das 7B-Modell zwar viel kann, aber nicht allwissend ist. Manche Anwendungen oder speziellere Programme kennt es evtl. nicht gut (je nach Training). Geben Sie Kontext, wenn nötig: „Open the application XY (it’s the one with the blue icon on desktop).“
Reset: Wenn UI-TARS sich „verheddert“ hat (z.B. das Modell in einer Schleife hängt), können Sie versuchen, die Session zurückzusetzen. Starten Sie UI-TARS notfalls neu, um einen definierten Anfangszustand zu haben.
Problem: Deutsche Befehle werden nicht korrekt umgesetzt.Wie schon erwähnt, versteht Qwen 2.5 viele Sprachen einschließlich Deutsc (GitHub - QwenLM/Qwen2.5: Qwen2.5 is the large language model series developed by Qwen team, Alibaba Cloud.) . Allerdings kann es sein, dass UI-TARS intern mit englischen Annahmen arbeitet. Wenn Sie feststellen, dass ein deutscher Befehl zu Unsinn führt oder ignoriert wird, wechseln Sie auf Englisch. Sie können auch versuchen, Englisch und Deutsch zu mischen – z.B. deutsche Interface-Bezeichnungen auf Englisch anzugeben („Öffne Einstellungen (Settings)“) – aber das erfordert Experimentieren. Grundsätzlich gilt: Mit Englisch fahren Sie derzeit zuverlässiger, da alle Beispiele und Tests hauptsächlich damit gemacht wurden.
Wenn Sie trotz dieser Hinweise nicht weiterkommen, können Sie weitere Unterstützung suchen:
Werfen Sie einen Blick in die GitHub-Issues des UI-TARS-Projekts, ob andere Nutzer ein ähnliches Problem gemeldet haben (und vielleicht eine Lösung gefunden wurde).
Stellen Sie in der Community Fragen, z.B. auf Reddit im Unterforum r/LocalLLaMA, wo UI-TARS öfter diskutiert wird. Oft helfen dort Enthusiasten mit Tipps weiter.
Prüfen Sie regelmäßig, ob es Updates für UI-TARS Desktop gibt (auf GitHub Releases). Neue Versionen verbessern die Stabilität und Kompatibilität und könnten Ihr Problem eventuell lösen.
Wir hoffen, diese Anleitung konnte Ihnen helfen, UI-TARS erfolgreich auf Ihrem Windows 10 Rechner zu installieren und mit Qwen 2.5 zum Laufen zu bringen. Sie haben nun ein mächtiges Werkzeug zur Hand: Einen KI-Assistenten, der Ihren PC quasi wie ein Mensch bedienen kann – vom Öffnen von Programmen über Web-Recherchen bis hin zum Ausfüllen von Formularen, alles gesteuert durch Ihre Worte. Dieses Feld entwickelt sich rasant weiter, also scheuen Sie nicht, neue Befehle auszuprobieren und die Grenzen des Möglichen auszuloten. Viel Spaß beim Experimentieren mit UI-TARS und Qwen 2.5! 🚀
**Quellen: (UI-TARS/README.md at main · bytedance/UI-TARS · GitHub) (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) (Qwen/Qwen2.5-VL-7B-Instruct · Hugging Face) (Qwen/Qwen2.5-VL-7B-Instruct · Hugging Face) (GitHub - QwenLM/Qwen2.5: Qwen2.5 is the large language model series developed by Qwen team, Alibaba Cloud.) (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) (UI-TARS Desktop - Browse /v0.0.3 at SourceForge.net) (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) (UI-TARS Model Deployment Guide | Notion) (UI-TARS Model Deployment Guide | Notion) (UI-TARS Model Deployment Guide | Notion) (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) (GitHub - bytedance/UI-TARS-desktop: A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language.) (Exploring UI-TARS : r/LocalLLaMA) (Exploring UI-TARS : r/LocalLLaMA) (Exploring UI-TARS : r/LocalLLaMA) (Exploring UI-TARS : r/LocalLLaMA) (resource module is missing on Windows · Issue #25 · bytedance/UI-TARS · GitHub) (Exploring UI-TARS : r/LocalLLaMA) 】
Comments