AI Waifu NLP Engineer– AI Waifu Data Personality
Natural Language Processing Engineer – AI Waifu Data PersonalityWe are looking for a passionate and detail-oriented NLP Engineer to join our team. This is afull-stack data role, covering every step from collecting raw data to delivering production-readydatasets for AI waifu training. You will work on processing, refining, and managing large-scaletext, voice, and image datasets to train anime-inspired AI companions—specifically waifus—forour product, darlin™(www.darlin.ai). Your mission is to ensure every AI waifu’s dialogue, tone,and style are consistent, authentic, and faithful to both the intended character design and thesource material.
Responsibilities1. Full-Stack Data Pipeline Management: Manage the complete data lifecycle —collecting, storing, augmenting, training, cleaning, refining, and retrieving — forlarge-scale text, voice, and image datasets.2. Dataset Curation Structuring: Organize and annotate datasets according topersonality traits, emotional tone, and dialogue style.3. User-Generated Data Integration: Gather and process user-generated data fromdarlin™ to refine and enhance AI waifu behavior, personality, and tone authenticity.4. Multilingual Data Processing: Refine, translate, and align datasets across Japanese,English, Chinese, and other languages.5. Data Augmentation: Expand and diversify datasets using NLP augmentation, AIrewriting, paraphrasing, and cross-lingual adaptation.6. Model Pretraining Instruct Tuning: Apply Transformer architectures, pretraining(not fine-tuning), instruct tuning, and prompt engineering for personality-drivendialogue.7. Advanced Retrieval Systems: Implement and optimize vector similarity search, RAG,and Self-RAG for contextual recall.8. Speech Singing Data: Prepare datasets for TTS, ASR, speech language models, andsinging synthesis.9. Data Infrastructure Acquisition: Build pipelines using databases, web scraping, andsearch tools within IP/licensing compliance.10. Model Serving Optimization: Quantization, token tuning, context windowmanagement, KV caching, attention adjustments, streaming, and dummy token handling.11. Clustering NLP Data Analysis: Use common NLP-related techniques such as K-means clustering, NER (Named Entity Recognition), sentiment analysis, keywordextraction, topic modeling, and vector similarity search to group and analyze personalitytraits, dialogue styles, and behavior patterns in datasets.12. Prompt Optimization: Design, test, and refine prompt templates to control AI waifubehavior and tone.13. Research Innovation: Read AI/NLP research papers to apply new concepts to AIwaifu personality and realism.
AI彼女NLPエンジニア(AI彼女 データ&パーソナリティ)
自然言語処理エンジニア – AI彼女 データ&パーソナリティ情熱と細部へのこだわりを持つNLPエンジニアを募集しています。本ポジションはフルスタックデータ業務であり、生データ収集からAI彼女の学習用本番データセットの提供まで全工程を担当します。darlin™(www.darlin.ai)において、テキスト・音声・画像の大規模データを処理・精緻化・管理し、アニメ風AI彼女の会話、口調、スタイルを一貫性・本物感・原作準拠で実現することがミッションです。
業務内容1. フルスタックデータパイプライン管理: 収集、保存、拡張、学習、クリーニング、精緻化、検索まで全データライフサイクルを担当。2. データセット構築・構造化: 性格特性・感情トーン・会話スタイルに基づき整理・アノテーション。3. ユーザー生成データ活用: darlin™ のユーザーデータを収集・処理し、AI彼女の行動・個性・口調を改善。4. 多言語データ処理: 日本語・英語・中国語などでのデータ翻訳・整合。5. データ拡張: NLP拡張、AI書き換え、パラフレーズ、クロスリンガル変換。6. モデル事前学習・インストラクションチューニング: Transformerアーキテクチャ、事前学習、Instruct Tuning、プロンプトエンジニアリング。7. 高度な検索システム: ベクトル類似検索、RAG、Self-RAGの実装・最適化。8. 音声・歌声データ: TTS、ASR、音声言語モデル、歌声合成用データの準備。9. データ基盤構築: データベース、スクレイピング、検索ツールの利用(IP/ライセンス遵守)。10. モデル提供・最適化: 量子化、トークン調整、コンテキストウィンドウ管理、KVキャッシュ、Attention調整、ストリーミング、ダミートークン処理。11. クラスタリングとNLPデータ分析: K-meansクラスタリング、NER(固有表現抽出)、感情分析、キーワード抽出、トピックモデリング、ベクトル類似検索などを用いてデータセットを整理・分析し、性格特性・会話スタイル・行動パターンを分類。12. プロンプト最適化: テンプレ設計・テスト・改善で行動・口調を制御。13. 研究・イノベーション: AI/NLP論文を活用し、AI彼女の個性・リアリズム向上。