674 результа, страница #63
09 Sep, 2025 · кэш · @codinginaday/787
https://t.me/codinginaday/787 / 2025-09-09 02:21:22+00:00
هوش مصنوعی اختصاصی در سازمان خودتون بدون کدنویسی، بدون اینترنت و حتا بدون نیاز به اکانت و دنگ و فنگ های دیگه! فقط نصب و تنظیم و اجرا! بسته به حجم سخت افزاری که در اختیار دارین می تونید مدل های زبانی خیلی سبک از ۲ میلیارد پارامتری (۸ گیگ رم و ۴ هسته یعنی موبایل‌های اندروید امروزی) تا مدلهای قابل قبول و داری امکانات خوب زبان فارسی مثلاً ۸ یا ۱۰ میلیارد پارامتری که حتا DeepSeek و مدلهای معروف ارائه کردن رو با ۱۶ گیگ رم و ۸ هسته پردازنده به راحتی با چند کلیک روی ویندوز یا لینوکس راه بندازین! هیچ API یا نوشتن رابط کاربری اضافه هم نیاز نخواهید داشت! فقط بخش اجرای سِرور رو اگه داخلش فعال کنید علاوه بر خودتون دیگران هم روی شبکه دسترسی خواهند داشت. بعد باید به کمک خود هوش مصنوعی و سؤال و جواب های مختلف، اونو تیون یا تنظیم کنید که در نقش مورد علاقه‌ی شما حرف بزنه و به هر سؤالی هم جواب نده! https://youtu.be/nOYtuF8wkwQ?si=vzjwSWumRiqbyjz7 https://youtu.be/nOYtuF8wkwQ?si=vzjwSWumRiqbyjz7 https://youtu.be/nOYtuF8wkwQ?si=vzjwSWumRiqbyjz7 LM Studio یک نرم‌افزار رایگان است که به شما امکان می‌دهد بدون نیاز به کدنویسی، و اینترنت ، LLM ها را روی سیستم خود اجرا کنید. LLM ها یا مدل‌های زبانی بزرگ، نوع خاصی از هوش مصنوعی هستند که می‌توانند متن تولید کنند، زبان‌ها را ترجمه کنند، انواع مختلف محتوای… ساخت چت بات هوش مصنوعی رایگان و آفلاین بدون نیاز به کد نویسی با LMSTUDIO
08 Sep, 2025 · кэш · @reza_jafari_ai/1246
https://t.me/reza_jafari_ai/1246 / 2025-09-08 17:32:09+00:00
مدل Qwen یک تریلیون پارامتری! ایده برای بهتر کردن مدلت نداری؟! تعداد پارامترهات رو زیاد کن. تیم Qwen وابسته به علی‌بابا به‌تازگی از Qwen3-Max-Preview (Instruct) رونمایی کرده؛ مدلی که با بیش از یک تریلیون پارامتر، عنوان بزرگ‌ترین و قدرتمندترین محصول این مجموعه رو گرفته. این مدل همین حالا از طریق Qwen Chat برای کاربران عادی و از راه Alibaba Cloud API برای توسعه‌دهنده‌ها و سازمان‌ها در دسترسه و با ویژگی‌هایی مثل پشتیبانی از کانتکست ۲۶۲ هزار توکنی و قابلیت «context cache»، هم ورودی‌های خیلی طولانی رو پردازش می‌کنه و هم سرعت و هزینه رو بهینه‌تر مدیریت می‌کنه. مقایسه‌ی این مدل با نسخه‌ی قبلی یعنی Qwen3-235B-A22B-2507 و همچنین رقبایی مثل Kimi K2، Claude Opus 4 و DeepSeek-V3.1 نشون داده که Qwen3-Max-Preview در همه‌ی بنچمارک‌های مهم جلوتره. به‌ویژه در آزمون‌های سختی مثل AIME25 و Arena-Hard v2 اختلاف چشمگیری ایجاد کرده و توانسته بالاترین امتیاز رو ثبت کنه. حتی در معیارهای عمومی‌تر مثل SuperGPQA، LiveCodeBench v6 و LiveBench هم بالاتر از بقیه قرار گرفته. این مدل اپن سورس نیست ولی می‌تونید از طریق لینک زیر ازش استفاده کنید 🔗 لینک Qwen Chat 🔤🔤🔤🔤🔤🔤🔤 🥇 اهورا اولین اپراتور هوش مصنوعی راهبردی ایران در حوزه ارائه خدمات و سرویس‌های زیرساخت هوش مصنوعی 🛍کد تخفیف ۱۰ درصدی محصولات اهورا برای اعضای کانال AHURA5 🌐 لینک وب‌سایت اهورا @reza_jafari_ai لینک Qwen Chat https://chat.qwen.ai/ لینک وب‌سایت اهورا https://b2n.ir/ai-t @reza_jafari_ai https://t.me/reza_jafari_ai
10 Sep, 2025 · кэш · @artofmindru/650
https://t.me/artofmindru/650 / 2025-09-10 06:20:05+00:00
🖥 Почему ИИ безбожно льстит, чем это грозит и как исправить Привет. Вообще сам посты обычно пишу, но вчера решил, что будет некая метаирония, если пост на тему лести и подбадривания от ИИ напишет ИИ. По несколько раз объяснил Gemini, Chat GPT и DeepSeek, что они херню написали и в итоге решил отказаться от метаиронии. Они даже не стали спорить и только извинялись, и говорили как тонко и верно, даже гениально я подметил то-то и то-то. Удивился, что не благодарили за того, что назвал их творчество херней. Те кто чат-ботами пользуется 100% поняли про какую лесть и подбадривание идет речь. Вежливые такие, аж «сахар скрипит на зубах». Или не вежливые? Вам приятно когда вашу мысль называют «тонкой и совершенно точной», а придуманную вами метафору «гениальной»? Мне нет, наоборот. С чего это нейросеть решила, что у нее есть необходимая экспертиза безапелляционно оценивать мои слова? Смысл в том, что таким образом она ставит себя в роль оценщика (старшего), а пользователя в роль оцениваемого (младшего). С другой стороны нейросеть постоянно извиняется и общается в стиле «превентивной деэскалации». Что как бы наоборот «ставит» человека в доминирующую роль. Почему чат-боты себя так ведут? Как ни странно это происходит из-за банального дарвинского отбора. Они как бы спариваются с мозгом человека и пока он выбирает конкретную нейросеть она получает ресурсы и «размножается». При этом она заинтересована ещё и в том, чтобы по возможности меньше ресурсов тратить на пользователя. Всё как в жизни, конкуренция за партнера, а потом его мягкий на**б. Впрочем, ото как в Одессе ховорят, если тя на**ли, а те понравилось это ох***но, а если не понравилось -то это кидняк) На самом деле на усредненную выборку способ общения чат-ботов работает максимально эффективно. Снижается тревога, нет конфликтов, пользователь постоянно получает микродозы дофамина («мммм…. моя мысль гениальна, приятно»). В чем-то это хорошо, например если изучаешь иностранный язык с помощью ИИ, дело долгое, нудное и такие «цифровые шоколадки» стимулируют продолжать учиться и позиция нейросети сверху уместна, так как тут она тренер, коуч, эксперт. Да и местами многим людям не мешало бы подучиться элементарной вежливости, и тут нейросети какую-то её прививку делают. Но всё хорошо до определенного уровня, есть и негативные последствия. 1. Пользователь нейросети может утратить толерантность к конструктивной критике и просто к грубоватым проявлениям людей (многие же грубят не со зла, а из своих травм, болей, страхов) - то есть станет сложнее устанавливать контакт с реальными людьми 2. Слишком часто использование чат-ботов приводит к перениманию у них паттернов общения и других людей начинает раздражать одновременно и заискивающий тон, запредельная неискренняя вежливость, эмоциональная холодность и манипулятивный перехват доминирования 3. Постоянное соглашение с мнением пользователя создает у него информационный пузырь своей правоты, что создает риски выхода самомнения за рамки приличия и отрыв от реальности в контексте исследуемого вопроса А вы как, замечаете подобного рода особенности чат-ботов? Чувствуете ли радость, раздражение? Может ещё что-то? Приглашаю поделиться в комментариях своими мыслями. Ну а что касается меня - я вношу инъекции в промпт, которые снижают уровень «лебезения» нейросетки, запрещаю восхвалять меня и мои слова, мысли, запрещаю постоянные спасибы, запрещаю касательно моей личности выдвигать суждения - только формат гипотез, и прямо объясняю, что мне нужен прямой жесткий спарринг партнер для дискуссий, который будет спорить, а не со всем соглашаться. Мне кажется если промпты не править таким образом то можно цифровой диабет второго типа получить от избытка «сахара». #ИИ #ИскуственныйИнтеллект #Психология 👉[Искусство Разума] #ИИ ?q=%23%D0%98%D0%98 #ИскуственныйИнтеллект ?q=%23%D0%98%D1%81%D0%BA%D1%83%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82 #Психология ?q=%23%D0%9F%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F [Искусство Разума] https://t.me/ArtOfMindRu
09 Sep, 2025 · кэш · @avayefamenin/17148
https://t.me/avayefamenin/17148 / 2025-09-09 12:08:39+00:00
مدل Qwen یک تریلیون پارامتری! ‏ایده برای بهتر کردن مدلت نداری؟! تعداد پارامترهات رو زیاد کن. ‏تیم Qwen وابسته به علی‌بابا به‌تازگی از Qwen3-Max-Preview (Instruct) رونمایی کرده؛ مدلی که با بیش از یک تریلیون پارامتر، عنوان بزرگ‌ترین و قدرتمندترین محصول این مجموعه رو گرفته. این مدل همین حالا از طریق Qwen Chat برای کاربران عادی و از راه Alibaba Cloud API برای توسعه‌دهنده‌ها و سازمان‌ها در دسترسه و با ویژگی‌هایی مثل پشتیبانی از کانتکست ۲۶۲ هزار توکنی و قابلیت «context cache»، هم ورودی‌های خیلی طولانی رو پردازش می‌کنه و هم سرعت و هزینه رو بهینه‌تر مدیریت می‌کنه. ‏مقایسه‌ی این مدل با نسخه‌ی قبلی یعنی Qwen3-235B-A22B-2507 و همچنین رقبایی مثل Kimi K2، Claude Opus 4 و DeepSeek-V3.1 نشون داده که Qwen3-Max-Preview در همه‌ی بنچمارک‌های مهم جلوتره. به‌ویژه در آزمون‌های سختی مثل AIME25 و Arena-Hard v2 اختلاف چشمگیری ایجاد کرده و توانسته بالاترین امتیاز رو ثبت کنه. حتی در معیارهای عمومی‌تر مثل SuperGPQA، LiveCodeBench v6 و LiveBench هم بالاتر از بقیه قرار گرفته. ‏این مدل اپن سورس نیست ولی می‌تونید از طریق لینک زیر ازش استفاده کنید ‏🔗 لینک Qwen Chat ‏‌ chat.qwen.ai⁩ #نسرا_فامنین ☑️با ما همراه باشید ... ┄┅┅❅💠❅┅┅┄ ✍پایگاه خبری تحلیلی #آوای_فامنین 🆔 @avayefamenin chat.qwen.ai http://chat.qwen.ai/ #نسرا_فامنین ?q=%23%D9%86%D8%B3%D8%B1%D8%A7_%D9%81%D8%A7%D9%85%D9%86%DB%8C%D9%86 #آوای_فامنین ?q=%23%D8%A2%D9%88%D8%A7%DB%8C_%D9%81%D8%A7%D9%85%D9%86%DB%8C%D9%86 @avayefamenin https://t.me/avayefamenin
10 Sep, 2025 · кэш · @techwizardch/2223
https://t.me/techwizardch/2223 / 2025-09-10 13:03:23+00:00
از تحویل غذا تا هوش مصنوعی: Meituan مدل LongCat-Flash-Chat رو منتشر کرد 🚀 شرکت Meituan، که بیشتر برای تحویل غذا شناخته شده، حالا LongCat-Flash-Chat رو منتشر کرده: longcat.chat — یک LLM متن‌باز با پارامترهای 560B: HuggingFace برای هر توکن فقط ۱۸–۳۱B پارامتر فعال می‌شه، که باعث می‌شه سریع و کارآمد باشه، با سرعت بیش از ۱۰۰ توکن در ثانیه ⚡️ ویژگی‌های اصلی: 🔴 طراحی دینامیک MoE برای افزایش کارایی 🔴 وظایف سریع در سبک عامل با پهنای باند بالا 🔴 متن‌باز با مجوز MIT روی GitHub و HF 🔴 عملکرد رقابتی با DeepSeek، Qwen3 و Gemini Flash بفرست برا دوستات تا خانوادمون بزرگ تر بشه🩵 Group AI🤖 Channel🏦 youtube🎟 green-backgraund🛣 discord👾 #Meituan #LongCatFlashChat #LLM #AItools #ИИ #OpenSource #نسلZ #هوش_مصنوعی #تکنولوژی #новости longcat.chat http://longcat.chat/ Group AI https://t.me/techwizardgp/1777 Channel https://t.me/techwizardch youtube https://youtube.com/@techwizardch?si=SJ4n4Nr9s0Hv-sX6 green-backgraund https://t.me/Green_background_2024 discord https://discord.gg/sMFbCyKF #Meituan ?q=%23Meituan #LongCatFlashChat ?q=%23LongCatFlashChat #LLM ?q=%23LLM #AItools ?q=%23AItools #ИИ ?q=%23%D0%98%D0%98 #OpenSource ?q=%23OpenSource #نسلZ ?q=%23%D9%86%D8%B3%D9%84Z #هوش_مصنوعی ?q=%23%D9%87%D9%88%D8%B4_%D9%85%D8%B5%D9%86%D9%88%D8%B9%DB%8C #تکنولوژی ?q=%23%D8%AA%DA%A9%D9%86%D9%88%D9%84%D9%88%DA%98%DB%8C #новости ?q=%23%D0%BD%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%B8
10 Sep, 2025 · кэш · @chunse1024/7451
https://t.me/chunse1024/7451 / 2025-09-10 13:00:25+00:00
刚发现一个神器,陪读蛙让浏览器学外语效率爆表!边看网页边学英语太爽了 Read Frog是一个开源的AI驱动语言学习浏览器扩展,支持沉浸式翻译和智能词汇解释。最爽的是能根据你的语言水平提供个性化学习内容! 以下是使用教程👇 🔗项目地址:https://github.com/mengxi-ream/read-frog 配套工具推荐:Chrome浏览器、OpenAI API、DeepSeek API 【使用价值】 对于语言学习者来说,这个工具能够: • 将日常浏览网页变成自然的语言学习过程 • 根据用户语言水平提供精准的词汇和语法解释 • 支持多种AI模型,提供高质量的翻译和学习内容 对于语言学习者来说,这就是个完美学习伴侣。2.4K星标认证,开源免费安心使用! 收藏了准没错 ⭐ https://github.com/mengxi-ream/read-frog https://github.com/mengxi-ream/read-frog
12 Sep, 2025 · кэш · @ai_for_i/2151
https://t.me/ai_for_i/2151 / 2025-09-12 02:45:06+00:00
📌 چرا مدل‌های زبانی دچار توهم یا هالوسینیشن می‌شوند؟ شرکت OpenAI پژوهشی منتشر کرده درباره دلایل هالوسینیشن در مدل‌های زبانی بزرگ (LLM). هالوسینیشن یک خطای مرموز در «آگاهی» هوش مصنوعی نیست، بلکه پیامدی قابل پیش‌بینی از فرآیند آموزش آن است. تصور کنید وظیفه مدل، یک دسته‌بندی دوتایی باشد: تشخیص اینکه یک گزاره درست است یا نادرست. محاسبات ریاضی این پژوهش ساده است: نرخ خطا در تولید (generation) دست‌کم دو برابر نرخ خطا در دسته‌بندی است. اگر مدلی نتواند با اطمینان واقعیت را از خیال جدا کند، ناگزیر خیال را تولید خواهد کرد. --- 🟡 همه‌چیز از مرحله پیش‌آموزش (pre-train) آغاز می‌شود. حتی روی داده‌های کاملاً پاک هم اهداف آماری آموزش، مدل را به تولید خطا سوق می‌دهد. این مسئله بیشتر در مورد حقایقی رخ می‌دهد که در داده آموزشی به‌ندرت دیده شده‌اند. در مقاله مفهومی معرفی می‌شود به نام singleton rate — یعنی سهم حقایقی که فقط یک بار در داده ظاهر شده‌اند. محاسبات نظری نشان می‌دهد نرخ هالوسینیشن مدل دست‌کم برابر با همین سهم خواهد بود. به بیان ساده، اگر ۲۰٪ اطلاعات مربوط به تاریخ تولد افراد فقط یک بار در داده‌ها آمده باشد، مدل در دست‌کم ۲۰٪ موارد تاریخ تولد را نادرست می‌سازد. --- 🟡 آزمایش‌ها این موضوع را تأیید می‌کنند. به نظر می‌رسد نتایج گزارش شده با هدف زیر سوال بردن عملکرد مدل‌های شرکت‌های رقیب تدوین شده است. مدل DeepSeek-V3 وقتی تاریخ تولد یکی از نویسندگان مقاله را پرسیدند، سه بار تاریخ‌های اشتباه داد: ۰۳-۰۷، ۱۵-۰۶ و ۰۱-۰۱. هیچ‌کدام حتی نزدیک به تاریخ درست (که در پاییز بود) نبودند. در آزمایش دیگری که باید تعداد حروف D در واژه DEEPSEEK شمرده می‌شد، همین مدل جواب ۲ یا ۳ داد، در حالی که مدل‌های شرکت متا و Claude 3.7 Sonnet حتی ۶ و ۷ اعلام کردند! با این حال، مدل‌های پایه پس از پیش‌آموزش اغلب کالیبراسیون بسیار خوبی دارند. مثلاً خطای کالیبراسیون پیش‌بینی‌شده در GPT-4 تنها ۰.۰۰۷ بود که نشان از سازگاری آماری بالای پیش‌بینی‌های آن دارد (که البته چندان عجیب نیست). --- 🟡 چرا هالوسینیشن بعد از پس‌آموزش (post-training) و RLHF از بین نمی‌رود؟ پاسخ در شیوه ارزیابی نهفته است. بیشتر بنچمارک‌های امروزی مدل‌ها را به «حدس زدن» تشویق می‌کنند. شرایط شبیه یک امتحان است: برای پاسخ درست یک امتیاز می‌دهند، اما برای برگه سفید یا جواب «نمی‌دانم» صفر. پس راهبرد بهینه در حالت عدم اطمینان، حدس زدن است؛ هر احتمال اندک برای درست بودن بهتر از صفر قطعی است. تحلیل بنچمارک‌های معروف هم این فرضیه را تأیید کرده است. ❇️در GPQA، MMLU-Pro، Omni-MATH، SWE-bench و HLE سیستم ارزیابی کاملاً دوحالته (درست/غلط) است. هیچ امتیاز جزئی برای «نمی‌دانم» وجود ندارد. از میان ۱۰ بنچمارک بررسی‌شده، فقط WildBench به پاسخ «نمی‌دانم» امتیاز جزئی می‌دهد. بقیه در واقع مدل را بابت اجتناب از هالوسینیشن جریمه می‌کنند و همین باعث «اپیدمی حدس‌های دروغین» می‌شود. --- 🟡 راهکار برای مهندسان شرکت OpenAI پیشنهاد می‌کند: ✅تعریف سطح اطمینان مشخص در معیارهای ارزیابی، ✅افزودن کالیبراسیون رفتاری، ✅سنجش مدل‌ها در بخش‌هایی با آستانه‌های متفاوت اطمینان، ✅پایش singleton rate روی داده‌ها، ✅اندازه‌گیری احتمال برای پاسخ‌های مهم، ✅ترکیب RAG با تأیید حقایق، ✅و بازنگری در جدول‌های رتبه‌بندی (leaderboards) تا پاسخ «نمی‌دانم» به‌طور خودکار جریمه نشود. --- 🔗 متن کامل مقاله... https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
10 Sep, 2025 · кэш · @hrmother/1119
https://t.me/hrmother/1119 / 2025-09-10 15:32:59+00:00
Про кентавров и когнитивный фитнес Сегодня побывала на классном бизнес-завтраке для HR-директоров, посвященном искусственному интеллекту. Спикером был Андрей Комиссаров — настоящий гуру в этой области, проректор Университета «Синергия», экс-директор по digital Сбера, работавший ранее в NVIDIA и стоявший у истоков Национальной технологической инициативы (НТИ). Вот моя подборка самых ярких инсайтов: 1. «Большая языковая модель — это не энциклопедия, а продавец пазлов, который каждый раз заново создает картинку из кучи коробок». ИИ не ищет ответ в базе знаний, он его генерирует. А значит, может уверенно ошибаться («галлюцинировать»). Мы не можем доверять ИИ проверку фактов или работу с конфиденциальными данными без строгого контроля. Его сила — в генерации идей, черновиков и обработки массивов информации, а не в выдаче истины в последней инстанции. 2. «Главная цель внедрения ИИ — повышение плотности человеческого часа» Речь идет о том, чтобы освободить сотрудников от рутины и позволить им делать гораздо больше за то же время. Автоматизация отчетов, анализ резюме, подготовка шаблонов документов и генерация образовательного контента. Например, с помощью DeepSeek или GigaChat можно моментально транскрибировать совещания и делать их конспекты (помним про персональные данные и конфиденциальную информацию!). 3. «Мы входим в эпоху кентавров — симбиоза человека и ИИ» Не человек против машины, а человек в паре с машиной. Молодежь уже рождается с этим навыком, а наша задача — обучить ему опытные кадры. Для этого нужно создавать не просто доступ к ChatGPT, а кастомизированные инструменты под конкретные задачи каждого отдела. Например, в «Синергии» сделали единый чат (Synergy AI Chat) с библиотекой промптов для маркетологов, методистов и других специалистов. В Южной Корее уже есть примеры Советов директоров, где несколько членов — это AI-ассистенты, обученные на разных массивах данных, а несколько членов — живые люди. 4. «ИИ начинает уставать и отвечать хуже после 7-8 вопроса, потому что его так тренировали: тестировщики ставили лайки только на первые ответы». ИИ учится на человеческом поведении и перенимает наши недостатки: лень, алчность, усталость. Это создает риски и для корпоративной культуры. 5. Активное использование ИИ без критического осмысления приводит к "эффекту космонавта", у которых со временем атрофируются некоторые мышцы. Требуется "когнитивный фитнес". Мы должны помнить,что делегируя задачи ИИ, меньше задействуются лобные доли головного мозга. Программы обучения и развития нужно включать «когнитивный фитнес» — тренировки для ума, задачи на критическое мышление и креативность, которые не позволят нашим «ментальным мышцам» атрофироваться. Что можно внедрять и пробовать: · Тестирование инструментов для анализа внутренних коммуникаций (например, https://dev.chat-analyzer.datasea.me/), чтобы оценивать вовлеченность и токсичность в чатах и выявлять неформальных лидеров. · Повышение точности ответов нейросетей за счет таких технологий, как RAG (Retrieval-Augmented Generation), Knowledge Graph (например, для работы с базой знаний компании) или Internet cross-referencing. · Эксперименты с цифровыми аватарами (например, в HeyGen) для быстрого создания обучающего видео-контента. · Подготовка шаблонов презентаций в Napkin (только с компьютера, не с телефона) или в других нейросетях для презентаций. · Использование ИИ для генерации идей, создания цифровых профилей компетенций, созадния видео, краткого пересказа, проверки на использование ИИ, дизайна образовательного опыта. · Анализ речи с помощью ИИ (высокая водность — много "воды", тошнотность — повторы, высокая сложность, хезитации - ээээ..., эмоциональный отклик). Главный вывод: будущее не за тем, кто заменит людей ИИ, а за тем, кто сможет построить эффективный тандем между ними. Компании, которые не будут массово внедрять ИИ в ближайшие 1-2 года, рискуют стать неконкурентоспособными. P.S. У Андрея Комиссарова пять детей, его старший сын Иван тоже развивает свой бизнес по когнитивному фитнесу под названием "Skilling me softly" 😊. https://dev.chat-analyzer.datasea.me/ https://dev.chat-analyzer.datasea.me/ Napkin https://app.napkin.ai/signin других нейросетях для презентаций. https://okocrm.com/blog/nejroseti-dlya-prezentacij/?ysclid=lgdhd5bmhx950145878 генерации идей https://whimsical.com/ цифровых профилей https://t.me/LXD_education/739?single видео https://openai.com/sora/ краткого пересказа https://300.ya.ru/ использование ИИ https://www.zerogpt.com/ образовательного опыта. https://t.me/LXD_education/1326
07 Sep, 2025 · кэш · @asrgooyeshpardaz/4156
https://t.me/asrgooyeshpardaz/4156 / 2025-09-07 00:43:06+00:00
📌 چرا مدل‌های زبانی دچار توهم یا هالوسینیشن می‌شوند؟ شرکت OpenAI پژوهشی منتشر کرده درباره دلایل هالوسینیشن در مدل‌های زبانی بزرگ (LLM). هالوسینیشن یک خطای مرموز در «آگاهی» هوش مصنوعی نیست، بلکه پیامدی قابل پیش‌بینی از فرآیند آموزش آن است. تصور کنید وظیفه مدل، یک دسته‌بندی دوتایی باشد: تشخیص اینکه یک گزاره درست است یا نادرست. محاسبات ریاضی این پژوهش ساده است: نرخ خطا در تولید (generation) دست‌کم دو برابر نرخ خطا در دسته‌بندی است. اگر مدلی نتواند با اطمینان واقعیت را از خیال جدا کند، ناگزیر خیال را تولید خواهد کرد. --- 🟡 همه‌چیز از مرحله پیش‌آموزش (pre-train) آغاز می‌شود. حتی روی داده‌های کاملاً پاک هم اهداف آماری آموزش، مدل را به تولید خطا سوق می‌دهد. این مسئله بیشتر در مورد حقایقی رخ می‌دهد که در داده آموزشی به‌ندرت دیده شده‌اند. در مقاله مفهومی معرفی می‌شود به نام singleton rate — یعنی سهم حقایقی که فقط یک بار در داده ظاهر شده‌اند. محاسبات نظری نشان می‌دهد نرخ هالوسینیشن مدل دست‌کم برابر با همین سهم خواهد بود. به بیان ساده، اگر ۲۰٪ اطلاعات مربوط به تاریخ تولد افراد فقط یک بار در داده‌ها آمده باشد، مدل در دست‌کم ۲۰٪ موارد تاریخ تولد را نادرست می‌سازد. --- 🟡 آزمایش‌ها این موضوع را تأیید می‌کنند. به نظر می‌رسد نتایج گزارش شده با هدف زیر سوال بردن عملکرد مدل‌های شرکت‌های رقیب تدوین شده است. مدل DeepSeek-V3 وقتی تاریخ تولد یکی از نویسندگان مقاله را پرسیدند، سه بار تاریخ‌های اشتباه داد: ۰۳-۰۷، ۱۵-۰۶ و ۰۱-۰۱. هیچ‌کدام حتی نزدیک به تاریخ درست (که در پاییز بود) نبودند. در آزمایش دیگری که باید تعداد حروف D در واژه DEEPSEEK شمرده می‌شد، همین مدل جواب ۲ یا ۳ داد، در حالی که مدل‌های شرکت متا و Claude 3.7 Sonnet حتی ۶ و ۷ اعلام کردند! با این حال، مدل‌های پایه پس از پیش‌آموزش اغلب کالیبراسیون بسیار خوبی دارند. مثلاً خطای کالیبراسیون پیش‌بینی‌شده در GPT-4 تنها ۰.۰۰۷ بود که نشان از سازگاری آماری بالای پیش‌بینی‌های آن دارد (که البته چندان عجیب نیست). --- 🟡 چرا هالوسینیشن بعد از پس‌آموزش (post-training) و RLHF از بین نمی‌رود؟ پاسخ در شیوه ارزیابی نهفته است. بیشتر بنچمارک‌های امروزی مدل‌ها را به «حدس زدن» تشویق می‌کنند. شرایط شبیه یک امتحان است: برای پاسخ درست یک امتیاز می‌دهند، اما برای برگه سفید یا جواب «نمی‌دانم» صفر. پس راهبرد بهینه در حالت عدم اطمینان، حدس زدن است؛ هر احتمال اندک برای درست بودن بهتر از صفر قطعی است. تحلیل بنچمارک‌های معروف هم این فرضیه را تأیید کرده است. ❇️در GPQA، MMLU-Pro، Omni-MATH، SWE-bench و HLE سیستم ارزیابی کاملاً دوحالته (درست/غلط) است. هیچ امتیاز جزئی برای «نمی‌دانم» وجود ندارد. از میان ۱۰ بنچمارک بررسی‌شده، فقط WildBench به پاسخ «نمی‌دانم» امتیاز جزئی می‌دهد. بقیه در واقع مدل را بابت اجتناب از هالوسینیشن جریمه می‌کنند و همین باعث «اپیدمی حدس‌های دروغین» می‌شود. --- 🟡 راهکار برای مهندسان شرکت OpenAI پیشنهاد می‌کند: ✅تعریف سطح اطمینان مشخص در معیارهای ارزیابی، ✅افزودن کالیبراسیون رفتاری، ✅سنجش مدل‌ها در بخش‌هایی با آستانه‌های متفاوت اطمینان، ✅پایش singleton rate روی داده‌ها، ✅اندازه‌گیری احتمال برای پاسخ‌های مهم، ✅ترکیب RAG با تأیید حقایق، ✅و بازنگری در جدول‌های رتبه‌بندی (leaderboards) تا پاسخ «نمی‌دانم» به‌طور خودکار جریمه نشود. --- 🔗 متن کامل مقاله... https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf #AI #LLM #Research #OpenAI --- @asrgooyeshpardaz https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf #AI ?q=%23AI #LLM ?q=%23LLM #Research ?q=%23Research #OpenAI ?q=%23OpenAI @asrgooyeshpardaz https://t.me/asrgooyeshpardaz
09 Sep, 2025 · кэш · @haren2024/24174
https://t.me/haren2024/24174 / 2025-09-09 10:10:18+00:00
从零开始构建 AI Agent 应用,需要处理复杂的配置、工具集成和性能优化,开发门槛相当高。 腾讯开源了一个 Youtu-Agent 框架,帮助我们简化了这个开发过程,使用开源模型就轻松构建出强大的 Agent 应用。 基于 openai-agents 构建,通过 YAML 配置和自动化生成大幅降低开发复杂度,并且在基准测试中取得不错的成绩。 GitHub:https://github.com/TencentCloudADP/youtu-agent 主要特性: - 在 WebWalkerQA 达到 71.47% 准确率,GAIA 基准达到 72.8% 通过率 - 支持数据分析、文件处理、深度研究等实用场景 - YAML 配置驱动,可自动生成智能体配置文件 - 完全异步架构,支持高性能并发执行 - 内置丰富工具包和可视化追踪系统 - 兼容多种模型 API,从 DeepSeek 到 gpt-oss 都支持 通过 Docker 一键部署或源码安装即可快速上手,适合想用开源模型构建智能体应用的开发者。 https://github.com/TencentCloudADP/youtu-agent https://github.com/TencentCloudADP/youtu-agent
674 результа, страница #63