شکیبا باشید ...

زیرساخت داده کاوی و تحلیل داده قابلیت بکارگیری الگوریتم های هوش مصنوعی را بر روی حجم زیادی از داده ها به منظور استخراح دانش پنهان دارد. این زیرساخت امکاناتی مانند دسترسی به داده ها، مدیریت کتابخانه الگوریتم ها، مدیریت مدل های داده کاوی ساخته شده، مدیریت زمان بندی اجرای Task ها و … را دارد. به عبارت دیگر در این ابزار امکان اجرای گام های فرایند داده کاوی شامل پیش پردازش داده ها، ساخت مدل، ارزیابی مدل و درنهایت مصورسازی مدل ها وجود دارد.

مزیت مهم زیرساخت داده کاوی شرکت هزار گذر، قابلیت تولید سریع مدلهای داده کاوی برای طیف وسیعی از سناریوهای مختلف است. برخی ویژگیهای زیرساخت داده کاوی عبارتند از:

 

  • تعریف فضای کاری: هر کاربر میتواند برای هر پروژه، یک فضای کاری جداگانه در نظر بگیرد.
  • قابلیت اتصال به طیف وسیعی از منابع داده ای (مانند ORACLE، PostgreSQL، MySQL، HDFS، SQL Server)
  • قابلیت بارگزاری داده ها از فایل (فایل هایی مانند text, excel)
  • قابلیت فیلتر کردن داده های منابع داده ای بوسیله زبان SQL
  • قابلیت پیاده سازی فعالیتهای مربوط به پیش پردازش اطلاعات (مانند امکان feature-selection به منظور انتخاب ویژگی­های موثر بر مدل­سازی)
  • قابلیت اجرای فعالیتهای مربوط به آموزش مدل، ارزیابی مدل، تست مدل (براساس شاخصهایی مانند lift، منحنی ROC، منحنی PR)، مقایسه مدل ­ها
  • قابلیت استخراج اطلاعات آماری از داده ­ها (قبل از مدلسازی) به منظور ساخت مدل­ های صحیح و بهینه
  • استفاده از موتورهای پردازش الگوریتم­های داده کاوی قدرتمند مانند Spark, Tensor Flow, HIVE 3.
  • کتابخانه غنی داده­کاوی شامل انواع الگوریتم­های دسته­بندی، خوشه ­بندی، تحلیل آماری، تحلیل آماری، متن کاوی، تحلیل شبکه، شناسایی و تطبیق الگو، شبکه عصبی، تخمین و پیش بینی