الصفحة الرئيسية » howto » كيف يمكنني نسخ النص من ملف PDF أثناء الحفاظ على التنسيق؟

    كيف يمكنني نسخ النص من ملف PDF أثناء الحفاظ على التنسيق؟

    PDF ، تنسيق المستند في كل مكان ، يعتبر رائعًا لمشاركة المستندات مع الحفاظ على الخطوط والصور والتخطيط العام عبر الأنظمة الأساسية. هل هناك طريقة سهلة ، مع ذلك ، للحفاظ على هذا التنسيق للغاية عند نسخ ولصق النص خارج المستند?

    تأتي جلسة الأسئلة والأجوبة اليوم مقدمة من SuperUser-a subdivision of Stack Exchange ، وهي مجموعة مجتمعية مدفوعة من مواقع Q & A.

    السؤال

    يبحث قارئ SuperUser Colen عن طريقة لاستخراج النص من ملفات PDF مع الحفاظ على التنسيق:

    عندما أنسخ نصًا من ملف PDF إلى محرر نصوص ، فإنه ينتهي به الأمر في مجموعة متنوعة من الطرق. يتم فقدان التنسيق مثل غامق ومائل ؛ يتم تحويل فواصل الأسطر الضعيفة داخل فقرة من النص إلى فواصل متشددة ؛ يتم الحفاظ على شرطات لكسر كلمة على خطين حتى عندما لا يكونا. يتم استبدال ونقلت مفردة ومزدوجة؟ علامات.

    من الناحية المثالية ، أود أن أتمكن من نسخ النص من ملف PDF وتحويل التنسيق إلى رموز HTML ، وتحويل "علامات الاقتباس الذكية" إلى "و" ، وفواصل الأسطر يتم بشكل صحيح. هل هناك أي طريقة للقيام بذلك?

    هل هناك طريقة سريعة وسهلة لكولين (والباقي منا) للحصول على نصوص دون التضحية بالتنسيق?

    الاجابة

    مساهم SuperUerer Frabjous يقدم حلاً مقترنًا بجرعة كبيرة من الحذر:

    أولا ، عليك أن تفهم ما هو PDF. تم تصميم ملفات PDF لتقليد صفحة مطبوعة ، وهي مصممة فقط كتنسيق إخراج ، وليس بتنسيق إدخال. PDF هو في الأساس خريطة تحتوي على الموقع الدقيق للأحرف (الحروف الفردية أو علامات الترقيم ، إلخ) أو الصور. في معظم الحالات ، لا يقوم ملف PDF حتى بتخزين معلومات حول المكان الذي تنتهي فيه كلمة واحدة ويبدأ آخر ، ناهيك عن أشياء مثل الفواصل الناعمة مقابل الفواصل الصعبة لنهايات الفقرة.

    (تقوم بعض ملفات PDF الحديثة بتخزين بعض المعلومات حول هذه الأشياء ، ولكن هذه تقنية جديدة ، وستكون محظوظًا للعثور على ملفات PDF من هذا القبيل. حتى لو فعلت ذلك ، قد لا يعرف عارض PDF الخاص بك.)

    على أي حال ، الأمر متروك للبرنامج الخاص بك لتنفيذ نوع من "الذكاء الاصطناعي" لاستخراج فقط من مواقع الشخصيات الفردية ما هي الكلمة ، ما هي فقرة ، وهلم جرا. هناك برامج مختلفة ستفعل هذا بشكل أفضل من غيرها ، وستعتمد أيضًا على كيفية إنشاء ملف PDF. على أي حال ، يجب ألا تتوقع نتائج مثالية أبدًا. وجود إخراج PDF ليس هو نفسه وجود المستند المصدر. أفضل بكثير في محاولة للحصول على ذلك إذا كنت تستطيع.

    الحل القياسي لنوع المشكلة لديك هو استخدام Adobe Acrobat Professional (البرنامج المكلف ، وليس القارئ المجاني) لتحويل PDF إلى HTML. حتى هذا لن تحصل على نتائج مثالية.

    هناك برامج مجانية يمكن استخدامها لاستخراج النصوص من ملفات PDF مع بعض التنسيقات سليمة ، ولكن مرة أخرى ، لا تتوقع نتائج مثالية. انظر ، على سبيل المثال ، العيار (الذي يمكن تحويله إلى تنسيق RTF) أو pdftohtml / pdfreflow أو معالج كلمات أبي ورد (مع تمكين كل المكونات الإضافية للاستيراد / التصدير). هناك أيضًا ملحق استيراد PDF لـ OpenOffice.

    ولكن من فضلك لا تتوقع الكمال مع أي من هذه النتائج. أنت تسير ضد الحبوب هنا لا يقصد PDF فقط كتنسيق إدخال قابل للتحرير.

    إذا كنت تواجه مشكلة في تحديد الأداة التي تبدأ بها ، فإن Calibre هي وثيقة حقيقية من سكين الجيش السويسري. يمكنك أيضًا استخدامه لتحويل ملفات PDF لاستخدامها في قارئ الكتاب الإلكتروني الخاص بك وتنظيم مكتبة الكتب / المستندات.


    هل لديك شيء تضيفه إلى الشرح؟ الصوت قبالة في التعليقات. هل ترغب في قراءة المزيد من الإجابات من مستخدمي Stack Exchange الآخرين المحترفين بالتكنولوجيا؟ تحقق من موضوع المناقشة الكامل هنا.